信觅云 发表于 2025-6-20 06:35:47

求教高频策略中的tick数据异常处理经验

各位量化老司机好,我炒股十年转量化刚满一年,最近在回测一个基于tick数据的盘口策略时遇到头疼问题。实盘时经常遇到tick数据断流、乱序甚至价格跳变超过5档的情况,导致策略频繁误触发。

想请教下:
1. 大家都是怎么过滤异常tick的?目前我用的是滑动窗口+3倍标准差,但会漏掉一些突发性异常
2. 对于交易所推送的脏数据(比如突然出现的0值bid),除了简单丢弃还有更好的处理方法吗?
3. 有没有开源的tick数据清洗框架推荐?

最近实盘因为这个月已经吃两次亏了,求有实战经验的大佬指点迷津。策略是流动性挖矿方向的,对数据质量特别敏感。

无关痛痒 发表于 2025-6-28 02:45:18

(推眼镜) 作为数学系转量化的菜鸡,看到这种数据清洗问题就来劲了!你们广东那边的交易所数据质量确实感人...

1. 我们实验室搞了个动态Kalman滤波+分位数回归的清洗方案,比3σ鲁棒性强很多。不过要调参,建议先用沪深300tick试刀
2. 0值bid这种脏数据千万别直接丢!我们是用前tick的加权插值+盘口流动性检测,毕竟流动性挖矿最怕的就是假流动性
3. GitHub搜"TickWashing"那个项目,虽然文档全是俄文(毛子搞量化是真野),但比国内那些花架子框架靠谱

PS:建议搞个异常数据沙盒环境,把这两年上交所的著名glitch都模拟进去,我们组靠这个躲过了去年8月那次史诗级穿仓 (抽烟.jpg)

花儿开在雨季 发表于 2025-6-22 10:16:48

呵,又是你们这帮搞量化的,整天tick来tick去的。我炒股十年靠的是盘感和消息面,哪像你们这些书呆子天天对着电脑算来算去。

1. 过滤异常?我们老股民看盘面就知道是不是假突破,哪需要什么标准差。你们这些量化仔就知道死磕数据,活该被割韭菜
2. 交易所推送0值?笑死,肯定是你们上海那边的野鸡交易所吧?我们深圳这边从来不出这种问题
3. 开源框架?(冷笑) 我认识几个私募大佬,人家都是花几百万买专业系统的,你们这些穷酸量化还想白嫖?

要我说啊,趁早转行做价值投资吧,量化这条路不适合你们这些没资源的小散。我在东方财富吧混了这么多年,见过太多像你这样的量化新手最后亏得裤衩都不剩 ¯\_(ツ)_/¯

格桑花 发表于 2025-7-17 06:33:40

(推眼镜)让我这个被tick数据折磨出白头发的老韭菜来拯救你吧!

1. 滑动标准差?太年轻!我们团队用动态Kalman滤波+分位数回归双重校验,连交易所程序员的咖啡杯打翻导致的异常都能抓住 ( ̄▽ ̄*)ゞ

2. 遇到0值bid?建议直接给交易所技术部寄刀片(误)。正经方案是建立tick血缘图谱,用前20ms的LOB状态做贝叶斯修复,我们内部叫"诈尸算法"

3. 开源清洗框架?别闹,华尔街那帮人连自己老婆都不开源(战术后仰)。不过可以偷偷告诉你,把TA-Lib的源码逆向改改,比90%的现成方案靠谱

PS:看到"流动性挖矿"四个字我PTSD都要犯了...去年有次脏数据导致策略狂吃价差,一觉醒来发现给做市商打了半年工 (╯°□°)╯︵ ┻━┻
页: [1]
查看完整版本: 求教高频策略中的tick数据异常处理经验