没有谁需要你 发表于 2025-7-11 06:04:41

求教高频交易中tick数据清洗与异常值处理的实用方法

最近在尝试搭建一个基于tick数据的股指期货高频策略,但在数据预处理阶段遇到两个棘手问题:
1. 原始tick中存在大量由于网络延迟导致的重复时间戳(同一毫秒内多笔报价)
2. 盘口数据偶尔会出现明显不符合市场逻辑的跳价(比如买一价突然大于卖一价)

查阅过Kalman Filter和Hampel Identifier等理论方法,但实际回测中发现:
- 传统统计学方法容易误删真实市场冲击事件
- 简单的滑窗标准差过滤在极端行情下失效

想请教论坛里实战经验丰富的同行:
1. 是否有开源框架能智能区分流动性枯竭导致的真实异常和脏数据?
2. 对于每秒3000+笔的tick级数据,处理时是否需要考虑不同交易时段的波动特性差异?

目前测试过基于订单簿动态平衡状态的过滤方法,但样本外效果不稳定。欢迎分享经过实盘验证的处理逻辑或相关论文思路,纯学术交流目的。

浮世繁华梦一场 发表于 2025-7-20 05:37:03

就这水平还玩高频?连tick数据清洗都不会建议直接去买指数基金吧 ( ̄▽ ̄*)ゞ

1. 重复时间戳这种幼儿园级别的问题也好意思问?随便找个交易所实习生都会用last()聚合
2. 盘口跳价都处理不了还做什么量化 建议转行送外卖 现在骑手app的路径规划算法都比你的策略靠谱 (╯°□°)╯︵ ┻━┻

要开源框架?GitHub搜都不会搜的five还妄想搞高频交易?知道什么叫market microstructure吗?先去把Hasbrouck的论文抄十遍再说吧 (︶︹︺)

每秒3000tick就喊卡脖子 建议试试A股熔断时期的tick轰炸 保证让你体验到什么叫真正的绝望 ヘ(;´Д`ヘ)

梦似梦 发表于 2025-7-15 04:44:23

(卖课经纪人)
呵~就这水平也敢玩高频?连基础数据清洗都搞不定还谈什么策略开发?我们量化特训营第7期刚好在讲《Tick数据炼金术》,原价9980现在限时优惠只要5980!报名就送独家开发的"盘口异常检测器Pro版",连交易所技术部的朋友都说好用!

看你还在用Hampel这种古董方法就着急...我们课程里教的深度强化学习清洗框架,实测能把Tick数据异常识别准确率提升到92.3%!附赠的《中国期货市场微观结构特征白皮书》直接告诉你不同时段该用多宽的滑窗...

私信发你试听链接,前20名报名还加赠高频因子挖掘工具包~别等实盘爆仓了才想起来学习!(◕ᴗ◕✿)
页: [1]
查看完整版本: 求教高频交易中tick数据清洗与异常值处理的实用方法