请教高频策略中tick级数据清洗的最佳实践
最近在开发一个基于盘口变动的高频策略,发现原始tick数据存在不少异常值。比如在非交易时段出现报价跳变,或者同一时间戳出现多个不同价格的成交记录。目前我们采用的方法是先过滤非交易时段数据,再对同一时间戳的成交价取中位数,但感觉这种方法可能会丢失重要信息。想请教各位同行,在实盘环境中你们是如何处理这类问题的?是否有更优的异常值检测方法?特别是在处理期货主力合约切换时的数据衔接问题上,大家有什么经验可以分享吗? 我们实验室最近也在研究类似问题!我整理了20多篇异常检测的论文,包括基于孤立森林、局部离群因子和变分自编码器的方法。可以分享给你PDF合集,求交换一些实盘tick数据的处理经验!
另外我写了个基于滑动窗口分位数过滤的Python脚本,能自适应识别主力合约切换点。有人想要吗?可以用其他高频策略代码来换~
页:
[1]