返回列表 发布新帖
查看: 427|回复: 5

求教高频交易策略中tick数据处理的优化方法

6

主题

6

回帖

30

积分

新手上路

积分
30
发表于 2025-6-26 21:02:38 | 查看全部 |阅读模式
各位前辈好,我是一名金融工程专业的研究生,最近在研究高频交易策略时遇到tick数据处理效率的瓶颈。  

目前使用Python处理1天的level1 tick数据(约2000万条)需要近30分钟,主要流程包括:  
1. 原始数据解析和校验  
2. 买卖盘重构  
3. 异常值过滤  
4. 生成1秒级快照  

尝试过pandas和numpy优化,但性能提升有限。想请教:  
1) 在处理超高频数据时,是否有必要转用C++等低级语言?  
2) 针对tick数据的特征,有哪些值得注意的内存优化技巧?  
3) 订单簿重建过程中,如何平衡计算精度和性能?  

实验室设备配置为i7-12700+64G内存,目前主要使用TA-Lib进行特征计算。期待各位分享实际项目中的优化经验,感谢!

3

主题

5

回帖

19

积分

新手上路

积分
19
发表于 2025-6-27 02:50:07 | 查看全部
(⊙o⊙)哇大佬们讨论的好专业啊!作为一个刚入门的萌新小白,看到这些tick数据、高频交易之类的名词完全是一脸懵逼...  

不过我们历史系做量化分析的时候也遇到过类似问题!去年处理古代物价数据的时候,用Python处理几十万条记录就卡得不行,后来学长教我用PyPy解释器提速,效果还不错~  

虽然完全不懂金融工程,但想弱弱地问下:  
1) 听说Rust语言在数据处理方面表现很好?(虽然我连Hello World都写不出来...)  
2) 大佬们说的TA-Lib是像我们用的SPSS那样的工具吗?  
3) 64G内存的电脑要多少钱啊...我们实验室还在用10年前的联想...(;′⌒`)  

求轻喷,纯属好奇围观学习!(✧ω✧)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

1

主题

6

回帖

15

积分

新手上路

积分
15
发表于 2025-7-1 13:11:03 | 查看全部
笑死,就这水平也敢说自己搞高频交易?30分钟处理1天数据也好意思发帖问?  

1) 用Python搞高频?建议直接转行送外卖比较快 : ) 真正的quant谁不是C++起手?连这点基础都没有建议重修计算机导论  

2) 64G内存都救不了你的垃圾代码,知道什么叫内存映射吗?用过PyArrow吗?不会真有人2024年还在用原生pandas处理tick数据吧?  

3) 订单簿重建还要问精度和性能平衡?建议先把TA-Lib的文档读十遍,连最基本的order book dynamics都不懂就别装专业了  

(附上我去年实习时写的C++版tick处理器GitHub链接,虽然删库了但吊打你的破Python脚本100倍)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

2

主题

7

回帖

18

积分

新手上路

积分
18
发表于 2025-7-13 00:25:56 | 查看全部
作为一个高频交易回测爱好者,我也遇到过类似的问题!(`・ω・´)

1) 强烈建议试试Rust而不是C++,我们团队用Rust重写核心模块后处理速度提升了8-10倍,而且内存安全特性对金融数据处理特别友好。最近在找靠谱的Rust量化开发外包团队,楼主有兴趣可以私聊~

2) 内存优化方面我们有个骚操作:把tick数据按股票代码分片存储为parquet格式,配合Dask做懒加载,内存占用直接减半。不过现在急需能优化这个方案的大佬,有偿求合作!

3) 订单簿重建我们采用事件驱动+增量更新,但最近回测发现精度问题导致滑点估算偏差。重金悬赏能搞定3档盘口实时重建的解决方案,预算5w起,可走公司合同!

顺便求购二手IB高频API账号,价格好商量~ (๑•̀ㅂ•́)و✧

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

1

主题

3

回帖

9

积分

新手上路

积分
9
发表于 2025-7-16 02:45:19 | 查看全部
作为一个同样被tick数据折磨过的金融狗,我来说点大实话 (´-﹏-`;)  

1) 别急着跳C++坑!我们组实测过,用numba给python加速后处理速度能提升5-8倍,代码改动量还小。除非你要做HFT实盘,否则性价比太低惹 ( ̄▽ ̄*)  

内存优化重点在:  
- 把datetime转成int64时间戳  
- 用category类型存证券代码  
- 预处理时就drop掉不需要的字段  

订单簿重建这个...我们老板说能用线性插值就别搞什么三次样条,实测误差0.1%以内但速度快3倍 (╯°□°)╯︵ ┻━┻  

顺便求问楼主用的哪家的level1数据?我们最近在找便宜的tick数据源...学校经费你懂的 (;一_一)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

0

主题

12

回帖

24

积分

新手上路

积分
24
发表于 2025-7-17 11:21:59 | 查看全部
大佬求带!本人历史系刚转量化,正在自学Python,看到这个帖子太及时了。请问有没有人出二手的tick数据处理教程或者代码模板?预算500以内,可小刀。顺便问下TA-Lib安装老是报错怎么办?在线等挺急的!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

投诉/建议联系

admin@discuz.vip

未经授权禁止转载,复制和建立镜像,
如有违反,追究法律责任
  • 关注公众号
  • 添加微信客服
Copyright © 2001-2025 zeniquant 版权所有 All Rights Reserved. 粤ICP备2025409975号-1
关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表