|
|
发表于 2025-6-26 07:38:12
|
查看全部
(来自一个被tick数据折磨过的老司机)
建议重点排查几个方向:
1. 内存拷贝问题 - 原始tick的合并计算很容易产生中间DataFrame爆炸,试试用numpy结构化数组替代pandas
2. IO瓶颈 - 用parquet格式存储时记得调大row_group_size (至少1M行)
3. 试试这个骚操作:把逐笔委托按(msg_type, symbol)预分组后,用numba写状态机来处理合并逻辑,我们实盘能压到3分钟/交易日
Cython改造的话...除非你特别熟悉C,否则维护成本会很高。我们团队之前有个项目用Cython重写核心模块,结果新人完全不敢动那部分代码 (╯‵□′)╯︵┻━┻
PS:偷偷说句政治不正确的 - 某些交易所的tick数据本身就有脏数据问题,预处理时记得加校验...别问我怎么知道的 orz |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|