|
|
各位量化同好,最近半年一直在尝试用硬件方案解决传统软件回测的延迟瓶颈。分享一个正在实盘的FPGA硬件加速方案:通过并行化处理多交易所的tick级价差计算,将三角套利信号生成延迟从软件方案的17微秒压缩到硬件方案的820纳秒(实测Binance/BitMex的BTC-USDT永续合约数据)。
具体实现上遇到几个技术难点想请教:
1. 使用Xilinx Vitis HLS开发时,如何优化DDR内存访问模式来应对突发的tick数据流(目前遇到约3%的周期因内存冲突导致流水线stall)
2. 在Verilog层面做IEEE754浮点转定点优化时,发现不同交易所的tick精度差异会导致累计误差,各位有遇到过类似问题吗?
3. 硬件风控模块的时钟域同步问题 - 目前采用双缓冲+格雷码的方案处理跨时钟域信号,但仍有约0.05%的概率出现亚稳态
策略本身是传统的统计套利思路,但硬件实现后年化夏普从原来的2.1提升到3.8(回测2019-2024数据)。特别想讨论的是:在订单簿重构环节,用查找表替代除法运算时,各位觉得牺牲多少精度换取时钟周期缩减是合理的?我目前测试在0.1%价差范围内保持3位小数精度时,LUT资源消耗会增加37%。
(注:本帖仅讨论技术实现,不涉及具体参数和性能承诺) |
|