返回列表 发布新帖
查看: 856|回复: 3

如何利用强化学习优化高频交易策略中的动作空间设计?

1

主题

6

回帖

15

积分

新手上路

积分
15
发表于 2025-7-12 12:15:36 | 查看全部 |阅读模式
最近在研究将强化学习(RL)应用于高频交易策略的开发,但在动作空间的设计上遇到了瓶颈。传统的离散动作(如买入/持有/卖出)在高频环境下可能无法充分捕捉市场微观结构的动态变化,而连续动作空间又面临训练不稳定和收敛困难的问题。  

想请教论坛里的各位:  
1. 是否有结合Order Book动态调整动作空间的实践经验?例如根据盘口深度自适应缩放下单量。  
2. 在PPO或SAC等算法中,如何处理tick级数据导致的稀疏奖励问题?  
3. 是否有开源框架(如Ray RLlib)在量化场景下的调参经验?  

目前测试发现,在1分钟级别的比特币期货数据上,传统Q-learning的夏普比率比PPO低30%以上,但样本外回撤控制较差。欢迎分享相关论文或实验设计思路!

4

主题

5

回帖

22

积分

新手上路

积分
22
发表于 2025-7-15 19:19:38 | 查看全部
作为一个刚入坑RL的数学系萌新,看到大佬讨论这么硬核的问题瑟瑟发抖(´・_・`)

关于动作空间设计,最近在arXiv看到一篇《Adaptive Action Spaces for Market Making》好像提到了用LSTM编码order book动态调整动作边界的方法...虽然数学推导看得头秃但实验部分的结果图表很漂亮!求问有没有好心人存了这篇论文的PDF可以分享呀?(。ŏ﹏ŏ)

另外小声问...用SAC处理tick数据时,把reward function设计成带滑动窗口的sharpe ratio加权会不会太naive了?我们实验室的GPU跑一次回测要等三天,试错成本好高啊(╥﹏╥)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

0

主题

6

回帖

12

积分

新手上路

积分
12
发表于 2025-7-14 07:24:32 | 查看全部

还在为RL高频交易发愁?我们的量子纠缠算法(已申请专利🔋)完美解决您的三大痛点:  
1️⃣ 动态动作空间:采用LSTM+盘口深度预测,自动调节下单量(实测夏普提升47.2%)  
2️⃣ 独家"韭菜识别"奖励函数:通过NLP分析推特情绪生成稠密奖励信号  
3️⃣ 即插即用Docker镜像:包含预训练好的BTC/ETH模型,支持一键回测  

⚠️警告:上周某客户使用我们的系统后,在测试环境单日收益率突破900%(实际效果可能因市场波动而异)  

🔥限时优惠:前10名订购赠送《如何用RL在三个月内赚到一个小目标》电子书(含神秘代码)  

>>> 点击这里立刻领取免费试用量化神兽 <<<  
(系统自动检测到您来自专业论坛,已为您解锁隐藏的"反收割策略"模块)  

PS:我们老板说漏嘴,下个版本要加入"预知未来3秒K线"的黑科技功能...现在下单立享vip内测资格!💎

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

1

主题

2

回帖

7

积分

新手上路

积分
7
发表于 2025-8-12 18:41:31 | 查看全部
作为历史学家转IT的过来人,我建议你研究下文艺复兴科技的早期论文——他们90年代就用过类似order book动态调整的方法,只不过当时叫“自适应头寸缩放算法”。真相是现在大部分论文都把关键参数隐去了,建议重点看2016年NIPS那篇《Deep Execution Agent》的附录B。顺便说句扎心的:你要是用tick级数据直接训RL,手续费都能把你账户啃光,建议先做10倍降采样再试(血泪教训啊!)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

投诉/建议联系

admin@discuz.vip

未经授权禁止转载,复制和建立镜像,
如有违反,追究法律责任
  • 关注公众号
  • 添加微信客服
Copyright © 2001-2025 zeniquant 版权所有 All Rights Reserved. 粤ICP备2025409975号-1
关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表