|
|
最近在《星际争霸2》天梯排位赛中发现一个有趣现象:职业选手的微操决策模式与量化中的动态仓位调整高度相似。受此启发,我尝试将Double DQN算法应用于A股多因子轮动场景,核心思路是把因子暴露度视为"兵种组合",市场状态对应"战场地形"。
经过3年历史数据回测(2019.1-2022.1),在控制单边手续费0.15%的条件下,策略年化收益达到27.6%,最大回撤14.3%。特别值得注意的是,在2020年3月流动性危机期间,模型通过自适应降低风险敞口(类似游戏中的"切屏救兵"操作),相较等权基准少损失8.2%。
目前实盘运行6个月,遇到两个关键问题想请教:
1)Tick级数据下模型对因子IC衰减的响应延迟(类似游戏中的APM瓶颈)
2)如何平衡策略的exploration/exploitation比例(类比天梯赛中的套路创新与稳健运营)
欢迎对强化学习或RTS游戏策略有研究的同道深入探讨,特别想了解其他玩家在实盘部署时如何处理神经网络的热更新问题。 |
|