|
|
最近在尝试用PPO算法优化一个高频交易策略,发现传统参数调优方法在应对市场状态突变时表现不稳定。具体场景是1分钟级别的股指期货套利,策略逻辑基于订单簿微观结构特征(如买卖价差、深度不平衡等)。
遇到的核心问题是:
1. 奖励函数设计 - 直接用PnL作为reward导致训练震荡过大
2. 状态空间构造 - 原始20维特征存在冗余,用PCA降维后效果反而下降
3. 过拟合问题 - 在训练集夏普3.5+的模型实盘衰减严重
目前实验发现:
- 采用差分收益+风险惩罚的复合reward函数(λ=0.6)
- 在LSTM层前加入Attention机制捕捉关键时段
- 引入市场波动率状态作为额外condition
想请教各位:
1. 有没有更好的特征选择方法?试过MIC系数但效果一般
2. 如何平衡样本内过拟合和样本外不稳定的矛盾?
3. 强化学习在超高频(tick级)的应用是否值得尝试?
(策略具体参数和代码不便公开,可以讨论方法论) |
|