念卿天涯 发表于 2025-10-13 02:04:59

高频因子挖掘中的过拟合陷阱

最近在回测一个多因子模型时遇到了典型的过拟合问题。模型在样本内表现优异,年化收益超过30%,但在样本外测试中却出现持续亏损。经过仔细分析,发现主要问题在于因子数量过多且缺乏经济学逻辑支撑。

在构建过程中,我们使用了超过200个技术指标和基本面因子,通过机器学习方法进行筛选。虽然回测结果看起来很完美,但实际上很多因子只是偶然与历史价格产生了相关性。特别是在处理高维数据时,即使使用LASSO等正则化方法,仍然难以完全避免数据窥探偏差。

建议同行们在开发策略时,一定要严格控制因子数量,注重因子的经济学解释,并且进行充分样本外测试。另外,建议采用更严格的多重假设检验校正方法,比如Bonferroni校正或FDR控制。记住,一个稳健的策略不在于它在历史数据上表现多好,而在于它在未来能否持续盈利。
页: [1]
查看完整版本: 高频因子挖掘中的过拟合陷阱