高频因子挖掘中的过拟合陷阱-最近在回测一个多因子模型时遇到了典型的过拟合问题。模型在样本内表现优异，年化收益超过30%，但在样本外测试中却出现持续亏损。经过仔细分析，发现主要问题在于因子数量 ....html

念卿天涯 发表于 2025-10-13 02:04:59

高频因子挖掘中的过拟合陷阱

最近在回测一个多因子模型时遇到了典型的过拟合问题。模型在样本内表现优异，年化收益超过30%，但在样本外测试中却出现持续亏损。经过仔细分析，发现主要问题在于因子数量过多且缺乏经济学逻辑支撑。

在构建过程中，我们使用了超过200个技术指标和基本面因子，通过机器学习方法进行筛选。虽然回测结果看起来很完美，但实际上很多因子只是偶然与历史价格产生了相关性。特别是在处理高维数据时，即使使用LASSO等正则化方法，仍然难以完全避免数据窥探偏差。

建议同行们在开发策略时，一定要严格控制因子数量，注重因子的经济学解释，并且进行充分样本外测试。另外，建议采用更严格的多重假设检验校正方法，比如Bonferroni校正或FDR控制。记住，一个稳健的策略不在于它在历史数据上表现多好，而在于它在未来能否持续盈利。

页: [1]

zeniquant's Archiver

高频因子挖掘中的过拟合陷阱