关键词:
沪深300指数
涨跌滚动预测
AIS
机器学习
摘要:
股票市场预测是金融界最热门、最有价值的研究领域之一,随着交易所电子交易系统的快速发展,股票交易中的订单处理时间急剧缩短,在几分钟或几秒钟内执行指令的高频交易激增。股票价格,尤其是高频的日内股价,其非线性和时变性使得预测具有很大难度,传统的预测方法通常会对数据施加一些非常严格的数学假设,在现实世界中也就很难应用起来。机器学习方法有着超高的计算效率,在生活服务、企业管理和金融科技等领域表现亮眼,学术研究中也有越来越多的学者开始使用机器学习方法对股价进行预测研究,并取得了较好的实证结果。输入指标,被用作机器学习器的输入,其中一个关键问题是如何确定一套富含信息且具有区分性的输入指标,但如何确定更有价值的输入指标从而提高预测准确率仍有待研究。本文尝试对沪深300指数的每分钟数据进行分析研究,采用传统计量方法和机器学习方法对指数未来5分钟的涨跌情况进行预测,实证检验高频数据下机器学习方法能否取得优于计量ARMA模型的预测结果,并着重讨论相对比DIS(固定指标输入法),适应数据变化的AIS(自适应指标输入法)能否改善机器学习方法的预测准确率,进而探寻得一种更优的输入指标方法。为了充分验证实证结果,本文也对上证指数和深圳成指两只股指的涨跌情况进行了预测研究,检验基于沪深300指数数据得出的实证成果是否具有普适性。论文选用数据为2020年10月1日至2020年11月30日沪深300指数、上证指数和深证成指3只指数每分钟的价格数据,累计共有37个交易日,每只指数每日240个指数价格数据累计共8880个数据。输入指标上沿用了8个经典的价格类输入指标,分别为相对价差RDP、移动平均MA、指数移动平均EMA、相对移动平均偏离率DISP、相对指数移动平均偏离率EDISP、移动平均变动率OSCP、指数移动平均变动率EOSCP和相对强度指数RSI。而输入指标方法选用了DIS(固定输入指标法)和AIS(自适应指标输入法),其中DIS法基于上述8类输入指标基础,其时间参数选取了前人研究中实证结果较好的一些参数,累计共有23个输入指标,AIS则相应地扩大了输入指标的时间参数,以便在选取输入指标时能考虑到最优的输入指标,而DIS和AIS输入指标的优劣排序则参考T检验者和信息增益IG值。确定每组实证数据的输入指标后,先将训练集数据分别输入到支持向量机SVM和XGBoost中进行学习训练,最后对测试集数据进行预测并检验模型预测的准确率,在实证过程中将进行滚动预测,每6天为一组实证数据,其中前5天为训练集数据,之后的第6天为测试集数据,依次类推进行滚动预测,共涉及32组实证数据。实证结果表明:(1)沪深300指数、上证指数和深证成指的最优预测模型一致,都是以信息增益IG值为排序标准并通过AIS(自适应指标输入法)确定输入指标,然后采用支持向量机进行预测的模型;(2)对比计量模型与机器学习模型的实证结果可知。支持向量机的整体预测效果最好,在运算速率上XGBoost远优于支持向量机模型和ARMA模型,在预测准确率上支持向量机SVM的预测结果优于ARMA模型和XGBoost,其中XGBoost模型的表现最差,且支持向量机具有较好的预测稳定性;(3)对比DIS与AIS两个输入指标方法可知,相比于DIS法,适应数据变化的AIS方法能显著提高机器学习模型的预测准确率,且AIS方法下预测稳定性得到了小幅改善。本文在总结学习前人的宝贵研究成果上,对沪深300指数高频数据的涨跌情况进行预测研究,并重点讨论了机器学习方法下DIS法(固定指标输入法)和AIS法(自适应指标输入法)能否提高机器学习的预测准确率,丰富我国基于高频指数数据的机器学习方法的研究,并对提高输入指标的有效性的方法进行了验证,具有一定的理论意义和实践意义。