关键词:
非财务信息
债券违约
机器学习
摘要:
随着债券“违约潮”的来临,近几年信用债违约现象越来越严重,违约债券数量呈现指数型增长。自2014年首次出现违约以来,截至到2019年,违约债券数量已经达到2014年的50倍,由此可见信用债违约风险不容忽视。学术界广泛使用的债券违约风险预测模型多使用财务数据,对于非财务数据的使用较少。财务数据在使用过程中经常出现披露不及时、财务数据造假等现象,在应用中存在一定局限性。事实上,非财务数据中包含大量有关企业经营管理的信息,这部分信息没有被利用,但在预测债券违约风险时能起到重要作用。非财务信息包括很多种类,公告是非财务信息的重要来源之一,是发债主体向外界传递信息最直接的通道。公告中包含人事变动、会议决策、重大事项、处罚等对公司经营管理产生巨大影响的信息,这些信息能够体现公司的经营管理情况,反应管理层对公司的信心,是财务数据无法反应出来的。因此,本文利用非财务信息中的公告对信用债违约风险进行预测。本文的第一部分是综述部分。首先论述了债券违约风险相关研究背景和研究意义。然后是文献综述部分,从违约风险模型和情感分析技术两个方面总结国内外已有文献,为建模提供理论基础和研究方向,并在此基础上提出本文的创新点。本文的第二部分对违约债券的数量、分布、行业及其公告类型角度进行描述性统计分析,将公告全方位、多维度进行分类,为后续建模提供数据支持。第三部分是模型的构建部分。首先将能够进行情感分析的公告进行情感分析,对于不能进行情感分析的公告,直接统计数量输入模型建模。其次,本文根据样本数据特点和逻辑特点选择两个机器学习模型:决策树模型和支持向量机模型。为了选择最优模型,对两个备选模型分别进行训练和评价,选出准确率更高的模型。最后,将调参后的模型代入测试集测试,经比较最终选择支持向量机模型进行实证。第四部分是本文的实证分析部分。本文选取了 2014年至2019年全部违约信用债券进行预处理后的数据作为原始违约数据。为了解决违约债券数量和未违约债券数量的不平衡的问题,本文按照1:5的比例随机选取未违约债券共同作为原始数据。对原始数据进行处理后输入模型,得到最终模型的准确率可达到95.06%,AUC值达到0.92,表明相较于传统违约风险预测模型,本文的模型预测能力更强,适用性更强。第五部分是本文的总结。首先是本文的结论。基于本文共得出以下四个结论:1.优化后的支持向量机模型能够很好地预测信用债违约风险。2.本文模型对未违约债券的预测准确率高于违约债券。3.引起违约债券预测误差的主要原因是违约主体公告信息披露的过少或不及时。4.非财务数据在债券违约风险预测中有较好的应用。其次是文章的不足和展望。最后基于投资者、监管者和评级机构的角度提出的建议。本文有以下两个创新点:第一、本文利用非财务信息对信用债违约风险预测,建模采用的数据是对公告进行文本分析得到的,对比传统用财务数据预测风险,具有创新性。第二、现有关于公告情感分析的研究都是用公告数据和其他财务数据共同作为自变量,这样会使公告变量的权重降低,削弱公告对违约风险的预测能力。本文将公告拆分成多个定类变量和定比变量,只探究公告对违约风险预测能力,不加入任何财务数据,相较于现有研究,具有一定的创新性。