关键词:
企业信用
数据库
主成分分析
神经网络
决策树
摘要:
随着中国经济的飞速发展,我国金融市场的开放程度逐渐打开,由风险投资带来的不良违约率也在逐年上升,因此建立有效的企业信用评估体系及评估模型已显得尤为重要。本文的研究主要包括绪论,机器学习理论、实证分析、模型结论四个章节。首先,依据信用评估的准确性、系统性、科学性、可操作性等原则,构建包含流动比率、总资产增长率、资产报酬率等共计59个指标的信用评估指标体系。利用My SQL技术,对来自国泰安数据库,瑞思数据库和中经网统计数据库的2020年经营中的4082家上市公司的样本数据进行整合,清洗,前后两期插补,并进行数据的缺失值分析,异常值分析与多重共线性问题检验。其次,利用主成分法对数据进行降维处理,消除指标间的共线性问题,依据特征值接近于1,提取24个综合指标,列出主成分与指标间的线性表达式,并计算其得分值,将样本的得分值作为后续模型的特征属性。再次,将训练集与测试集样本按照违约样本与非违约样本的不同,按照7:3的比例进行划分,再通过调节神经网络模型与决策树模型的参数,进行对比分析,建立了包含2个隐含层,激活函数为逻辑S形,初始学习率为0.4的BP神经网络模型。接着建立生长法则为CHAID,最大树深度为3,最大迭代次数为100的决策树模型。然后,利用K-近邻算法、朴素贝叶斯算法、支持向量机算法、逻辑回归模型及多元判别分析进行多模型比较。最后通过混淆矩阵计算各模型的准确率、第一类错误率、第二类错误率及样本的几何均值来评估模型。结果表明,双层BP神经网络和决策树模型的准确率分别为0.982和0.984,在众多模型中准确率较高,且决策树模型的两类错误率分别为0.0038,0.2187,两类错误率最低,因此决策树在企业信用评估中表现出的综合性能最优。对比于传统的逻辑回归模型,机器学习方法在大样本的情况下对于企业信用评估优于逻辑回归模型。