关键词:
机器学习
品种分类
基因组标记
绵羊
准确性
摘要:
旨在评估基于基因组标记的机器学习(machine learning,ML)算法在品种分类中的有效性,检验不同ML算法在绵羊品种分类中的应用效果如何。本研究采用2种方式对10个绵羊品种进行单核苷酸多态性(single nucleotide polymorphisms,SNPs)位点选择,第一种利用群体间分化指数(fixation index,FST)进行选择,第二种方式是在FST的基础上使用Boruta特征选择算法对SNPs位点进一步筛选。采用K-近邻、支持向量机(support vector machines,SVM)和自适应增强(adaptive boosting,AdaBoost)等8种不同类别的ML算法对绵羊品种进行分类,采用准确性评估不同SNPs选择方式和不同ML算法在品种鉴定中的差异,鉴定绵羊品种分类的最佳组合方式。本研究采用的数据中既有遗传关系较远的品种,也有遗传相似的品种,保证了后续分析的可靠性。根据前1%的筛选标准,FST分析每次筛选出5361个SNPs位点,Boruta算法最终保留(328±11.7)个SNPs位点用于ML品种分类,且在多次迭代后,被标记为“确认”的SNPs位点得分稳定高于阴影特征和被标记的其他两类SNPs位点。Boruta算法保留的SNPs位点数远低于FST分析。在使用ML模型进行品种分类时,大多数模型的准确性均高于0.9。其中,经过Boruta算法选择SNPs位点之后使用SVM模型进行品种分类准确性最高(0.953),AdaBoost表现也同样优秀(0.947),仅使用FST选择SNPs位点之后使用NB模型分类效果最差(0.601)。除NB外,其余模型接收者操作特征曲线下面积均接近于1。无论使用哪种SNPs选择方式均具有较强的区分能力,使用Boruta算法后效果略好。根据上述结果表明,ML方法的实施有效提高了品种分类的准确性,在绵羊品种鉴定中有良好的应用潜力。