关键词:
农业
命名实体识别
深度学习
注意力机制
自然语言处理
摘要:
农业命名实体识别是农业自然语言处理的重要基础任务,是构建农业智能问答系统的关键技术环节。高质量的命名实体识别模型能够为农业信息抽取、语义检索等任务提供有效支撑。目前,农业领域命名实体识别研究还存在以下挑战:(1)农业实体命名方式多样化、实体边界模糊,实体自身复杂的特性影响模型性能,以单句为处理单元的模型,造成实体标记不一致;(2)农业实体在不同语境下,表达含义不同,存在一词多义的现象;(3)农业语料库实体分布不均匀,存在罕见或未知实体,模型无法学习丰富的实体特征信息,造成该类实体识别率低;(4)汉字笔画和偏旁部首包含丰富的汉字语义信息,现有基于字级、词级的命名实体识别方法,忽略了汉字本身的特征信息,造成汉字潜在特征表征不足,一定程度上影响模型性能。针对上述农业命名实体识别的挑战,本文基于深度学习技术开展农业领域命名实体识别研究,主要研究内容如下:(1)为缓解命名实体自身特性对模型造成的影响,提出一种基于注意力机制的Att-BiLSTM-CRF方法。通过Word2vec预训练工具,基于CBOW模型在大规模无标注的语料集上获取农业文本字级向量表示,缓解错误的分词结果对模型性能的影响;引入文档级Attention机制,增加模型对目标实体的关注度,以文档为模型处理单元,通过余弦对齐函数获取目标实体与相关实体的相似度,缓解实体标记不一致的问题。在文档级Attention机制的基础上,为降低模型对外部输入数据的依赖程度,设计了一种基于多头自注意力机制的MHA-BiLSTM-CRF方法,进一步提升模型的性能。多头自注意力机制通过Self-Attention机制,更深层次的挖掘序列文本词与词之间、字与字之间的内部依赖关系,获取更丰富、更全面的语义信息,提升模型对命名实体的识别准确率。试验结果表示,Att-BiLSTM-CRF方法的识别准确率、召回率、F值分别为92.05%、91.68%、91.86%,能够缓解实体标记不一致的问题。与Att-BiLSTM-CRF方法相比,MHA-BiLSTM-CRF方法在改善实体标记不一致问题的同时,进一步提升了模型性能,模型识别准确率、召回率、F值分别提升了0.44、0.14、0.29个百分点。(2)针对实体分布不均匀且存在一词多义的问题,提出一种融入词典特征的BERT-BiLSTM-CRF方法。BERT预训练工具基于双向Transformer编码器,通过对目标实体的词信息、位置信息、段落信息进行向量表示,结合上下文语境信息,动态获取目标词的向量表达,丰富序列语义信息,解决一词多义的问题。针对因实体分布不均匀导致模型对罕见或者未知实体识别率低的问题,引入外部农业知识库,通过知识库包含的命名实体对语料库进行补充和完善。为获取外部词典特征,设计了N-gram特征模板和BDMM双向最大匹配两种特征提取方法。模型将BERT获取的字级向量表示和外部词典特征进行拼接,作为BiLSTM-CRF层的初始输入,获取最优标注序列结果。试验结果表示,融入词典特征的BERT-BiLSTM-CRF方法识别准确率、召回率、F值分别为94.84%、95.23%、95.03%,对罕见或未知实体的识别准确率有一定的缓解和提升,其中未知实体、罕见实体识别准确率分别为80.29%、91.54%。(3)为缓解汉字潜在特征表征不足对模型性能的影响,提出一种融入汉字笔画特征、部首特征的RS-ALBERT-BiGRU-CRF方法。汉字的笔画和偏旁部首可以保证汉字的唯一性,为更好的获取汉字潜在特征,设计了基于CNN的部首特征提取模型和基于CNN/BiLSTM的笔画特征提取模型,通过深度学习模型获取农业文本汉字的内部潜在特征。在保证模型识别准确度的基础上,为提升模型的计算效率,通过搭建RS-ALBERT-BiGRU-CRF模型,对原有模型框架进行优化和提速。最终,模型在部首、笔画多细粒度层级学习语义信息,丰富目标词的向量表达,模型识别准确率、召回率、F值分别为95.01%、95.42%、95.21%,进一步提升模型性能和泛化能力。本研究提出的面向农业领域基于深度学习技术的命名实体识别方法能够有效解决农业领域NER任务面临的难题,能够有效提升模型对文本语义表示能力、单字潜在特征表达能力,从识别精度、计算效率多维度优化和完善模型框架,对促进农业领域自然语言处理相关任务的研究有一定推动作用。