命名实体识别是知识抽取中的重要任务之一,为了更有效地利用词典匹配信息,提出了基于匹配词权重优化的中文命名实体识别模型。首先利用与训练模型和分词工具获得每个字符的向量表示和词性标注;然后在词典中匹配潜在词组,跟据匹配词词频...命名实体识别是知识抽取中的重要任务之一,为了更有效地利用词典匹配信息,提出了基于匹配词权重优化的中文命名实体识别模型。首先利用与训练模型和分词工具获得每个字符的向量表示和词性标注;然后在词典中匹配潜在词组,跟据匹配词词频和文档计数的优化权重对词组加权,结合字符向量得到字符的多特征融合表示;最后使用双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM)网络进行训练,使用条件随机场(Conditional Random Field,CRF)完成标签推理得到识别实体。试验结果表明,该模型在Resume和影视-音乐-书籍数据集上的F1值分别达到了95.55%和85.39%,有效地提高了中文命名实体识别效果。展开更多
领域自适应是解决低资源问题的一种通用方式,可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition,NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域,在目标领域和源领域相近的情况下,这种方式...领域自适应是解决低资源问题的一种通用方式,可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition,NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域,在目标领域和源领域相近的情况下,这种方式能够取得较好的识别效果,但是在目标领域与源领域相关度不高的情况下,单一领域迁移方式存在很大的局限性.针对这一问题,提出一种融合多源领域贡献度加权的自适应NER模型(multi-domain adaptation NER model based on importance weighting,MDAIW).1)通过多个领域的知识迁移来提升目标领域的实体识别性能;2)根据不同领域及其领域内样本对目标领域的重要性,计算领域贡献度;3)将领域贡献度引入到NER模型中,以此来实现更好的模型领域适应性.最终在多个目标领域上进行实验,性能皆优于当前性能最好的方法,验证了模型的有效性.展开更多
文摘命名实体识别是知识抽取中的重要任务之一,为了更有效地利用词典匹配信息,提出了基于匹配词权重优化的中文命名实体识别模型。首先利用与训练模型和分词工具获得每个字符的向量表示和词性标注;然后在词典中匹配潜在词组,跟据匹配词词频和文档计数的优化权重对词组加权,结合字符向量得到字符的多特征融合表示;最后使用双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM)网络进行训练,使用条件随机场(Conditional Random Field,CRF)完成标签推理得到识别实体。试验结果表明,该模型在Resume和影视-音乐-书籍数据集上的F1值分别达到了95.55%和85.39%,有效地提高了中文命名实体识别效果。
文摘领域自适应是解决低资源问题的一种通用方式,可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition,NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域,在目标领域和源领域相近的情况下,这种方式能够取得较好的识别效果,但是在目标领域与源领域相关度不高的情况下,单一领域迁移方式存在很大的局限性.针对这一问题,提出一种融合多源领域贡献度加权的自适应NER模型(multi-domain adaptation NER model based on importance weighting,MDAIW).1)通过多个领域的知识迁移来提升目标领域的实体识别性能;2)根据不同领域及其领域内样本对目标领域的重要性,计算领域贡献度;3)将领域贡献度引入到NER模型中,以此来实现更好的模型领域适应性.最终在多个目标领域上进行实验,性能皆优于当前性能最好的方法,验证了模型的有效性.