摘要
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案:(1)针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。(2)藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。(3)该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。
Extracting the entities and the relationship between them from unstructured texts is a challenging issue.This paper applies the joint model in Tibetan to perform the entity identification and relation extraction at the same time.An end-to-end sequence labelling framework of BiLSTM is adopted,and the POS information is integrated to enhance the performance.It is also demonstrated that the character-level processing method is more effective in Tibetan than the word-level processing.The experimental results show that the method improves the accuracy by 30%~40%,compared the SVM and LR.
作者
夏天赐
孙媛
XIA Tianci;SUN Yuan(School of Information Engineering,Minzu University of China,Beijing 100081,China;Minority Languages Branch,National Language Resource and Monitoring Research Center, Minzu University of China,Beijing 100081,China)
出处
《中文信息学报》
CSCD
北大核心
2018年第12期76-83,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61501529
61331013)
国家语委项目(YB125-139
ZDI125-36)