-
题名基于联合模型的藏文实体关系抽取方法研究
被引量:10
- 1
-
-
作者
夏天赐
孙媛
-
机构
中央民族大学信息工程学院
中央民族大学国家语言资源监测与研究中心少数民族语言分中心
-
出处
《中文信息学报》
CSCD
北大核心
2018年第12期76-83,共8页
-
基金
国家自然科学基金(61501529
61331013)
+1 种基金
国家语委项目(YB125-139
ZDI125-36)
-
文摘
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案:(1)针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。(2)藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。(3)该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。
-
关键词
联合模型
藏文实体关系
词性标注
-
Keywords
joint model
Tibetan entity relation
POS tagging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于远程监督的藏文实体关系抽取
被引量:6
- 2
-
-
作者
王丽客
孙媛
夏天赐
-
机构
中央民族大学信息工程学院
中央民族大学国家语言资源监测与研究中心少数民族语言分中心
-
出处
《中文信息学报》
CSCD
北大核心
2020年第3期72-79,共8页
-
基金
国家自然科学基金(61972436)。
-
文摘
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。
-
关键词
藏文实体关系抽取
语言模型
注意力机制
-
Keywords
Tibetan entity relation extraction
language model
attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-