基于联合模型的藏文实体关系抽取方法研究被引量：11

Tibetan Entity Relation Extraction Based on Joint Model

下载PDF

导出

摘要从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案:(1)针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。(2)藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。(3)该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%～40%。 Extracting the entities and the relationship between them from unstructured texts is a challenging issue.This paper applies the joint model in Tibetan to perform the entity identification and relation extraction at the same time.An end-to-end sequence labelling framework of BiLSTM is adopted,and the POS information is integrated to enhance the performance.It is also demonstrated that the character-level processing method is more effective in Tibetan than the word-level processing.The experimental results show that the method improves the accuracy by 30%~40%,compared the SVM and LR.

作者夏天赐孙媛 XIA Tianci;SUN Yuan(School of Information Engineering,Minzu University of China,Beijing 100081,China;Minority Languages Branch,National Language Resource and Monitoring Research Center, Minzu University of China,Beijing 100081,China)

机构地区中央民族大学信息工程学院中央民族大学国家语言资源监测与研究中心少数民族语言分中心

出处《中文信息学报》 CSCD 北大核心 2018年第12期76-83,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61501529 61331013) 国家语委项目(YB125-139 ZDI125-36)

关键词联合模型藏文实体关系词性标注 joint model Tibetan entity relation POS tagging

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报（自然科学版）,2010,31(3):49-52. 被引量：11
2马宁,李亚超,于槐,加羊吉.面向互联网的藏文实体关系模板获取技术研究[J].中央民族大学学报（自然科学版）,2015,24(1):35-39. 被引量：1
3罗镭贾,宋柔,朱小杰.藏族人名汉译名识别研究[J].情报学报,2009,28(3):475-480. 被引量：3
4华却才让,姜文斌,赵海兴,刘群.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176. 被引量：28
5何鸿业,郑瑾,张祖平.结合词性特征与卷积神经网络的文本情感分析[J].计算机工程,2018,44(11):209-214. 被引量：14
6刘飞飞,王志娟.基于层次特征的藏文人名识别研究[J].计算机应用研究,2018,35(9):2583-2587. 被引量：11

二级参考文献32

1噶玛降村.藏族人名的佛教文化内涵[J].中国西藏,1998,0(3):42-43. 被引量：5
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
4祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
5吴学军.面向信息抽取的命名实体识别与模块获取技术研究[D].沈阳:东北大学,2004.
6陈晓颖,胡熠,陆汝占.实体关系模板的获取技术[J].计算机工程,2007,33(21):199-201. 被引量：3
7孙萌,刘群等.基于判别式分类和重排序技术的藏文分词[c]//第十二届全国少数民族语言文字信息处理学术研讨会论文集,2011.
8Collins M.Discriminative training methods for hidden mar- kov models:theory and experiments with perceptron algo- rithms[C]//Proceedings of the Empirical Methods in Nat- ural Language Processing Conference,Philadelphia,Amer- ica,2002 : 1-8.
9McDonald R, Pereira F, Online learning of approximate dependency parsing algorithms[C]//Proceedings of EACL, 2006:81-88.
10Collins M,Roark B.Incremental parsing with the percep- tron algorithm[C]//Proc ACL,2004.

共引文献48

1加羊吉,李亚超,宗成庆,于洪志.最大熵和条件随机场模型相融合的藏文人名识别[J].中文信息学报,2014,28(1):107-112. 被引量：22
2华却才让,姜文斌,赵海兴,刘群.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176. 被引量：28
3珠杰,李天瑞,刘胜久.基于条件随机场的藏文人名识别技术研究[J].南京大学学报（自然科学版）,2016,52(2):289-299. 被引量：13
4加羊吉,李亚超,于洪志.CRF与规则相结合的藏文人名识别方法[J].西北民族大学学报（自然科学版）,2016,37(3):41-45. 被引量：1
5夏吾吉,华却才让,色差甲,贡保才让,扎西吉.融合藏族人名音节特征的性别自动识别[J].西北民族大学学报（自然科学版）,2017,38(3):1-5. 被引量：2
6珠杰,李天瑞.深度学习模型的藏文人名识别方法[J].高原科学研究,2017,1(1):112-124. 被引量：10
7高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：7
8李玖一,于洪志,徐涛.藏文文本聚类及其相关技术综述[J].广西科学院学报,2018,34(1):39-45.
9万福成,马宁,何向真.融合事件特征及语义角色标注的藏文信息抽取技术[J].广西师范大学学报（自然科学版）,2018,36(2):18-23. 被引量：1
10王小君.基于人工蜂群算法的数据分类感知研究[J].计算机与数字工程,2018,46(5):866-869. 被引量：1

同被引文献31

1王春雨,王芳.基于条件随机场的农业命名实体识别研究[J].河北农业大学学报,2014,37(1):132-135. 被引量：21
2加羊吉,李亚超,宗成庆,于洪志.最大熵和条件随机场模型相融合的藏文人名识别[J].中文信息学报,2014,28(1):107-112. 被引量：22
3商雄伟,张志祥.限定领域智能导学系统问题生成及对话管理技术[J].计算机系统应用,2015,24(11):242-246. 被引量：3
4龙从军,刘汇丹,诺明花,吴健.基于藏语字性标注的词性预测研究[J].中文信息学报,2015,29(5):211-215. 被引量：7
5刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：263
6朱臻,孙媛.基于SVM和泛化模板协作的藏语人物属性抽取[J].中文信息学报,2015,29(6):220-227. 被引量：8
7漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25. 被引量：238
8冯艳红,于红,孙庚,孙娟娟.基于BLSTM的命名实体识别方法[J].计算机科学,2018,45(2):261-268. 被引量：51
9张兰霞,胡文心.基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J].计算机应用与软件,2018,35(11):130-135. 被引量：23
10郭莉莉,孙媛.基于BP神经网络的藏语实体关系抽取[J].软件导刊,2019,18(3):7-9. 被引量：4

引证文献11

1德吉措,安见才让.基于双向GRU神经网络的藏文人物关系抽取方法[J].信息化研究,2023,49(4):43-47.
2任建龙,杨立,孔维一,左春.面向聊天机器人的多注意力记忆网络[J].计算机系统应用,2019,28(9):18-24.
3王丽客,孙媛,夏天赐.基于远程监督的藏文实体关系抽取[J].中文信息学报,2020,34(3):72-79. 被引量：6
4沈利言,姜海燕,胡滨,谢元澄.水稻病虫草害与药剂实体关系联合抽取算法[J].南京农业大学学报,2020,43(6):1151-1161. 被引量：13
5王丽客,孙媛,刘思思.基于多级注意力融合机制的藏文实体关系抽取[J].智能科学与技术学报,2021,3(4):466-473. 被引量：2
6孙媛,旦正错,刘思思,赵小兵.面向机器阅读理解的藏文数据集TibetanQA[J].中国科学数据（中英文网络版）,2022,7(2):30-38. 被引量：1
7于韬,尼玛次仁,拥措,尼玛扎西.基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取[J].中文信息学报,2022,36(10):63-72. 被引量：9
8孙媛,刘思思,陈超凡,旦正错,赵小兵.面向机器阅读理解的高质量藏语数据集构建[J].中文信息学报,2024,38(3):56-64. 被引量：1
9孙媛,梁家亚,陈安东,赵小兵.JCapsR:一种联合胶囊神经网络的藏语知识图谱表示学习模型[J].中文信息学报,2024,38(4):69-77.
10周青,拥措,拉毛东只,尼玛扎西.基于预训练的藏医药实体关系抽取[J].中文信息学报,2024,38(8):76-83. 被引量：1

二级引证文献30

1李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
2唐詹,柏召,刁磊,郭旭超,周晗,李林.基于注意力池化和堆叠式结构的病虫害文献识别模型[J].农业机械学报,2021,52(S01):178-184. 被引量：2
3德吉措,安见才让.基于双向GRU神经网络的藏文人物关系抽取方法[J].信息化研究,2023,49(4):43-47.
4郭旭超,唐詹,刁磊,周晗,李林.基于部首嵌入和注意力机制的病虫害命名实体识别[J].农业机械学报,2020,51(S02):335-343. 被引量：21
5邬少飞.互联网公开专利情报挖掘研究综述[J].武汉工程大学学报,2021,43(3):349-354.
6孙擎,赵艳霞,程晋昕,曾厅余,张祎.基于多种算法的果树果实生长模型研究—以云南昭通苹果为例[J].中国农业科学,2021,54(17):3737-3751. 被引量：4
7肖乐,李家馨,葛亮,吴涛.面向粮情决策支持的知识图谱构建研究[J].中国粮油学报,2022,37(10):29-37. 被引量：6
8于韬,尼玛次仁,拥措,尼玛扎西.基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取[J].中文信息学报,2022,36(10):63-72. 被引量：9
9尚兰兰.基于远程监督的关系抽取研究综述[J].河北省科学院学报,2022,39(6):1-8. 被引量：2
10张嘉宇,郭玫,张永亮,李梅,耿楠,耿耀君.细粒度苹果病虫害知识图谱构建研究[J].计算机工程与应用,2023,59(5):270-280. 被引量：6

1孙丽娜.转变思想,构建充满活力的课堂[J].计算机产品与流通,2018,7(4):201-201.
2李永鑫.我国互联网金融发展问题研究[J].时代金融,2018(29):54-55.
3王义真,郑啸,后盾,胡昊.基于SVM的高维混合特征短文本情感分类[J].计算机技术与发展,2018,28(2):88-93. 被引量：15
4罗明,黄海量.一种基于语义标注特征的金融文本分类方法[J].计算机应用研究,2018,35(8):2281-2284. 被引量：9
5张春,白儒琳,李顺杰,陈春玲,柳一艳.急诊内科上消化道出血患者的临床治疗研究[J].心理月刊,2018(4):67-68. 被引量：1
6赵学勤,赵宏伟,赵亚男,李建成,兰峰.母楦测量画线机的开发与应用[J].中外鞋业,2018,0(4):29-31.
7苏晓萍,宋玉蓉.符号网络的局部标注特征与预测方法[J].智能系统学报,2018,13(3):437-444. 被引量：4
8周俊涛,顾鹏,何佳易.传统产业绿色转型任务重空间大[J].环境经济,2019(2):54-59. 被引量：4
9王莉娜.读写结合在小学高年级语文阅读教学中的运用初探[J].青春岁月,2018(23):164-164.
10李鸿浩.单孔及传统三孔法腹腔镜阑尾切除术治疗成人急性阑尾炎临床对比研究[J].心理月刊,2018(8):165-166.

中文信息学报

2018年第12期

浏览历史

内容加载中请稍等...

基于联合模型的藏文实体关系抽取方法研究被引量：11

参考文献6

二级参考文献32

共引文献48

同被引文献31

引证文献11

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于联合模型的藏文实体关系抽取方法研究 被引量：11

参考文献6

二级参考文献32

共引文献48

同被引文献31

引证文献11

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于联合模型的藏文实体关系抽取方法研究被引量：11