中文开放式多元实体关系抽取被引量：13

N-ary Chinese Open Entity-relation Extraction

下载PDF

导出

摘要传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。 Traditionally,information extraction(IE)has focused on satisfying precise,narrow,pre-specified requests from small homogeneous corpora.Shifting to a new domain requires the user to name the target relations and to manually create new extraction rules or hand-tag new training examples.Open information extraction(OIE)overcomes the limitations of traditional IE techniques,which trains individual extractors for every single relation type.Present studies have attracted much attention on English OIE.However,few studies have been reported on OIE for Chinese.This paper presented a N-ary Chinese OIE system(N-COIE).N-COIE preprocesses the sentences using the nature language processing tools,and then extracts entity-relation groups from the preprocessed sentences.Finally,N-COIE filters entityrelation groups using the trained logistic regression classifier.Empirical results show the effectiveness of the proposed system.

作者李颖郝晓燕王勇

机构地区太原理工大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2017年第S1期80-83,共4页 Computer Science

基金基于框架语义标注的中文篇章指代消解策略研究(2012011011-2)资助

关键词中文开放式信息抽取依存分析实体关系抽取机器学习 OIE word2vec Chinese open information extraction Dependency parsing Entity-relation extraction Machine learning OIE Word2vec

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1杨博,蔡东风,杨华.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11. 被引量：28
2秦兵,刘安安,刘挺.无指导的中文开放式实体关系抽取[J].计算机研究与发展,2015,52(5):1029-1035. 被引量：48

二级参考文献53

1Oren Etzioni,Michele Banko,Michael J.Cafarella.Machine reading[C]//Proceedings of AAAI Conference on Artificial Intelligence,2006.
2K Barker,B Agashe,S Chaw,et al.Learning by reading:A prototype system,performance baseline and lessons learned[C]//Proceedings of 22nd National Conference of Artificial Intelligence,2007.
3O Etzioni,M Cafarella,D Downey,et al.Unsupervised named-entity extraction from the web; An experimental study[J].Artificial Intelligence,2005,165 (1):91-134.
4Michele Banko,Michael J Cafarella,Stephen Soderland,et al.Open information extraction from the web[C]//Proceedings of IJCAI,2007.
5Michele Banko,Oren Etzioni.The tradeoffs between open and traditional relation extraction[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics,2008.
6F Wu,D S Weld.Open information extraction using Wikipedia[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics,2010:118-127.
7Fei Wu,Daniel S Weld.Automatically semantifying Wikipedia[C]//Proceedings of the 16th Conference on Information and Knowledge Management,2007.
8Anthony Fader,Stephen Soderland,Oren Etzioni.Ⅰ-dentifying relations for open information extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing,2011.
9Oren Etzioni,Anthony Fader,Janara Christensen,et al.Open information extraction:the second generation[C]//Proceedings of International Joint Conference on Artificial Intelligence,2011.
10Mausam,Michael Schmitz,Robert Bart,Stephen Soderland,Oren Etzioni.Open Language Learning for Information Extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CONLL),2012.

共引文献70

1李艳,沈卓,陈嘉钰.情报分析的基本问题及研究进展[J].情报学进展,2020(1):120-164. 被引量：4
2刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
3盛泳潘,付雪峰,吴天星.基于开放域抽取的多文档概念图构建研究[J].计算机应用研究,2020,37(1):19-25. 被引量：2
4赵佳鹏,林民.基于维基百科的领域历史沿革信息抽取[J].计算机应用,2015,35(4):1021-1025. 被引量：5
5于彤,朱玲,李敬华,高宏杰.中医文本信息抽取系统[J].中国医学创新,2015,12(21):108-110. 被引量：2
6徐庆,段利国,李爱萍,阴桂梅.基于实体词语义相似度的中文实体关系抽取[J].山东大学学报（工学版）,2015,45(6):7-15. 被引量：4
7闫旸,赵佳鹏,李全刚,张洋,柳厅文,时金桥.面向文本标题的人物关系抽取[J].计算机应用,2016,36(3):726-730. 被引量：3
8张志华,王建祥,田俊峰,吴国顺,兰曼.基于多元特征的分块人物关系识别系统[J].计算机应用,2016,36(3):751-757. 被引量：3
9朱玲,于彤,杨峰.基于关键动词的中医古籍概念实体间语义关系发现研究[J].中国数字医学,2016,11(5):73-75. 被引量：8
10余丽,陆锋,刘希亮.开放式地理实体关系抽取的Bootstrapping方法[J].测绘学报,2016,45(5):616-622. 被引量：26

同被引文献122

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
3于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
4李幸,宗成庆.引入标点处理的层次化汉语长句句法分析方法[J].中文信息学报,2006,20(4):8-15. 被引量：22
5何婷婷,徐超,李晶,赵君喆.基于种子自扩展的命名实体关系抽取方法[J].计算机工程,2006,32(21):183-184. 被引量：25
6刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):11-12. 被引量：313
7邓擘,樊孝忠,杨立公.用语义模式提取实体关系的方法[J].计算机工程,2007,33(10):212-214. 被引量：24
8刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：59
9公茂果,焦李成,马文萍,张向荣.基于流形距离的人工免疫无监督分类与识别算法[J].自动化学报,2008,34(3):367-375. 被引量：30
10徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2008(8):18-23. 被引量：54

引证文献13

1刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：26
2武文雅,陈钰枫,徐金安,张玉洁.中文实体关系抽取研究综述[J].计算机与现代化,2018(8):21-27. 被引量：17
3王娜娜,张顺香.基于句法与语义特征分析的朋友关系挖掘[J].阜阳师范学院学报（自然科学版）,2019,36(3):55-59.
4李冬梅,张扬,李东远,林丹琼.实体关系抽取方法研究综述[J].计算机研究与发展,2020,57(7):1424-1448. 被引量：85
5宋伟,张游杰.基于环境信息融合的知识图谱构建方法[J].计算机系统应用,2020,29(6):121-125. 被引量：4
6于浏洋,郭志刚,陈刚,席耀一.面向知识图谱构建的知识抽取技术综述[J].信息工程大学学报,2020,21(2):227-235. 被引量：23
7邵琦,牟冬梅,王萍,靳春妍.基于语义的突发公共卫生事件网络舆情主题发现研究[J].数据分析与知识发现,2020,4(9):68-80. 被引量：22
8殷纤慧,古丽拉·阿东别克.基于多特征注意力卷积神经网络的旅游领域实体关系抽取[J].东北师大学报（自然科学版）,2022,54(1):79-83. 被引量：1
9刘俊杰,叶英豪.航空安全短文本信息主题分析[J].综合运输,2022,44(5):47-52.
10薛嘉楠.基于CiteSpace的实体关系抽取研究与可视化分析[J].计算机应用文摘,2022,38(11):80-82.

二级引证文献175

1陈瑶,吴红,葛卫红,张海霞,廖俊.基于深度学习模型的我国药品不良反应报告实体关系抽取研究[J].中国药科大学学报,2019,50(6):753-759. 被引量：10
2曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
3李晟飞,赵捷,宫政,郑楠.基于舆情数据的突发事件相关机构识别研究[J].标准科学,2021(5):34-38.
4余晓蕾,朱笛,王立昊,林军,向剑文.基于知识图谱的嵌入式操作系统测试用例复用推荐模型[J].武汉大学学报（理学版）,2023,69(2):187-194. 被引量：3
5刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：26
6张婷婷,让冉,张龙波,邢林林,蔡红珍.面向新兴产业的检验检测服务关系抽取[J].智能计算机与应用,2022,12(2):32-36. 被引量：1
7李才,王天武,杨德明,和钟铧,任云生.西藏羌塘中部都古尔花岗质片麻岩同位素年代学研究[J].长春科技大学学报,2000,30(2):105-109. 被引量：28
8秦晓慧,侯霞,赵雪.一种融合语义角色和依存句法的实体关系抽取算法[J].北京信息科技大学学报（自然科学版）,2019,34(1):64-67. 被引量：4
9陈骞.基于关系触发词的微博人物关系抽取[J].电脑编程技巧与维护,2019(4):19-20. 被引量：1
10陈果,许天祥.小规模知识库指导下的细分领域实体关系发现研究[J].情报学报,2019,38(11):1200-1211. 被引量：9

1卢朝华,蒙皓兵.最大熵与转换规则相结合识别中文名词短语[J].计算机光盘软件与应用,2011(3):1-2.
2田卫东,苗惠君.基于频繁子树模式的评价对象抽取[J].计算机工程,2017,34(4):222-227. 被引量：1
3杜泽宇,杨燕,贺樑.基于中文知识图谱的电商领域问答系统[J].计算机应用与软件,2017,34(5):153-159. 被引量：38
4陈功,卢菁,张仲楠.基于主题划分的移动社交网络关键位置发现研究[J].计算机应用研究,2017,34(7):2010-2015. 被引量：1
5王嵘冰,党小婉,徐红艳,冯勇.基于模板的Deep Web实体识别信息抽取方法研究[J].辽宁大学学报（自然科学版）,2017,44(2):97-104.
6陈振庆.UML用例图的形式化及其推理[J].贺州学院学报,2017,33(2):144-148. 被引量：1

计算机科学

2017年第S1期

浏览历史

内容加载中请稍等...

中文开放式多元实体关系抽取被引量：13

参考文献2

二级参考文献53

共引文献70

同被引文献122

引证文献13

二级引证文献175

相关作者

相关机构

相关主题

浏览历史

中文开放式多元实体关系抽取 被引量：13

参考文献2

二级参考文献53

共引文献70

同被引文献122

引证文献13

二级引证文献175

相关作者

相关机构

相关主题

浏览历史

中文开放式多元实体关系抽取被引量：13