开放式文本信息抽取被引量：62

Open Information Extraction

下载PDF

导出

摘要信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。 The research on information extraction is being developed into open information extraction,i.e.extracting open categories of entities,relations and events from open domain text resources.The methods used are also transferred from pure statistical machine learning model based on human annotated corpora into statistical learning model incorporated with knowledge bases mined from large-scaled and heterogeneous Web resources.This paper firstly reviews the history of the researches on information extraction,then detailedly introduces the task definitions,difficulties,typical methods,evaluations,performances and the challenges of three main open domain information extraction tasks,i.e.entity extraction,entity disambiguation and relation extraction.Finally,based on our researches on this field,we analyze and discuss the development directions of open information extraction research and its applications in large-scaled knowledge engineering,question answering,etc.

作者赵军刘康周光有蔡黎

机构地区中国科学院自动化研究所模式识别国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2011年第6期98-110,共13页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60875041 61070106)

关键词开放式信息抽取知识工程文本理解 open information extraction knowledge engineering text understanding

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献65

1Ralph Grishman. 1997. Information Extraction : Tech- niques and Challenges[R]. New York: New York U-niversity, 1997.
2Ralph Grishman, Beth Sundheim. Message Under- standing Conference-6: A Brief History[C]//Proceed- ings of COLING, 1996.
3http://www, itl. nist. gov/iad/mig/tests/ace/[OL].
4http ://www. nist. gov/tac/[OL].
5Martina Naughton, N. Kushmerichand J. Carthy. Event Extraction from Hetergeneous News Sources [C]//Proceedings of AAAI, 2006.
6D. McClosky, M. Surdeanu, C. D. Manning. Event Extraction as Dependency Parsing[C]//Proceedings ofACL-HLT, 2011.
7Yu Hong, Jianfeng Zhang, Bin Ma, Jianmin Yao, Gu- odong Zhou, Qiaoming Zhu. Using Cross-Entity Infer ence to Improve Event Extraction[C]//Proeeedings ofACL-HLT, 2011.
8赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：50
9Jun Zhao, Feifan Liu. Product Named Entity Recog nition in Chinese Texts[J]. International Journal of Language Resource and Evaluation. 2008, 42 (2) :132- 152.
10Richard C. Wang, William Cohen. Automatic Set In- stance Extraction using the Web[C]//Proceedings of ACL-IJCNLP, 2009.

二级参考文献67

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实体[J].中文信息学报,2007,21(1):23-29. 被引量：11
3NIST. The ACE 2007 (ACE07) Evaluation Plan: Evaluation of the Detection and Recognition of ACE Entities, Values, Temporal Expressions, Relations, and Events [EB/OL]. [-2007]. http://www, hist. gov/ speech/tests/ace/2OOT/doc/aceOT-evalplan, vl. 3a. pdf.
4Nancy A. Chinchor. Overview of MUC-7/MET-2[C]//Proceedings of the Seventh Message Under- standing Conference (MUC-7), Fairfax, Virginia, 1998.
5Gina Anne Levow. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition[C]//Proceedings of the Fifth SigHAN Workshop on Chinese Language Processing, Sydney: Association for Computational Lin- guistics, 2006:108 117.
6A. Mikheev, C. Grover, Moens M. Description of the LTG System Used for MUC-7[C]//Proceedings of 7th Message Understanding Conference ( MUC-7 ), Fairfax, Virginia, 1998.
7863计划中文信息处理与智能人机接口技术评测组.2004年度863计划中文信息处理与智能人机交互技术评测:命名实体评测结果报告[R].北京:863计划中文信息处理与智能人机接口技术评测组,2004.
8Ralph Grishman, Beth Sundheim. Design of the MUC-6 evaluation [C]//Proceedings of 6th Message Under- standing Conference, Columbia, MD, 199S.
9G. R. Krupka, K. Hausman. IsoQuest. Inc.:Description of the NetOwl TM Extractor System as Used for MUC-7 [C]//Proceedings of the 7th Message Understanding Conference. (MUC-7), Fairfax, Virginia, 1998.
10W.J. Black, F. Rinaldi, D. Mowart. FACILE: Description of the NE System Used for MUC-7 [C]// Proceedings of the 7th Message Understanding Conference. (MUC-7), Fairfax, Virginia, 1998.

共引文献49

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
2姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：3
3罗文华.非结构化数据处理分析在电子数据取证中的应用[J].警察技术,2010(3):42-45.
4李楠,郑荣廷,吉久明,滕青青.基于启发式规则的中文化学物质命名识别研究[J].现代图书情报技术,2010(5):13-17. 被引量：12
5张俊三,瞿有利.信息检索中相关实体发现综述[J].计算机工程与设计,2011,32(12):4035-4038. 被引量：2
6李静,罗文华,林鸿飞.自然语言处理技术在网络案情分析系统中的应用[J].计算机工程与应用,2012,48(3):216-220. 被引量：5
7胡伟,柏文阳,瞿裕忠.语义Web中对象共指的消解研究[J].软件学报,2012,23(7):1729-1744. 被引量：7
8张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
9杜婧君,陆蓓,谌志群.基于中文维基百科的命名实体消歧方法[J].杭州电子科技大学学报（自然科学版）,2012,32(6):57-60. 被引量：3
10周顺平,沈露雯,杨林.VGI集成于中文数字地名词典的研究[J].计算机应用研究,2013,30(11):3287-3291. 被引量：2

同被引文献788

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2潘泉,于昕,程咏梅,张洪才.信息融合理论的基本方法与进展[J].自动化学报,2003,29(4):599-615. 被引量：183
3杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
4刘瑜,袁一泓,张毅.基于认知的模糊地理要素建模--以中关村为例[J].遥感学报,2008,12(2):370-377. 被引量：12
5张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
6叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
7卿斯汉,文伟平,蒋建春,马恒太,刘雪飞.一种基于网状关联分析的网络蠕虫预警新方法[J].通信学报,2004,25(7):62-70. 被引量：40
8刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
9李德仁,邵振峰.论新地理信息时代[J].中国科学（F辑:信息科学）,2009,39(6):579-587. 被引量：106
10冯钧,唐志贤,朱跃龙,韦冕,卞一路,史涯晴.水利信息资源目录服务元数据定义研究[J].水利信息化,2011(S1):19-22. 被引量：6

引证文献62

1姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：3
2唐伟,洪宇,冯艳卉,姚建民,朱巧明.网页中商品“属性—值”关系的自动抽取方法研究[J].中文信息学报,2013,27(1):21-29. 被引量：7
3肖升,何炎祥.事件超图模型及类型识别[J].中文信息学报,2013,27(1):30-38. 被引量：2
4冷伏海,白如江,祝清松.面向科技文献的混合语义信息抽取方法研究[J].图书情报工作,2013,57(11):112-119. 被引量：27
5曾道建,来斯惟,张元哲,刘康,赵军.面向非结构化文本的开放式实体属性抽取[J].江西师范大学学报（自然科学版）,2013,37(3):279-283. 被引量：11
6李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：4
7谢秋妹,高春鸣,王小兰.基于故事浅层理解与事件框架的语义建模[J].计算机科学,2013,40(10):221-225. 被引量：1
8贾真,杨宇飞,何大可,刘胜久,尹红风.面向中文网络百科的属性和属性值抽取[J].北京大学学报（自然科学版）,2014,50(1):41-47. 被引量：12
9朱敏,贾真,左玲,吴安峻,陈方正,柏玉.中文微博实体链接研究[J].北京大学学报（自然科学版）,2014,50(1):73-78. 被引量：12
10杨博,蔡东风,杨华.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11. 被引量：28

二级引证文献1813

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2陈瑶,吴红,葛卫红,张海霞,廖俊.基于深度学习模型的我国药品不良反应报告实体关系抽取研究[J].中国药科大学学报,2019,50(6):753-759. 被引量：9
3袁野,刘佳伟,赵惠浞,左志平,葛超,朱晋锐.基于知识图谱的钢厂设备故障智能诊断技术研究与应用[J].冶金设备,2023(S02):20-25.
4赵悦淑,王军,王蕊,昝红英,张坤丽,穗志方.中文医学知识图谱研究进展[J].中国数字医学,2021,16(6):86-91. 被引量：5
5张一畅,代茂利,吴开明,明拂晓.数据流编排技术在绩效考核数据质控中的应用研究[J].中国数字医学,2021,16(6):58-62.
6何宏,葛张鹏,徐小良,夏一行,王宇翔.基于知识图谱语义查询技术的科技咨询服务研究[J].信息与管理研究,2019,4(4):86-96.
7李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：2
8吴雅娟,杨壮壮,尚福华,解红涛,杜睿山.学习仪表盘在油田射孔取心工培训系统中的应用[J].系统仿真技术,2021,17(1):17-21.
9周忠林,汤贞飞.知识图谱下自主性学习系统逻辑架构[J].中国新通信,2020,0(3):217-217.
10刘勘,李冶,石锴文.基于句法和语义关联的科技文献“问题—方法”联合抽取模型[J].知识管理论坛,2024(4):353-366.

1齐振宇,刘康,赵军.一种融合实体语义知识的实体集合扩展方法[J].中文信息学报,2013,27(2):1-9. 被引量：4
2陈自岩,黄宇,王洋,傅兴玉,付琨.一种非监督的事件触发词检测和分类方法[J].国外电子测量技术,2016,35(7):91-95. 被引量：7
3杨博,蔡东风,赵奇猛,杨华.融合WordNet的无监督语义分析研究[J].小型微型计算机系统,2014,35(2):368-373. 被引量：2
4杨博,蔡东风,杨华.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11. 被引量：28
5刘永彬,杨炳儒,李广源,刘英华.基于马尔可夫逻辑网的联合推理开放信息抽取[J].计算机科学,2012,39(9):202-205. 被引量：5
6付鸿鹄.基于W eb的开放领域问答系统研究[J].现代图书情报技术,2005(9):36-40. 被引量：3
7姜吉发.开放领域汉语知识问答方法[J].计算机工程,2005,31(11):1-3. 被引量：3
8刘宁锋,史晓东.中文问答系统中答案抽取的研究[J].电脑知识与技术,2011,7(4X):2865-2868. 被引量：3
9李明耀,杨静.基于依存分析的开放式中文实体关系抽取方法[J].计算机工程,2016,42(6):201-207. 被引量：27
10战学刚,伏圣国,迟呈英.改进的基于模式匹配的答案抽取方法[J].情报理论与实践,2009,32(9):105-108. 被引量：1

中文信息学报

2011年第6期

浏览历史

内容加载中请稍等...

开放式文本信息抽取被引量：62

参考文献65

二级参考文献67

共引文献49

同被引文献788

引证文献62

二级引证文献1813

相关作者

相关机构

相关主题

浏览历史

开放式文本信息抽取 被引量：62

参考文献65

二级参考文献67

共引文献49

同被引文献788

引证文献62

二级引证文献1813

相关作者

相关机构

相关主题

浏览历史

开放式文本信息抽取被引量：62