基于弱监督和半自动方法的中文关系抽取数据集构建被引量：3

Semi-automatic Construction of Chinese Relation Extraction Data Set Based on a Weakly Supervised Method

下载PDF

导出

摘要关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。 The relation extraction is a fundamental task in information extraction,with practical significance in information retrieval,question answering system and knowledge mapping,etc.The existing relation extraction data set are for English,containing very limited categories and neglecting sentence level annotations.This paper constructs a Chinese relation extraction data set using a weakly supervised and semi-automatic method.It firstly extracts a large amount of relation pairs from Wikipedia,then extracts sentences that contains entity pairs from the corpus of Sougou News and Baidu.Thus the weakly supervised sentence extracting is completed.These sentences are then scored in an RNN-based relation extraction system,selecting sentences with higher score for manual annotation.Finally the Chinese relation extraction data set is completed after manual annotation.

作者马超义徐蔚然

机构地区北京邮电大学信息与通信工程学院

出处《中文信息学报》 CSCD 北大核心 2017年第5期114-119,共6页 Journal of Chinese Information Processing

基金教育部博士点学科专项科研基金(20130005110004)

关键词关系抽取数据集弱监督半自动 relation extraction data set weakly supervised semi-automatic

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013,50(9):1825-1835. 被引量：34
2刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：58
3牟晋娟,包宏.中文实体关系抽取研究[J].计算机工程与设计,2009,30(15):3587-3590. 被引量：7
4余东,李诺,申德荣,汤楠,徐宏斌,寇月,于戈.ERE:基于半结构化Web页面的实体关系抽取系统[J].计算机与数字工程,2014,42(9):1581-1586. 被引量：2
5杨博,蔡东风,杨华.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11. 被引量：28
6贾真,何大可,杨燕,杨宇飞,冶忠林.基于弱监督学习的中文网络百科关系抽取[J].智能系统学报,2015,10(1):113-119. 被引量：7
7杨宇飞,戴齐,贾真,尹红风.基于弱监督的属性关系抽取方法[J].计算机应用,2014,34(1):64-68. 被引量：10
8涂新辉,张红春,周琨峰,何婷婷.中文维基百科的结构化信息抽取及词语相关度计算方法[J].中文信息学报,2012,26(3):109-115. 被引量：24
9戴敏,朱珠,李寿山,周国栋.面向中文文本的情感信息抽取语料库构建[J].中文信息学报,2015,29(4):67-73. 被引量：7

二级参考文献144

1张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
2叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
3李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量：23
4车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
5姜吉发,王树西.一种自举的二元关系和二元关系模式获取方法[J].中文信息学报,2005,19(2):71-77. 被引量：5
6董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
7赵军,许洪波,黄萱菁,谭松波,刘康,张奇.中文倾向性分析评测技术报告[C]//第一届中文倾向性分析评测会议(The First Chinese Opinion Analysis Evaluation).COAE,2008.
8Michael Strube,Simon Paolo Ponzetto.WikiRelate!Computing semantic relatedness using Wikipedia[C] //Proceedings of the 21rd national conference onArtificial intelligence,2006:1419-1424.
9Simone Paolo Ponzetto,Michael Strube.KnowledgeDerived From Wikipedia For Computing SemanticRelatedness[J].Journal of Artificial IntelligenceResearch,2007,30:181-212.
10Torsten Zesch,Christof Muller,Iryna Gurevych.Using Wiktionary for Computing Semantic Relatedness[C] //Proceedings of the 23rd national conference onArtificial intelligence,2008:861-867.

共引文献151

1李艳,沈卓,陈嘉钰.情报分析的基本问题及研究进展[J].情报学进展,2020(1):120-164. 被引量：4
2吴天昊,古丽拉·阿东别克.基于神经元块级别注意力机制的LSTM关系抽取[J].计算机应用研究,2020,37(S02):76-79. 被引量：6
3韩萌,李蔚清.基于特征增强的中文STEM课程知识的关系抽取[J].计算机应用研究,2020,37(S01):40-42. 被引量：2
4盛泳潘,付雪峰,吴天星.基于开放域抽取的多文档概念图构建研究[J].计算机应用研究,2020,37(1):19-25. 被引量：2
5刘路,李弼程,张先飞,孙显著.基于单实体语言模型的实体关系发现和描述[J].信息工程大学学报,2008,9(3):352-355. 被引量：1
6徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2008(8):18-23. 被引量：54
7陈锦秀,姬东鸿.基于图的半监督关系抽取[J].软件学报,2008,19(11):2843-2852. 被引量：16
8黄晨.语义关系抽取发展现状及抽取方法的研究[J].福建电脑,2009,25(6):45-46. 被引量：1
9王苑,徐德智,陈建二.复杂中文文本的实体关系抽取研究[J].计算机科学,2009,36(8):208-211. 被引量：1
10帅训波,马书南.基于决策树的现代汉语中任职关系抽取研究[J].昆明理工大学学报（理工版）,2009,34(4):27-31.

同被引文献31

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
2成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(1):20-26. 被引量：37
3沈振东.论科学问题的意义标准[J].科技进步与对策,2012,29(21):20-24. 被引量：7
4苏娅,刘杰,黄亚楼.在线医疗文本中的实体识别研究[J].北京大学学报（自然科学版）,2016,52(1):1-9. 被引量：16
5李芳,刘胜宇,刘峥.生物医学语义关系抽取方法综述[J].图书馆论坛,2017,37(6):61-69. 被引量：9
6孙建东,顾秀森,李彦,徐蔚然.基于COAE2016数据集的中文实体关系抽取算法研究[J].山东大学学报（理学版）,2017,52(9):7-12. 被引量：13
7张晓明,尹鸿峰.基于卷积神经网络和语义信息的场景分类[J].软件,2018,39(1):29-34. 被引量：20
8刘腾飞,于双元,张洪涛,尹鸿峰.基于循环和卷积神经网络的文本分类研究[J].软件,2018,39(1):64-69. 被引量：24
9张玉环,钱江.基于两种LSTM结构的文本情感分析[J].软件,2018,39(1):116-120. 被引量：26
10王东波,胡昊天,周鑫,朱丹浩.基于深度学习的数据科学招聘实体自动抽取及分析研究[J].图书情报工作,2018,62(13):64-73. 被引量：15

引证文献3

1关鹏举,曹春萍.基于BLSTM的临床文本实体关系抽取[J].软件,2019,40(5):159-162. 被引量：2
2奚建飞,王志英,邹文景,甘莹.基于深度学习的非结构化表格文档数据抽取方法[J].微型电脑应用,2022,38(2):102-105. 被引量：1
3李雪思,张智雄,刘熠,王宇飞.科技文献研究问题句识别方法研究[J].图书情报工作,2023,67(9):132-140. 被引量：2

二级引证文献5

1龚汝鑫,余肖生.基于BERT-BILSTM的医疗文本关系提取方法[J].计算机技术与发展,2022,32(4):186-192. 被引量：3
2赵丹丹,张俊朋,孟佳娜,张志浩,苏文.基于预训练模型和混合神经网络的医疗实体关系抽取[J].北京大学学报（自然科学版）,2023,59(1):65-75. 被引量：3
3徐传运,马莹丽,李刚,舒涛,李星光.混合相似性度量的仪表询价电子表格结构识别[J].重庆理工大学学报（自然科学）,2024,38(1):150-159.
4林鑫,杜莹,罗宇.基于多阶段分类的科研项目申请书结构功能识别[J].数字图书馆论坛,2024,20(3):25-33.
5刘杰.融合创新:以大型语言模型技术赋力民族语言学研究[J].西南民族大学学报（人文社会科学版）,2024,45(2):9-19.

1孙建东,顾秀森,李彦,徐蔚然.基于COAE2016数据集的中文实体关系抽取算法研究[J].山东大学学报（理学版）,2017,52(9):7-12. 被引量：13
2苏宏睿,冬日问影.一千零一个谎言[J].意林（少年版）,2017,0(20):36-36.
3张琴,郭红梅,张智雄.融合词嵌入表示特征的实体关系抽取方法研究[J].数据分析与知识发现,2017,1(9):8-15. 被引量：8
4程颖,焦攀科,戴飞,甘会哲.区域异构医疗数据集成与交换技术的研究和实现[J].信息系统工程,2017,30(11):96-98. 被引量：2
5蒋婷,孙建军.领域学术本体概念等级关系抽取研究[J].情报学报,2017,36(10):1080-1092. 被引量：16
6张博文.当前网络架构下的软件权利配置探究——以百度诉搜狗“搜索引擎跳转”案为视角[J].纳税,2017,11(29):135-135.
7财务人工智能在路上[J].新理财（公司理财）,2017,0(12):8-9.
8赵丹宁,牟冬梅,斯琴.研究型科技文献的实验数据自动抽取研究--以药物代谢动力学文献为例[J].图书馆建设,2017(12):33-38. 被引量：3
9方晓玮,侯超钧.基于Web在线课堂问答统计系统的设计与实现[J].现代计算机,2017,23(22):75-79.
10白如江,冷伏海,廖君华.一种基于科技规划文本的研究前沿主题地图构建方法[J].图书情报工作,2017,61(23):114-121. 被引量：7

中文信息学报

2017年第5期

浏览历史

内容加载中请稍等...

基于弱监督和半自动方法的中文关系抽取数据集构建被引量：3

参考文献9

二级参考文献144

共引文献151

同被引文献31

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于弱监督和半自动方法的中文关系抽取数据集构建 被引量：3

参考文献9

二级参考文献144

共引文献151

同被引文献31

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于弱监督和半自动方法的中文关系抽取数据集构建被引量：3