基于信息熵的半监督领域实体关系抽取研究被引量：3

A semi-supervised learning method based on information entropy to extract the domain entity relation

导出

摘要针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。 To solve the limitation by the scale of labeled corpus of the supervised learning method,a semi-supervised method based on information entropy was proposed to extract entity relation using small-scale training data.First,combined with field vocabulary to select small-scale training data,an initial maximum entropy classifier of certain accuracy was constructed to predict some new candidate instances from unlabeled data.Second,the method of information entropy was applied by setting different entropy value and cycling many times,and some new instances of the higher credibility from candidate instances were selected to expand the training data.Finally,the training classifier was re-iteratived with the expanded training data until classifier performance tended to a stable iteration termination,which achieved field entity relation extraction.Experimental results showed that the semi-supervised learning method based on information entropy achieved better learning results compared to other methods.

作者郭剑毅雷春雅余正涛苏磊赵君田维

机构地区昆明理工大学信息工程与自动化学院昆明理工大学智能信息处理重点实验室

出处《山东大学学报（工学版）》 CAS 北大核心 2011年第4期7-12,共6页 Journal of Shandong University（Engineering Science）

基金国家自然科学基金项目(60863011) 云南省自然科学基金重点项目资助项目(2008CC023) 云南省中青年学术技术带头人后备人才项目资助项目(2007PY01-11)

关键词信息熵半监督最大熵分类器未标记可信度 information entropy semi-supervised the maximum entropy classifier unlabeled credibility

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
3雷春雅,郭剑毅,余正涛,毛存礼,张少敏,黄甫.基于自扩展与最大熵的领域实体关系自动抽取[J].山东大学学报（工学版）,2010,40(5):141-145. 被引量：3
4张仰森,曹元大,俞士汶.最大熵方法中特征选择算法的改进与纠错排歧[J].北京理工大学学报,2006,26(1):36-40. 被引量：4
5何婷婷,徐超,李晶,赵君喆.基于种子自扩展的命名实体关系抽取方法[J].计算机工程,2006,32(21):183-184. 被引量：25
6任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
7郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：37
8张健沛,徐华.支持向量机(SVM)主动学习方法研究与应用[J].计算机应用,2004,24(1):1-3. 被引量：51
9何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[J].软件学报,2010,21(6):1287-1295. 被引量：37
10奚斌,周国栋,钱龙华,潘珅.基于分层策略的弱指导语义关系抽取[J].广西师范大学学报（自然科学版）,2008,26(1):178-181. 被引量：1

二级参考文献174

1钟义信.自然语言理解的全信息方法论[J].北京邮电大学学报,2004,27(4):1-12. 被引量：42
2宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
5姜吉发,王树西.一种自举的二元关系和二元关系模式获取方法[J].中文信息学报,2005,19(2):71-77. 被引量：5
6刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
7梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46. 被引量：38
8俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
9全昌勤,何婷婷,姬东鸿,余绍文.基于多分类器决策的词义消歧方法[J].计算机研究与发展,2006,43(5):933-939. 被引量：8
10刘风成,黄德根,姜鹏.基于AdaBoost.MH算法的汉语多义词消歧[J].中文信息学报,2006,20(3):6-13. 被引量：7

共引文献580

1梁鸿翔,余辉,颉明明,张博羿.面向刑事案件情节判定的知识库构建技术[J].数据通信,2020(6):35-40. 被引量：1
2葛艳,杜坤钰,杜军威,陈卓.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. 被引量：5
3吴婷,孔芳.基于图注意力卷积神经网络的文档级关系抽取[J].中文信息学报,2021,35(10):73-80. 被引量：12
4刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：25
5韩萌,李蔚清.基于特征增强的中文STEM课程知识的关系抽取[J].计算机应用研究,2020,37(S01):40-42. 被引量：3
6沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
7王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
8叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
9岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
10张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6

同被引文献40

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
3曹占广,马亚平.基于关键字语法规则的军用文书识别系统设计[J].计算机仿真,2006,23(11):10-14. 被引量：3
4德范克.ABC汉英大词典[M].上海:汉语大词典出版社,2003.
5GREENE B B, RUBIN G M. Automatic grammatical tag- ging of English [ R ]. Providence, R I: Department of Lin- guistics, Brown University, 1971.
6ERIC BRILL. Some advances in transformation-based part of speech tagging [ C ]//Proceedings of the Twelfth National Conference on Artificial Intelligence. California: AAAI Press, 1994:722-727.
7中国科学院计算技术研究所.汉语词法分析系统ICT—CLAS[DB/OL].[2011-03-20].http://www.duanxin—hui.com/soft/html/3861.html.2010.
8美国麻省理工学院媒体实验室.英语自动词法分析器montylingua-2.1(python版)[DB/OL].[2011-03-20].
9南京师范大学语言科技实验中心.1000句对汉英句珠对齐语料库(法律新闻和信息情报,82篇)[DB/DK].南京:南京师范大学语言科技实验中心,2006.
10Mitchell P Marcus, Mary Ann Marcinkiewicz, Beatrice Santorini. Building a large annotated corpus of English: the Penn Treebank [J].Computational Linguistics, 1993, 19(2) :313-330.

引证文献3

1冯敏萱,曲维光.英汉平行语料中双语兼类词消歧研究[J].山东大学学报（工学版）,2011,41(6):18-23.
2刘绍毓,周杰,李弼程,席耀一,唐浩浩.基于多分类SVM-KNN的实体关系抽取方法[J].数据采集与处理,2015,30(1):202-210. 被引量：20
3单赫源,吴照林,张海粟,刘培磊.结合词语规则和SVM模型的军事命名实体关系抽取方法[J].指挥控制与仿真,2016,38(4):58-63. 被引量：7

二级引证文献27

1王学锋,杨若鹏,贾明亮.基于循环神经网络的作战文书实体关系抽取[J].智能安全,2022,1(1):29-35.
2郭继昌,季文驰,顾翔元.基于改进逻辑回归分类算法的LSB匹配隐写检测[J].数据采集与处理,2015,30(6):1160-1168.
3郭金玲,樊东燕,郭虎升.一种动态的主动多分类方法[J].数据采集与处理,2016,31(1):152-159.
4郭金玲.极坐标核在样本分类问题中的应用研究[J].太原师范学院学报（自然科学版）,2016,15(1):43-46.
5陈跃.改进可拓理论的带钢表面缺陷图像分类方法[J].南京师范大学学报（工程技术版）,2016,16(3):54-62. 被引量：1
6齐爱芹,徐蔚然.基于词向量的实体链接方法[J].数据采集与处理,2017,32(3):604-611. 被引量：2
7温俊芹,王修晖.基于线性判别分析和自适应K近邻法的手势识别[J].数据采集与处理,2017,32(3):643-648. 被引量：7
8王红斌,李金绘,沈强,线岩团,毛存礼.基于最大熵的泰语句子级实体从属关系抽取[J].南京大学学报（自然科学版）,2017,53(4):738-746. 被引量：2
9牟廉明,刘好斌.基于特征选择的相对k子凸包分类方法[J].数据采集与处理,2017,32(5):1005-1011.
10高凤帅,杨化斌.结合词语规则和SVM模型的军事命名实体关系抽取方法[J].信息通信,2017,30(11):162-163. 被引量：1

1安强强,张蕾.基于依存树的中文语义角色标注[J].计算机工程,2010,36(4):161-163. 被引量：7
2张思聪,谢晓尧,景凤宣,徐洋.基于最大熵模型的XSS攻击检测模型[J].武汉大学学报（理学版）,2016,62(2):177-182. 被引量：7
3陈文亮,朱慕华,朱靖波,姚天顺.基于Bootstrapping的文本分类模型[J].中文信息学报,2005,19(2):86-92. 被引量：6
4王步康,王红玲,袁晓虹,周国栋.基于依存句法分析的中文语义角色标注[J].中文信息学报,2010,24(1):25-29. 被引量：23
5刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
6杜金华,王莎.基于特征比较和最大熵模型的统计机器翻译错误检测[J].北京大学学报（自然科学版）,2013,49(1):81-87.
7尹一麒,苗夺谦,王睿智,李道国.不相容决策表中知识约减算法的比较分析(英文)[J].广西师范大学学报（自然科学版）,2006,24(4):42-45. 被引量：3
8覃泽,韦建忠.CSL中测试属性选择方法[J].微计算机信息,2008,24(6):288-289. 被引量：1
9马平,靳敬永,孙玉胜.改进的线性判别分析及人脸识别[J].计算机与数字工程,2009,37(1):135-137. 被引量：1
10李艳翠,林莉媛,周国栋.基于有监督学习方法的多文档文本情感摘要[J].中文信息学报,2014,28(6):143-149. 被引量：3

山东大学学报（工学版）

2011年第4期

浏览历史

内容加载中请稍等...

基于信息熵的半监督领域实体关系抽取研究被引量：3

参考文献17

二级参考文献174

共引文献580

同被引文献40

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于信息熵的半监督领域实体关系抽取研究 被引量：3

参考文献17

二级参考文献174

共引文献580

同被引文献40

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于信息熵的半监督领域实体关系抽取研究被引量：3