基于异构知识库的命名实体消歧被引量：9

Named entity disambiguation based on heterogeneous knowledge base

下载PDF

导出

摘要针对自然语言处理中的中文命名实体消歧问题,提出一种基于异构知识库的层次聚类方法。利用中文信息抽取系统对中文维基百科等知识库进行抽取,形成包含人物信息、实体关系的实体信息对象,并在Hadoop平台上用分布式计算进行层次聚类,研究人物实体特征的选取和维基百科等知识库的使用对命名实体消歧结果的影响。结果表明加入百科知识库后,F值从91.33%增加到了92.68%。 A scalable and robust system is proposed to deal with Named Entity disambiguation problem based on hierarchical clustering using Wikipedia as Knowledge Base.The entity profiles, as information obj ects which contain entity attributes and entity relations created by our IE system,are disambiguated with hierarchical clustering on Hadoop platform.Features selection on similarity measurement and comparison of the results using Heterogeneous as Knowledge Base are studied mainly in this paper.Results show that F-measure value increase from 91.33% to 92.68% by using Wikipedia as knowledge base.

作者宁博张菲菲

机构地区西安邮电大学国有资产管理处西安邮电大学计算机学院

出处《西安邮电大学学报》 2014年第4期70-76,共7页 Journal of Xi’an University of Posts and Telecommunications

基金陕西省教育厅科研计划自然基金资助项目(12JK0938)

关键词人名消歧维基百科中文信息抽取层次聚类实体信息 entity disambiguation Wikipedia Chinese information extraction hierarchical clustering entity information

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1陈英.基于维基百科的命令实体消歧研究[D].北京:北京理工大学,2011:29-35.
2Bunescu R, Pasea M. Using encyeloped c knowledge for named entity disambiguation[C]//Proceedings of the llth Conference of the European Chapter of the Association for Computational Linguistics (EACL- 06), 2006:9-16.
3Dredze M, McNamee P, Rao D, et al. Entity disam- biguation for knowledge base population[C]//Proceed- ings of the 23rd International Conference on Computa- tional Linguistics, 2010:277-285.
4Cueerzan S. Large-scale named entity disambiguation based on Wikipedia data[C]//Proceeding: of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Lan- guage Learning (EMNLP-CoNLL), 2007 : 708-716.
5Fangtao Li, Zhicheng Zheng, Fan Bu, et al. THU QUANTA at TAC 2009 KBP and RTE track[C]// Text Analysis Conference (TAC), 2009:136-147.
6赵飞,周涛,张良,马鸣卉,刘金虎,余飞,查一龙,李睿琪.维基百科研究综述[J].电子科技大学学报,2010,39(3):321-334. 被引量：38
7Han Xianpei, Zhao Jun. Structural Semantic Related- ness: A knowledge-based method to named entity dis- ambiguation [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguis- tics, 2010:50-59.
8张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811. 被引量：26
9Soon W M, Ng H T, Lim D C Y. A machine learning approach to coreference resolution of noun phrases[J]. Computational Linguistics, 2001, 27(4):521-544.
10Manning C D, Raghavan P,Schutze H. Introduction to Information Retrieval[M]. Cambridge: Cambridge U- niversity Press, 2008 : 21-27.

二级参考文献80

1周涛,柏文洁,汪秉宏,刘之景,严钢.复杂网络研究概述[J].物理,2005,34(1):31-36. 被引量：238
2于嘉.网络时代的百科全书——维基百科[J].图书馆论坛,2005,25(4):247-248. 被引量：20
3方锦清.迅速发展的复杂网络研究与面临的挑战[J].自然杂志,2005,27(5):269-273. 被引量：18
4满相忠,李娅.个性化定制模式的发展趋势[J].企业改革与管理,2007(2):24-25. 被引量：8
5尹开国.维基百科社群发展策略研究[J].图书情报知识,2007,24(3):95-98. 被引量：6
6刘向晖.互联网草根革命[M].北京:清华大学出版社,2007.
7DON T,ANTHONY D W.Wikinomics:How mass collaboration changes everything[M].New York:Portfolio Trade,2006.
8中文维基百科社区.维基百科[DB/OL].[2010-4-29].http://zh.wikipedia.org/wiki/维基百科.
9维基百科.什么是维基百科[EB/OL].[2010-4-29].http://wikipedia.jaylee.cn/.
10GILES J.Internet encyclopaedias go head to head[J].Nature,2005,438:900-901.

共引文献130

1邓莉.中文维基类百科施引文献分布与词条著录研究[J].现代情报,2011,31(3):48-50. 被引量：8
2张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811. 被引量：26
3高金菲,梁晗晗.基于半衰期的维基百科演化分析[J].图书情报知识,2011,28(5):122-128. 被引量：3
4李皓桓,朱俊勇,王燕霞,何扬帆.一种基于维基和本体技术的PBL教学法在骨科教学中的应用[J].中国高等医学教育,2011(7):90-91.
5黄国涛,关彪.一种电子服务系统的体系结构设计及其关键技术研究[J].中国制造业信息化（学术版）,2012,41(1):21-24. 被引量：1
6李德毅,张海粟,王树良,伍爵博.维基百科统计分析研究[J].武汉大学学报（信息科学版）,2012,37(2):127-131. 被引量：1
7李志宏,王娜.大众生产系统发展动力机制建模——基于系统动力学方法[J].科学学研究,2012,30(2):232-240. 被引量：6
8潘欣裕,王俭,董兴法.网络百科在“传感器”课程教学中的应用[J].中国电力教育,2012(2):80-81.
9范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
10宋培彦,路青,赵星.网络百科知识组织方法研究[J].情报资料工作,2012,33(5):73-77. 被引量：11

同被引文献81

1王永生.基于改进的Lesk算法的词义排歧算法[J].微型机与应用,2013,32(24):69-71. 被引量：4
2吴云芳,金澎,郭涛.基于词典属性特征的粗粒度词义消歧[J].中文信息学报,2007,21(2):3-8. 被引量：10
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
4Guha V,Garg A. Disambiguating People in Search[ C l// The Thirteenth International World Wide Web Confer- ence. 2004:22-32.
5Artiles J, Gonzaks J, Verdejo F. A testbed for people Searching Strategies in the www [ C ]//Proceedings of the 28th annual International ACM SIGIR conference on Re- search and Development in information Retrieval New York. 2005:569-570.
6Chen Ying, Jin Peng, Li Wenjie, et al. Exploration of personal name disambiguation in Chinese news [ C ]// CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2010: 20-26.
7He Zhengyan, Wang Houfeng, Li Sujian. The Task 2 of CIPS-SIGHAN 2012 Named entity recognition and disam- biguation in Chinese bakeoff[ C ]//CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2012: 108- 114.
8Han X, Zhao J. CASIANED: web personal name disam- biguation based on professional categorization [ C ]//2nd Web People Search Evaluation Workshop ( WePS 2009). 18th WWW Conference. 2009: 2-5.
9Long Chong, Shi Lei. Web person name disambiguation by relevance weighting of extended feature sets [ C ]// CLEF (Notebook Papers/LABs/Workshops). 2010: 1-13.
10Guerreiro J, Goncalves D, de Matos D M. Towards a fair comparison between name disambiguation approaches [ C]//Proceedings of the lOth Conference on Open Re- search Areas in Information Retrieval. 2013: 17-20.

引证文献9

1汪沛,线岩团,郭剑毅,文永华,陈玮,王红斌.一种结合词向量和图模型的特定领域实体消歧方法[J].智能系统学报,2016,11(3):366-375. 被引量：6
2阳怡林,陈刚,周杰,李弼程.人名消歧研究综述[J].信息工程大学学报,2016,17(4):478-483. 被引量：1
3张雄,陈福才,黄瑞阳.基于融合特征相似度的实体消歧方法研究[J].计算机应用研究,2017,34(2):347-350. 被引量：7
4刘林.面向科技人才情报的多策略组合模型同名消歧方法[J].通信技术,2018,51(8):1836-1843. 被引量：2
5戴洪涛,侯开虎,周洲,肖灵云.基于VCK-vector模型的词义消歧方法[J].软件,2020,41(2):134-140. 被引量：1
6仇国华,赵华.一种论文作者重名消歧方法[J].软件导刊,2020,19(3):111-115.
7曾健荣,张仰森,王思远,黄改娟,崔佳,马欢.基于多特征融合的同名专家消歧方法研究[J].北京大学学报（自然科学版）,2020,56(4):607-613. 被引量：8
8文万志,姜文轩,葛威,朱恺,李喜凯,吴雪斐.一种基于深度学习的实体消歧技术[J].南通大学学报（自然科学版）,2021,20(4):23-30. 被引量：2
9王新,卢垚,袁雪,赵婉婧,陈莉,刘敏娟.学术论文作者同名消歧方法研究进展[J].农业图书情报学报,2022,34(10):82-90.

二级引证文献24

1林杰克.计算机网络信息安全与防护综述[J].新一代信息技术,2022,5(6):115-116.
2周利琴,范昊,潘建鹏.网络大数据中的知识融合框架研究[J].情报杂志,2018,37(1):145-150. 被引量：24
3张旺强,祝忠明,李雅梅,卢利农,刘巍.机构知识库作者名自动消歧框架设计与实践[J].数据分析与知识发现,2019,3(6):92-98. 被引量：5
4翟晓瑞,韩红旗,张运良,李仲.基于稀疏分布式表征的英文著者姓名消歧研究[J].计算机应用研究,2019,36(12):3534-3538. 被引量：7
5戴洪涛,侯开虎,周洲,肖灵云.基于VCK-vector模型的词义消歧方法[J].软件,2020,41(2):134-140. 被引量：1
6周国民,宣鑫乐,沈佳琪,陈光宣.基于实体关联的消歧算法研究[J].中国电子科学研究院学报,2020,15(3):271-277. 被引量：2
7沈喆,王毅,姚毅凡,成颖.面向学术文献的作者名消歧方法研究综述[J].数据分析与知识发现,2020,4(8):15-27. 被引量：10
8左昌麒,梅洋,房俊,梁英.基于搜索引擎与规则的中文实体名称消歧方法[J].电脑知识与技术,2021,17(1):247-249.
9侯鑫鑫,朱文佳,朱莉,谢琳,刘佳.多源异构学术成果大数据的整合与揭示[J].情报理论与实践,2021,44(4):162-168. 被引量：3
10林克柔,王昊,龚丽娟,张宝隆.融合多特征的中文论文同名学者消歧研究[J].数据分析与知识发现,2021,5(4):90-102. 被引量：3

1陈晓红.基于GATE的中文领域信息抽取研究[J].计算机光盘软件与应用,2014,17(19):30-30. 被引量：1
2朱靖波,姚天顺.中文信息自动抽取[J].东北大学学报（自然科学版）,1998,19(1):52-54. 被引量：24
3文必龙,李云静,王琪超,金宗泽,高快.基于GATE的油田信息抽取技术研究[J].计算机与数字工程,2014,42(7):1223-1227. 被引量：4
4郑轶.基于条件随机场的人物信息抽取[J].计算技术与自动化,2015,34(4):132-136. 被引量：3
5刘海静.基于ESA的文本分类算法研究[J].洛阳师范学院学报,2016,35(2):68-71.
6刘少俊.中文信息抽取研究的文献计量分析[J].情报探索,2016(9):93-97.
7杜婧君,陆蓓,谌志群.基于中文维基百科的命名实体消歧方法[J].杭州电子科技大学学报（自然科学版）,2012,32(6):57-60. 被引量：3
8贾赛,乔鸿.基于本体的Web信息抽取及本体的构建实现研究[J].图书馆学研究,2011(5):31-36. 被引量：3
9姜伟.基于规则的中文人名识别与抽取关键技术研究[J].科技创新导报,2012,9(28):65-66. 被引量：5
10王静,何婷婷,衣马木艾山.阿布都力克木.协同过滤在中文维基百科类别推荐上的应用[J].计算机应用,2013,33(3):838-840.

西安邮电大学学报

2014年第4期

浏览历史

内容加载中请稍等...

基于异构知识库的命名实体消歧被引量：9

参考文献16

二级参考文献80

共引文献130

同被引文献81

引证文献9

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于异构知识库的命名实体消歧 被引量：9

参考文献16

二级参考文献80

共引文献130

同被引文献81

引证文献9

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于异构知识库的命名实体消歧被引量：9