基于层次聚类的跨文本中文人名消歧研究被引量：8

Cross-document Chinese personal name entity disambiguation based on hierarchical clustering

下载PDF

导出

摘要人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。 Cross-document entity disambiguation is the problem of identifying whether mentions from different documents refer to the same or distinct entities. This paper describes a Chinese information extraction system which involves both document-level IE and corpus-level IE, a pipeline and multi-level modular approach to name entity and Entity Profile extrac-tion. It introduces novel features based on document-level entity profiles and study on the influence of feature selection, parameter selection, parameter validation and analysis on results. Disambiguation is performed based on agglomerative hier-archical clustering using Hadoop. Experiments show that F-measure of training set is 91.33% and testing set is 88.73%, using the whole network news corpus dataset from Harbin Institute of Technology.

作者张菲菲李宗海周晓辉李晓戈

机构地区西安邮电大学济南中林信息科技有限公司

出处《计算机工程与应用》 CSCD 2014年第6期106-111,共6页 Computer Engineering and Applications

关键词人名消歧信息抽取相似度层次聚类 entity disambiguation information extraction similarity hierarchical clustering

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Gao Liqi, Zhang Yu, Liu Ting, et al.Word sense language model for information retrieval[C]//AIRS,2006.
2李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
3McCarthy, Lehnert W.Using decision trees for coreference resolution[C]//Proceedings of the Sixth Message Under- standing Conference(MUC-6), 1995.
4Bagga A,Baldwin B.Entity-based cross-document corefer- encing using the vector space model[C]//Proceeding of the 17th International Conference on Computational Linguis- tics, Canada, 1998 : 79-85.
5WePS-3 workshop program[EB/OL]. (2010-07-10).http :// nlp.uned.es/weps/.
6Task3 Chinese version[EB/OL]. ( 2010-10-16 ) .http ://www. clpsc.org.cn/clp2010/task3_ch.htm.
7周晓,李超,胡明涵,等.基于人物互斥属性的中文人名消歧[c].见:第六届全国信息检索学术会议(CCIR2010).2010:333—340.
8丁海波,肖桐,朱靖波.基于多阶段的中文人名消歧聚类技术的研究[C].见:第六届全国信息检索学术会(CCIR2010).2010:316—324.
9郎君,秦兵,宋巍,刘龙,刘挺,李生.基于社会网络的人名检索结果重名消解[J].计算机学报,2009,32(7):1365-1374. 被引量：32
10Shingo O, Issei S, Minoru Y.Person name disambiguation in Web pages using social network, compound words and latent topics[C]//LNAI 5012 : PAKDD2008,2008 : 260-271.

二级参考文献21

1Wang Houfeng（王厚峰）,Mei Zheng.Chinese multi-document personal name disambiguation[J].High Technology Letters,2005,11(3):280-283. 被引量：8
2[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
3[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
4[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
5[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
6[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
7[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
8[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997
9[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981
10[4]Dejong G.An Overview of the FRUMP System[C].In:LEHNERT W,RINGLE M h eds. Strategies for Natural Language Processing,Lawrence Erlbaum, 1982:149～176

共引文献210

1Fei Shu.Limitations of citation analysis on the measurement of research impact:A summary[J].Data Science and Informetrics,2021,1(3):37-49.
2沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
5岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
6张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
7李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
8杨高明,李敬兆,张顺香,周华平.社会网络社区识别方法研究[J].大庆师范学院学报,2013,33(3):1-4.
9宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
10郑倩冰,朱培栋,朱政坚.基于在线社会网络的信息存储与搜索机制研究[J].计算机研究与发展,2011,48(S1):143-146.

同被引文献65

1徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007,44(z2):356-360. 被引量：13
2洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
3唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
4Riloff E, Shepherd J. A Corpus-Based Approach for Building Semantic Lexicons [DB/OL]. [ 2014-05-06]. http://wenku, baidu, corn/link? url = lVk7gt BrI- JG4keL Bxpd8_jqp-Qr05 RC4598Fs 7QQ7 CScCUX- pj-CVIBeritB fLbVWusxXSr 8VKwixdXD 31 hcG7-zi- iOx OWIyj 3rwSZh- OBRO.
5Hatzivassiglou V, McKeown K R. Predicting the se- mantic orientation of adjectives[DB/OL]. [2014-05- 06]. http://dl, acre. org/citation, c fro? id= 976909-979640.
6Turney P D, Littman M I. Measuring praise and crit- ism inference of semantic orientation from association [J]. ACM Trans on Information Systems, 2003, 21 (4) :315-346.
7Pang B, Lillian L, Vaithyanathan S. Thumbs up?.. sentiment classification using machine learning tech- niques[DB/OL]. [ 2014-04-06 ]. http //wenku. baidu, com/view/8ab50109bb68a98271fefa48, html.
8Pang B, Lillian L. Seeing stars., exploiting class rela tionships for Sentiment categorization with respect to rating scales[DB/OL]. [2014-05-10]. http=//www. doc88, com/ p 6 7 31169330626. html.
9Velikovich L, Blair-Goldensohn S, Hannan K,et al. The viability of Web-derived polarity lexicons [DB/ OL]. [2014-05-10] http://www, docin, corn p- 723326219. html ACL 2010.
10Most Common Male First Names in the United States[ EB/OL]. [ 2015-01-05 ]. http://names, mongabay, corn/ male_names, htm.

引证文献8

1李亚珍,李晓戈,于根.基于中文股票博客的情感分类[J].武汉大学学报（理学版）,2015,61(2):163-168. 被引量：6
2黄健恒,于军琪,赵敏华.并行采样Mapreduce移动社交网络k均值分布层次聚类[J].小型微型计算机系统,2016,37(8):1780-1785. 被引量：3
3周杰,李弼程,唐永旺.基于关键证据与E^2LSH的增量式人名聚类消歧方法[J].情报学报,2016,35(7):714-722. 被引量：6
4于根,李晓戈,刘睿,范贤,杜丽萍.基于信息抽取技术的问答系统[J].计算机工程与设计,2017,38(4):1051-1055. 被引量：8
5熊李艳,赵毅,黄卫春,钟茂生,黄晓辉.基于句义结构分析的中文人名消歧[J].计算机应用研究,2016,33(10):2898-2901. 被引量：3
6展金梅,陈君涛.基于聚类的人名消歧研究综述[J].现代信息科技,2019,3(10):88-91. 被引量：2
7陈君涛,展金梅.聚类集成技术在中文人名消歧中的应用研究[J].信息系统工程,2020(4):76-77.
8昌宁,窦永香,徐薇.基于多源数据的科技文献作者同名消歧研究[J].情报科学,2021,39(6):108-116. 被引量：5

二级引证文献31

1余传明,钟韵辞,林奥琛,安璐.基于网络表示学习的作者重名消歧研究[J].数据分析与知识发现,2020,4(2):48-59. 被引量：10
2王瑞云,贾君枝.基于作品关系扩展的中文同名个人规范记录识别与聚簇研究[J].图书情报工作,2017,61(5):125-131. 被引量：1
3唐晓波,叶晨孟.一种融合新闻热度和读者态度的情感分析方法[J].图书馆学研究,2017(10):81-90. 被引量：7
4郭喻栋,郭志刚,陈刚,魏晗.基于数据降维与精确欧氏局部敏感哈希的k近邻推荐方法[J].计算机应用,2017,37(9):2665-2670. 被引量：5
5于玲玲.大数据下用电信息智能采集运维挖掘模型仿真[J].计算机仿真,2018,35(10):402-405. 被引量：3
6张俊,杨超.无线网络信息传输节点能量准确检测仿真[J].计算机仿真,2018,35(10):406-409. 被引量：1
7张梦莹,邓三鸿,王昊,王丽娟.基于有用性排序的在线评论与销量的关系研究[J].现代情报,2019,39(2):152-160. 被引量：7
8徐雄.基于深度学习的问答系统研究[J].湖北师范大学学报（自然科学版）,2019,39(1):10-18. 被引量：7
9展金梅,陈君涛.基于聚类的人名消歧研究综述[J].现代信息科技,2019,3(10):88-91. 被引量：2
10杨晨,张鹏.基于词向量相似度的食品安全问答系统设计与实现[J].软件导刊,2019,18(8):16-20. 被引量：1

1谢志妮.一种新的自适应中文网页聚类算法[J].现代计算机,2009,15(12):51-57.
2刘俊平,李书振,张志毅.智能搜索引擎实例分析[J].计算机应用研究,2003,20(1):82-84. 被引量：10
3崔新华.自然语言处理在信息检索中的应用研究[J].贵阳学院学报（自然科学版）,2012,7(3):37-40. 被引量：3
4钟磊.中文自然语言处理与计算机的结合问题研究[J].数字技术与应用,2017,35(2):76-76. 被引量：2
5赵元正,戴尔晗.基于递归式最大匹配法的数据库查询接口的实现[J].计算机时代,2006(12):38-40. 被引量：1
6杨倩倩,徐栋.TFIDF方法在英语句子相似度计算中的应用初探[J].电脑知识与技术（过刊）,2012,18(6X):4127-4128. 被引量：1
7掌上萌犬009解析国产语音助手[J].计算机应用文摘,2013(5):80-81.
8王永亮,郭巧,曹奇敏.一种基于同义词的中文关键词提取方法[J].江南大学学报（自然科学版）,2013,12(5):620-625. 被引量：2
9梁喜涛,顾磊.基于最近邻的主动学习分词方法[J].计算机科学,2015,42(6):228-232. 被引量：1
10修驰,宋柔.基于无监督学习的专业领域分词歧义消解方法[J].计算机应用,2013,33(3):780-783. 被引量：7

计算机工程与应用

2014年第6期

浏览历史

内容加载中请稍等...

基于层次聚类的跨文本中文人名消歧研究被引量：8

参考文献10

二级参考文献21

共引文献210

同被引文献65

引证文献8

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于层次聚类的跨文本中文人名消歧研究 被引量：8

参考文献10

二级参考文献21

共引文献210

同被引文献65

引证文献8

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于层次聚类的跨文本中文人名消歧研究被引量：8