采用改进最长公共子序列的人名消歧被引量：5

Person Name Disambiguation Based on Revised Longest Common Subsequence

下载PDF

导出

摘要将名词、形容词、动名词和命名实体作为文本特征,考虑词序与词频,结合特征项的语义,提出一种基于改进最长公共子序列的文本聚类(LCSC)方法.实验结果表明:相对于传统的余弦值聚类方法,LCSC方法在人名消歧的P-IP指标上,F平均值由74.2%提高到了84.9%;相对于最长公共子序列方法,总体性能也提高了3.7%. This paper uses nouns,adjectives,gerunds and named entities as text features,and also considers the word order and word frequency when computing the text similarity.A text clustering method based on revised longest common subsequence（LCSC）is proposed.The experimental results show that the LCSC method can significantly improve the overall performance in person name disambiguation compared with traditional clustering method and make the average Fmeasure increase from 74.2%to 84.9%.The overall performance also improved by 3.7% when compared with the longest common subsequence method.

作者林翠萍吴扬扬

机构地区华侨大学计算机科学与技术学院

出处《华侨大学学报（自然科学版）》 CAS 北大核心 2016年第2期201-206,共6页 Journal of Huaqiao University(Natural Science)

基金福建省科技计划重大项目(2011H6016) 福建省科技计划重点项目(2011H0028)

关键词人名消歧文本相似度最长公共子序列层次聚类 person name disambiguation text similarity longest common subsequence hierarc

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1ARTILES J, GONZALO J, VERDEJO K A testbed for people searching strategies in the WWW[C]///Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrievak Piscataway: ACM, 2005 : 569-570.
2BAGGA A, BALDWIN ]3. Entity-based cross-document coreferencing using the vector space model[C]//Proceed- ings of the 17th International Conference on Computational Linguistics. Boston: Association for Computational Lin- guistics, 1998 : 79-85.
3MANN G S,YAROWSKY D. Unsupervised personal name disambiguation[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL. Edmonton:Association for Computational Linguistics, 2003:33-40.
4PEDERSEN T, PURANDARE A, KULKARNI A. Name discrimination by clustering similar contexts[C]//Compu-tational Linguistics and Intelligent Text Processing. Berlin.. Springer Berlin Heidelberg, 2005:226-237.
5CHEN Y,MARTUB J. Towards robust unsupervised personal name disambiguation[C]//EMNLP-CoNLL. Wash- ington D C: IEEE Press, 2007 : 190-198.
6IKEDA M,ONO S,SATO I, et al. Person name disambiguation on the web by two-stage clustering[C]ff2nd Web People Search Evaluation Workshop. New York: Association for Computing Machinery, 2009 : 33-38.
7YANG Xia, JIN Peng, XIANG Wei. Exploring word similarity to improve Chinese personal name disambiguation[C]ffWeb Intelligence and Intelligent Agent Technology. Washington D C.. IEEE Press,2011 ;197-200.
8SALTON G,WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975,18(11) : 613-620.
9董振东,董强.知网简介[EB/0L][2014-03-16].http://www.keenage.com.
10刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.

二级参考文献23

1谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
2许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
3柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
5初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
6Michael J.Wise.Neweyes:A System for Comparing Biologi-cal Sequences Using the Running Karp-Rabin Greedy String-Tiling Algorithm[C]∥In Third International Conference on In-telligent Systems for Molecular Biology Ambridge,England,pages:393-401.
7Aho A.V.,Hirschberg D.S.,Ullman J.D.:Bounds on theComplexity of the Longest Common Subsequence Problem[J].1976,23(1):1-12.
8Matthew Szuskiewicz.Automatic Plagiarism Detection in Soft-ware Code[A].Information and Communications Technology,May 2003.
9周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
10王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23

共引文献398

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：7
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：1
5王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：2
6陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
7杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：2
8冉丽,何毅舟,许龙飞.基于Web结构挖掘的搜索引擎作弊检测方法[J].计算机应用,2004,24(10):158-160. 被引量：4
9陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1
10孙宝军,王新军.P2P中基于本体论的知识管理框架模型及实现[J].计算机科学,2005,32(2):31-32. 被引量：1

同被引文献41

1余传明,钟韵辞,林奥琛,安璐.基于网络表示学习的作者重名消歧研究[J].数据分析与知识发现,2020,4(2):48-59. 被引量：10
2熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
3化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：38
4杨欣欣,李培峰,朱巧明,王英帅.一种基于改进的K-means算法的人名消歧系统的设计与实现[J].计算机与数字工程,2010,38(8):10-12. 被引量：5
5章顺瑞,游宏梁.基于层次聚类算法的中文人名消歧[J].现代图书情报技术,2010(11):64-68. 被引量：12
6陈晨,王厚峰.基于社会网络的跨文本同名消歧[J].中文信息学报,2011,25(5):75-82. 被引量：13
7李琦,马军.基于人物相关社区的重名消解研究[J].山东大学学报（理学版）,2012,47(3):33-37. 被引量：5
8肖晶,梁冰,张晓丹,吕世炅.一种面向篇级数据的作者名消歧规则和算法[J].现代图书情报技术,2012(5):55-59. 被引量：10
9刘丽彬.语言学视角下中西新闻报道的文体特征差异[J].新闻知识,2013(5):28-29. 被引量：1
10李广一,王厚峰.基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):29-34. 被引量：17

引证文献5

1乔世权,戴继勇.基于文本相似度的智能查号引擎研究[J].河北科技大学学报,2018,39(3):282-288.
2展金梅,陈君涛.基于聚类的人名消歧研究综述[J].现代信息科技,2019,3(10):88-91. 被引量：2
3陈君涛,展金梅.聚类集成技术在中文人名消歧中的应用研究[J].信息系统工程,2020(4):76-77.
4昌宁,窦永香,徐薇.基于多源数据的科技文献作者同名消歧研究[J].情报科学,2021,39(6):108-116. 被引量：5
5吴柯烨,闵超,孙建军,权昭瑄.面向特定科研任务的著者姓名消歧方法[J].情报学报,2021,40(7):734-744. 被引量：4

二级引证文献10

1刘晓婷,黄颖,李瑞婻,张琳.内聚-耦合视角下科研团队合作模式识别与对比研究[J].情报科学,2022,40(12):170-180. 被引量：9
2陈君涛,展金梅.聚类集成技术在中文人名消歧中的应用研究[J].信息系统工程,2020(4):76-77.
3朱玉强,江涛,李翼飞.外文数据库英译中文作者姓名消歧实践[J].数字图书馆论坛,2022(2):33-39.
4曹思萌,李春旺.作者名称增量消歧研究综述[J].数据分析与知识发现,2022,6(5):10-19. 被引量：1
5朱容辉,刘树林.中国金奖专利的发明者团队构建规律研究[J].科学学研究,2022,40(7):1285-1293.
6王东,李青,张志刚,王卓昊.科研人员画像构建方法研究[J].情报学报,2022,41(8):812-821. 被引量：4
7刘华玲,孙毅.基于实体识别和信息融合的知识图谱研究——以新冠肺炎疫情为例[J].计算机技术与发展,2022,32(9):107-113.
8王新,卢垚,袁雪,赵婉婧,陈莉,刘敏娟.学术论文作者同名消歧方法研究进展[J].农业图书情报学报,2022,34(10):82-90.
9王世奇,刘智锋,王继民.学者画像研究综述[J].图书情报工作,2022,66(20):73-81. 被引量：10
10汤哲冲,方志坚,贾子杰.基于图神经网络的姓名消歧算法[J].智能计算机与应用,2024,14(3):54-60.

1孙岩.动名词与现在分词的区别[J].中小学电教（下）,2011(9):142-142.
2梁永红.浅谈动名词和现在分词用法之区别[J].黑龙江科技信息,2010(2):162-162.
3郭惠丽.通过幽默句子学习非谓语动词——动名词[J].中学英语之友（新教材初二版）,2013(4):31-33.
4现在分词与动名词的区别[J].英语画刊（高级）,2014(4):9-10.
5介词宾语需注意的几点[J].中学英语之友（新教材初二版）,2011(3):15-15.
6中考英语热点易混词汇辨析[J].中学英语之友（新教材初三版）,2009(5):23-26.
7it的用法小结[J].中学英语之友（新教材高一版）,2012(6):24-27.
8分词和动名词[J].中学英语之友（新教材高二版）,2010(4):19-21.
9相淑芹.动名词与现在分词的用法比较[J].中学英语之友（新教材高三版）,2009(4):11-13.
10浅谈rather than-的用法[J].中学英语之友（新教材初二版）,2012(5):13-13.

华侨大学学报（自然科学版）

2016年第2期

浏览历史

内容加载中请稍等...

采用改进最长公共子序列的人名消歧被引量：5

参考文献16

二级参考文献23

共引文献398

同被引文献41

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

采用改进最长公共子序列的人名消歧 被引量：5

参考文献16

二级参考文献23

共引文献398

同被引文献41

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

采用改进最长公共子序列的人名消歧被引量：5