集成多种特征匹配中文实体名称

Matching Chinese entity names with multiple features

下载PDF

导出

摘要准确匹配实体名称在信息系统集成中有广泛的应用,而在中文环境中,实体名称的变化和笔误使得中文实体名称难以准确匹配,所以需要开发出适应这些变化和笔误的匹配方法。中文实体名称的相似度从字、词、语义三个层次计算出来,将这些相似度线性合并起来,集成各自的优势。为了利用更多的匹配特征,引入了两种机器学习的方法:第一种方法通过训练获得一个优化排序和最佳切分点;第二种方法利用支持向量机来判断两个名称是否指向同一实体。在中文实体名称的数据集上的实验表明,这些方法和特征有效提高了匹配的效果。 Entity name matching plays an important role in information system integration applications, while the name variations and clerical errors in Chinese entity names make exact string matching problematic. Therefore it is important to develop methodologies that can handle the different variants of the same name entity. The Chinese entity name similarity is measured based on character, word and semantic levels separately, and a hybrid solution is introduced by combining these similarities linearly. Two machine learning methods are developed to integrate editing features for more precise matching： the optimized ranking list and best cut point are achieved from a training process; a Support Vector Machine is used to judge the name pairs. The results of an experimental study on a real dataset of Chinese entity names are reported; the experiment results show the methods are effective.

作者巩军

机构地区北京大学信息技术学院博士后流动站神华集团博士后工作站

出处《计算机工程与应用》 CSCD 2012年第27期136-141,共6页 Computer Engineering and Applications

关键词字符串相似度名字消歧名字匹配机器学习 string similarity name disambiguation name-matching machine learning

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献18

1Cohen W W, Ravikumar P, Fienberg S.A comparison of string metrics for matching ceedings of KDD Workshop ject Consolidation, 2003. names and records[C]//Pro- on Data Cleaning and Ob-.
2Jaro M A.Advances in record-linkage methodology as ap- plied to matching the 1985 census of Tampa,Florida[J]. Journal of the American Statistical Association, 1989,84: 414-420.
3Jaro M A.Probabilistic linkage of large public health datafiles[J].Statistics in Medicine, 1995,14- 491-498.
4Winkler W E.The state of record linkage and current re- search problems[EB/OL]. ( 1999).http://www.census.gov/srd/ www/byname.html.
5Monge A, Elkan C.The field-matching problem: algorithm and applications[C]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, 1996.
6Monge A,Elkan C.An efficient domain-independent algo- rithm for detecting approximately duplicate database re- cords[C]//Proceedings of the SIGMOD 1997 Workshop on Data Mining and Knowledge Discovery, 1997.
7Piskorski J,Wieloch K,Pikula M,et al.Towards person name matching for inflective languages[C]//WWW 2008 Workshop NLP Challenges in the Information Explosion Era, 2008.
8Arehart M D,Miller K J.A ground truth dataset for match- ing culturally diverse romanized person names[C]//Lan- guage Resources and Evaluation Conference, Marrakesh, Morocco, 2008.
9张晓孪,王西锋.基于概念图的汉语语义计算的研究与实现[J].计算机工程与应用,2011,47(10):120-123. 被引量：10
10张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30. 被引量：36

二级参考文献22

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
7朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
8杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
9李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
10董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98

共引文献326

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
6于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
7赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
8李彬.计算字符串相似度的矩阵算法[J].现代电子技术,2007,30(24):106-108. 被引量：7
9李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
10沙莎,胡发连.基于概念结构的科技论文知识管理[J].情报学报,2007,26(6):858-862.

1肖雨,崔荣一,怀丽波.一种融合位置信息的字符串相似度度量方法[J].计算机应用研究,2015,32(11):3287-3290. 被引量：3
2李彬.计算字符串相似度的矩阵算法[J].现代电子技术,2007,30(24):106-108. 被引量：7
3杜利峰,牛永洁.字符串相似度在自动评分系统中的应用[J].电子设计工程,2011,19(7):42-44. 被引量：11
4季元叶.语言学特征在中文实体间语义关系抽取中的应用[J].福建电脑,2010,26(6):78-79.
5刘建舟,邵雄凯.一种改进的中文实体关系抽取方法[J].软件导刊,2011,10(4):27-29. 被引量：2
6秦添轶,林蝉,宋博宇,关毅.一种实体描述短文本相似度计算方法[J].智能计算机与应用,2015,5(2):34-37. 被引量：3
7张勇敢,陈娟,黄青松.基于聚类分析的模糊Schema匹配算法的研究[J].山西电子技术,2006(5):77-78.
8林奇（译）.反恐从“名字匹配比对程序”开始[J].国外社会科学文摘,2007(8):57-58.
9刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010,27(12):4523-4525. 被引量：41
10刘辉平,金澈清,周傲英.一种基于模式的实体解析算法[J].计算机学报,2015,38(9):1796-1808. 被引量：6

计算机工程与应用

2012年第27期

浏览历史

内容加载中请稍等...

集成多种特征匹配中文实体名称

参考文献18

二级参考文献22

共引文献326

相关作者

相关机构

相关主题

浏览历史