期刊文献+

知识图谱中实体相似度计算研究 被引量:15

Research on Entities Similarity Calculation in Knowledge Graph
下载PDF
导出
摘要 实体相似度的计算有诸多应用,例如,电商平台的相似商品推荐,医疗疗效分析中的相似病人组等。在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似度的标注,要求能得到其他实体之间的相似度。该文把该问题归结为监督学习问题,提出一种通用的实体相似度计算方法,通过清洗噪声数据,对数值、列表以及文本等不同数据类型进行预处理,使用SVM,Logistic回归等分类模型、Random Forest等集成学习模型以及排序学习模型进行建模,得到了较好的结果。 Entities similarity is useful in many areas, such as recommendation system in E commerce platforms, and patients grouping in healthcare, etc. In our task of calculating the entity similarity in a given knowledge graph, the attributes of every entity is provided, and a sample of entity pairs are provided with their similarity score. There fore, we treat this task as a supervised learning problem, testing SVM, Logistic Regression, Random Forest, and Learning to rank models.
作者 李阳 高大启
出处 《中文信息学报》 CSCD 北大核心 2017年第1期140-146,154,共8页 Journal of Chinese Information Processing
基金 基金项目:心血管疾病与肿瘤疾病中西医临床大数据处理分析与应用研究(2015AA020107)
关键词 实体相似度 监督学习 分类模型 集成学习 entity similarity supervised learning classification model ensemble learning
  • 相关文献

参考文献4

二级参考文献39

  • 1吴笑凡,周良,张磊,丁秋林.分布式主题地图合并中的TOM算法[J].武汉大学学报(工学版),2006,39(5):131-136. 被引量:9
  • 2车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计算[C]//全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88.
  • 3COELHO T A S, CALADO P P, SOUZA L V, et al. Image retrieval using multiple evidence ranking [ J]. IEEE Trans on Knowledge and Data Engineering, 2004,16 ( 4 ) :408-417.
  • 4KO Y, PARK J, SEO J. Improving text categorization using the im- portance of sentences [ J ]. Information Processing and Manage- ment,2004,40(1) :65-79.
  • 5THEOBALD M, SIDDHARTH J. SpotSigs: robust and efficient near duplicate detection in large Web collection [ C ]//Proc of the 31 st An- nual International,ACM SIGIR Conference on Research and Develop- ment in Information Retrieval. New York:ACM Press,2008:563-570.
  • 6PATWARDHAN S, BANERJEE S, PEDERSEN T. Using measures of semantic relatedness for word sense disambiguation [ C ]//Proc of the 4th International Conference on Intelligent Text Processing and Com- putational Linguistics. 2003:301-308.
  • 7MILLER G. WordNet: a lexical database for English[ J]. Communi- cations of the ACM,1995,38( 11 ) :39-41.
  • 8SALTON G. The SMART retrieval system-experiments in automatic document processing [ M ]. Upper Saddle River: Prentice-Hall, 1971 : 207-214.
  • 9HOTHO A, STAAB S, STUMME G. WordNet improves text docu- ment clustering [ C ]//Proc of SIGIR Semantic Web Workshop. New York:ACM Press,2003:505-514.
  • 10KARYPIS G. CLUTO : a clustering tookit [ R ]. Minneapolis : University of Minnesota,2002.

共引文献53

同被引文献120

引证文献15

二级引证文献69

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部