知识图谱中实体相似度计算研究被引量：15

Research on Entities Similarity Calculation in Knowledge Graph

下载PDF

导出

摘要实体相似度的计算有诸多应用,例如,电商平台的相似商品推荐,医疗疗效分析中的相似病人组等。在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似度的标注,要求能得到其他实体之间的相似度。该文把该问题归结为监督学习问题,提出一种通用的实体相似度计算方法,通过清洗噪声数据,对数值、列表以及文本等不同数据类型进行预处理,使用SVM,Logistic回归等分类模型、Random Forest等集成学习模型以及排序学习模型进行建模,得到了较好的结果。 Entities similarity is useful in many areas, such as recommendation system in E commerce platforms, and patients grouping in healthcare, etc. In our task of calculating the entity similarity in a given knowledge graph, the attributes of every entity is provided, and a sample of entity pairs are provided with their similarity score. There fore, we treat this task as a supervised learning problem, testing SVM, Logistic Regression, Random Forest, and Learning to rank models.

作者李阳高大启

机构地区华东理工大学计算机科学与工程系

出处《中文信息学报》 CSCD 北大核心 2017年第1期140-146,154,共8页 Journal of Chinese Information Processing

基金基金项目:心血管疾病与肿瘤疾病中西医临床大数据处理分析与应用研究(2015AA020107)

关键词实体相似度监督学习分类模型集成学习 entity similarity supervised learning classification model ensemble learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1华秀丽,朱巧明,李培峰.语义分析与词频统计相结合的中文文本相似度量方法研究[J].计算机应用研究,2012,29(3):833-836. 被引量：42
2李荣,杨冬,刘磊.基于本体的概念相似度计算方法研究[J].计算机研究与发展,2011,48(S3):312-317. 被引量：12
3刘杰.一种基于自动特征权值的实体相似度计算方法[J].重庆科技学院学报（自然科学版）,2014,16(3):157-160. 被引量：2
4薛咏,冯博琴,武艳芳.ABox推理计算实体相似度[J].西安交通大学学报,2015,49(9):70-76. 被引量：2

二级参考文献39

1吴笑凡,周良,张磊,丁秋林.分布式主题地图合并中的TOM算法[J].武汉大学学报（工学版）,2006,39(5):131-136. 被引量：9
2车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计算[C]//全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88.
3COELHO T A S, CALADO P P, SOUZA L V, et al. Image retrieval using multiple evidence ranking [ J]. IEEE Trans on Knowledge and Data Engineering, 2004,16 ( 4 ) :408-417.
4KO Y, PARK J, SEO J. Improving text categorization using the im- portance of sentences [ J ]. Information Processing and Manage- ment,2004,40(1) :65-79.
5THEOBALD M, SIDDHARTH J. SpotSigs: robust and efficient near duplicate detection in large Web collection [ C ]//Proc of the 31 st An- nual International,ACM SIGIR Conference on Research and Develop- ment in Information Retrieval. New York:ACM Press,2008:563-570.
6PATWARDHAN S, BANERJEE S, PEDERSEN T. Using measures of semantic relatedness for word sense disambiguation [ C ]//Proc of the 4th International Conference on Intelligent Text Processing and Com- putational Linguistics. 2003:301-308.
7MILLER G. WordNet: a lexical database for English[ J]. Communi- cations of the ACM,1995,38( 11 ) :39-41.
8SALTON G. The SMART retrieval system-experiments in automatic document processing [ M ]. Upper Saddle River: Prentice-Hall, 1971 : 207-214.
9HOTHO A, STAAB S, STUMME G. WordNet improves text docu- ment clustering [ C ]//Proc of SIGIR Semantic Web Workshop. New York:ACM Press,2003:505-514.
10KARYPIS G. CLUTO : a clustering tookit [ R ]. Minneapolis : University of Minnesota,2002.

共引文献53

1杜华.文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例[J].现代教育技术,2012,22(9):65-69. 被引量：17
2白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
3周由,戴牡红.语义分析与TF-IDF方法相结合的新闻推荐技术[J].计算机科学,2013,40(11A):267-269. 被引量：11
4张健,冯飞,刘宇,马红烨.基于本体概念相似度的网页排序算法研究[J].情报学报,2013,32(11):1174-1183. 被引量：1
5詹志建,杨小平.基于语言网络和语义信息的文本相似度计算[J].计算机工程与应用,2014,50(5):33-38. 被引量：11
6王庆福,常广炎.基于TF-IDF优化算法在文本分类中的应用研究[J].电脑编程技巧与维护,2014(10):11-12. 被引量：2
7李冲,曹吉鸣,马腾.基于形式概念分析的项目成员综合相似度计算[J].同济大学学报（自然科学版）,2014,42(6):983-988. 被引量：2
8邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：31
9王蕾.文字云图在英语阅读教学中的应用研究[J].读与写（教育教学刊）,2014,11(6):52-52. 被引量：1
10侯超昆,李石君.基于领域本体的网页主题相关度计算[J].计算机工程与设计,2014,35(12):4344-4349. 被引量：3

同被引文献120

1张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：12
2丁建江.防空情报雷达目标智能识别的关键技术[J].空军雷达学院学报,2002,16(1):63-66. 被引量：1
3杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
4秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
5王立华,孙璐,孙英泽,葛常水,黄其泉,徐硕,刘树,肖慧.渔业科学数据共享平台建设研究[J].中国海洋大学学报（自然科学版）,2010,40(S1):201-206. 被引量：16
6王世昆,李绍滋,陈彤生.基于条件随机场的中医命名实体识别[J].厦门大学学报（自然科学版）,2009,48(3):359-364. 被引量：36
7耿庆斋,安波,朱星明.基于元数据的水利科学数据汇交体系研究[J].水利水电技术,2009,40(5):81-85. 被引量：10
8陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：932
9季民,靳奉祥,李婷,赵相伟.海洋多维数据仓库构建研究[J].海洋学报,2009,31(6):48-53. 被引量：3
10傅继彬,樊孝忠,毛金涛,余正涛.基于语言特性的中文领域术语抽取算法[J].北京理工大学学报,2010,30(3):307-310. 被引量：11

引证文献15

1张宁豫,陈曦,陈矫彦,邓淑敏,阮伟,吴春明,陈华钧.基于位置的知识图谱链接预测[J].中文信息学报,2018,32(4):80-86. 被引量：10
2赵国梁,宫法明.基于石油领域本体的概念相似度级联模型[J].计算机系统应用,2018,27(7):182-187.
3池云仙,赵书良,李仁杰.基于包含度和频繁模式的文本特征选择方法[J].中文信息学报,2018,32(8):91-102. 被引量：2
4刘宝,车礼东,黄红花,郭兵,宋振乾,李红霞,范晓明,董瑞.基于自然语言处理(NLP)技术建立化学品危险评估知识图谱的研究[J].计算机与应用化学,2018,35(7):605-610. 被引量：6
5符悦,白宇,蔡东风.基于Seq2Seq框架和领域知识图谱的新闻简报生成[J].沈阳航空航天大学学报,2019,36(1):79-89. 被引量：1
6蔡凌峰,王立峰,赵晓莲.雷达不明空情识别方法[J].指挥信息系统与技术,2019,10(2):23-28. 被引量：1
7韩普,马健,张嘉明,刘亦卓.基于多数据源融合的医疗知识图谱框架构建研究[J].现代情报,2019,39(6):81-90. 被引量：25
8董晶.基于语义的云计算资源管理技术与标准研究[J].信息技术与标准化,2019,0(10):48-51.
9许飞翔,叶霞,李琳琳,曹军博,王馨.基于SA-BP算法的本体概念语义相似度综合计算[J].计算机科学,2020,47(1):199-204. 被引量：12
10余敦辉,万鹏,王社.基于企业知识图谱构建的实体关联查询系统[J].计算机应用,2021,41(9):2510-2516. 被引量：3

二级引证文献69

1裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
2张秀.复杂工程科技领域视角下的知识图谱构建方法[J].知识经济,2019(8):46-47. 被引量：2
3汤霞.电子病历在医院病历档案管理中的应用研究[J].山西档案,2019,0(1):79-85. 被引量：6
4董露露,马宁.基于改进信息增益的特征选择方法研究[J].萍乡学院学报,2019,36(3):84-90. 被引量：2
5欧明望,叶春杨.基于神经网络的医疗诊断研究[J].海南大学学报（自然科学版）,2019,37(3):219-226. 被引量：4
6杨栩.基于神经网络的数字信号多分类识别方法[J].汽车实用技术,2019,0(21):56-58.
7徐新.两种测评体系中数据评价常见问题及对策[J].中国卫生信息管理杂志,2020,17(2):158-162. 被引量：4
8王电化,钱涛,钱立新,盛琦,夏春梅.面向档案的知识图谱构建方法研究[J].湖北科技学院学报,2020,40(1):127-130. 被引量：8
9徐向东,梁艺琼,李辰,胡建平.190例医疗健康人工智能应用案例分析[J].中国卫生信息管理杂志,2020,17(3):376-382. 被引量：11
10王秀秀,蒋玉宇,王姗姗,黄薇,周春香,华皎,蒋为,许光清.慢性阻塞性肺疾病患者肺康复体验的质性研究[J].中华护理杂志,2020,55(5):696-702. 被引量：27

1刘杰.一种基于自动特征权值的实体相似度计算方法[J].重庆科技学院学报（自然科学版）,2014,16(3):157-160. 被引量：2
2李荣,杨冬,刘磊.基于本体的概念相似度计算方法研究[J].计算机研究与发展,2011,48(S3):312-317. 被引量：12
3刘金花,刘明启,黄晓花.AdaBoost算法在多属性二分类问题中的应用——以魔术伽马望远镜数据集为例[J].新余学院学报,2012,17(4):136-138.
4焦盛岚,杨炳儒,翟云,赵万里.一种用于非平衡数据分类的集成学习模型[J].计算机工程与应用,2012,48(29):119-123. 被引量：5
5覃华峥,胡忠顺,阳德青,肖仰华.基于类别模板挖掘的百科相关实体构建[J].计算机工程,2016,42(9):180-185.
6潘屹峰,黄晶.基于SVM和Random Forest的高光谱遥感影像分类[J].华东科技（学术版）,2012(10):27-29. 被引量：1
7陈茜,史殿习,杨若松.多维数据特征融合的用户情绪识别[J].计算机科学与探索,2016,10(6):751-760. 被引量：3
8王巍巍,王志刚,潘亮铭,刘阳,张江涛.双语影视知识图谱的构建研究[J].北京大学学报（自然科学版）,2016,52(1):25-34. 被引量：29
9梁戎刚,孙蓉晖,蔡庆生.AILM:一个基于联想的集成学习模型[J].计算机科学,1993,20(5):41-44.
10杨丹,申德荣,聂铁铮,于戈,寇月.数据空间中一种灵活的集合式实体识别框架[J].小型微型计算机系统,2015,36(3):418-423. 被引量：1

中文信息学报

2017年第1期

浏览历史

内容加载中请稍等...

知识图谱中实体相似度计算研究被引量：15

参考文献4

二级参考文献39

共引文献53

同被引文献120

引证文献15

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

知识图谱中实体相似度计算研究 被引量：15

参考文献4

二级参考文献39

共引文献53

同被引文献120

引证文献15

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

知识图谱中实体相似度计算研究被引量：15