异构数据联合式的真值发现算法被引量：1

Joint Truth Finding on Heterogeneous Data

下载PDF

导出

摘要互联网上提供的同一事实的信息通常会存在冲突,影响数据集成和知识发现.为了甄别真值,提出了一种基于距离的异构数据联合真值发现算法.首先,关于同一数据项,基于数据源声明值与真值的距离,计算数据项向量;采用KMeans聚类算法,获得数据项初始聚类.然后,迭代进行信任分析和聚类,即在每个类簇内,采用最优化思想,联合异构类型数据,更新事实的可信度和数据源的类簇内可靠性,重新计算每个数据项向量,再次聚类,迭代直至类簇达到稳定.实验结果表明:由于细粒度的数据源质量划分,联合考虑异构数据类型,可以获得更高的真值发现准确度. The value of an entity attribute on the web is usually provided by multiple data sources, but the values provided by them are not always the same,which affects the effective integration of data,so it is necessary to find out the true value among these given values. The existing truth finder algorithms mainly focus on the single type data kind, so a distance-based truth finding algorithm was proposed by considering heterogeneous data jointly. Firstly,for a specific data item, the data item vectors were calculated on the basis of the distance between the claimed value from every source and the truth value. The KMeans algorithm was used to get initial clustering. Then, alternate clustering and trust analysis were iteratively performed, i. e.,within each cluster, confidence of facts and trustworthiness of sources were updated with the idea of optimization and joint heterogeneous data. Each data item vector was recalculated and reclustered, and when each cluster was stable, the iteration would be terminated. The experiment results showed that the proposed algorithm has a higher accuracy for truth finding because of the fine grained partition of source quality and the joint model of heterogeneous data.

作者陈超申德荣寇月于戈

机构地区东北大学计算机科学与工程学院渤海大学信息科学与技术学院

出处《东北大学学报（自然科学版）》 EI CAS CSCD 北大核心 2017年第10期1373-1376,1387,共5页 Journal of Northeastern University(Natural Science)

基金国家重点基础研究发展计划项目(2012CB316201) 国家自然科学基金资助项目(61033007 61472070)

关键词真值真值发现 KMeans聚类最优化异构数据 truth truth finding KMeans clustering optimization heterogeneous data

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献5

1王颖,刘群,王慧强,赖积保.一种基于RDF图的本体匹配方法[J].计算机应用,2008,28(2):460-462. 被引量：5
2胡伟,柏文阳,瞿裕忠.语义Web中对象共指的消解研究[J].软件学报,2012,23(7):1729-1744. 被引量：7
3潘有能,刘朝霞.基于WordNet的关联数据本体映射研究[J].情报杂志,2013,32(2):99-102. 被引量：7
4蒋湛,姚晓明,林兰芬.基于特征自适应的本体映射方法[J].浙江大学学报（工学版）,2014,48(1):76-84. 被引量：10
5马如霞,孟小峰.基于数据源分类可信性的真值发现方法研究[J].计算机研究与发展,2015,52(9):1931-1940. 被引量：8

引证文献1

1何绯娟,刘文强,缪相林,许大炜.关联数据冲突消解方法研究[J].计算机技术与发展,2018,28(11):111-114. 被引量：3

二级引证文献3

1仝秋红,曹扬,柴国庆,杨伟,杨卓林.车路协同信息融合的智能汽车行驶状态模糊评判[J].中国公路学报,2022,35(6):254-264. 被引量：5
2严潇波,陈健,朱峰,朱江,史星宇,薛科婷.基于知识推理的指挥控制软件故障诊断方法[J].指挥信息系统与技术,2023,14(4):95-100.
3李光荣,夏琦.一种解决数据冲突的投票算法的改进与实现[J].中国高新科技,2023(17):36-37.

1宁德军.加强联合收割机的安全生产监管途径[J].南方农机,2017,48(18):125-125.
2常彤.K-means算法及其改进研究现状[J].通讯世界,2017,23(19):289-290. 被引量：5
3吴红梅,梁晓燕.移动网端到端业务感知优化方法探索[J].内蒙古科技与经济,2017(18):62-63. 被引量：1
4杨建辉.农业化学投入与农业经济增长脱钩关系研究——基于华东6省1市数据[J].自然资源学报,2017,32(9):1517-1527. 被引量：35
5李健,范晨光,苑清敏.基于距离协同模型的京津冀协同发展水平测度[J].科技管理研究,2017,37(18):45-50. 被引量：12
6国产葡萄酒消费新特征：25-50元喝最多[J].新食品,2017,0(22):61-65.
7沈相淳.汉语颜色词“白”的生成与发展初探[J].南开语言学刊,2016(2):104-114.
8武文卿.起步早、发展快的南京货物电子招投标[J].中国招标,2017,0(36):8-10.
9刘旋峰,石鑫,郭兆峰,王春耀,王学农.滚筒式残膜回收机的性能试验研究[J].农业工程学报,2017,33(16):26-31. 被引量：45
10吕泽华,张豪,李华.基于捕获流动中心试点的自适应K-means算法[J].统计与决策,2017,33(19):78-81. 被引量：1

东北大学学报（自然科学版）

2017年第10期

浏览历史

内容加载中请稍等...

异构数据联合式的真值发现算法被引量：1

同被引文献5

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

异构数据联合式的真值发现算法 被引量：1

同被引文献5

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

异构数据联合式的真值发现算法被引量：1