基于EM算法的多真值发现问题研究被引量：1

Research on multitruth finding based on EM algorithm

下载PDF

导出

摘要大量的web应用需要融合来自不同数据源的真实信息,然而关于同一实体的同一属性,不同的数据源可能会提供多个不同甚至彼此冲突的数据.如何判断数据源的可靠性和甄别事实的真假,即真值发现问题,日益获得关注.针对web数据集成中的多真值发现问题,提出了一种基于贝叶斯分析和最大似然估计的迭代计算方法,将真值发现的每一步与数据源可靠性评估紧密结合.首先,根据提供更多真实信息的数据源具有更高可靠度和由可靠的数据源提供的事实数据更可能为真值的基本原则构建似然函数,将事实真值作为模型的隐变量,并将正确性和错误性两方面的数据源质量指标作为模型参数.然后,迭代执行E步(计算事实为真的概率)和M步(评估数据源的质量),直至参数收敛.最后,真实数据集上的实验结果表明我们的方法提高了真值发现的准确率,有效解决了数据融合过程中的多值冲突问题. A large number of web applications need to fuse data from different data sources.However,different data sources may provide different or even conflicting information about the same attribute of the same entity.How to determine the credibility of a data source and the reliability of a fact,which is called the truth finding,is gaining increasing attention.In this paper the multi truth finding for integrating of Web data is discussed since the web data sources often provide conflicting information about the same entities.We propose an iterative calculation method based on Bayesian analysis and maximum likelihood estimation,combining tightly every truth finding steps and the source reliability estimation.Firstly,the maximum likelihood function is constructed based on the principle that the sources which provide more real information are more reliable and the facts provided by reliable sources are more likely to be true.In the model,a latent variable indicates whether the corresponding fact is true and the parameters evaluate the data source quality from the two aspects of correctness and incorrectness.Then the E step(calculating the probability that each fact is true) and the step M(evaluating the quality of the data sources) are performed iteratively until the parameters converge.At last,experiments on real data sets show that our approach improves the accuracy for truth discovery and effectively solves the conflict in the process of data fusion.

作者陈超崔红霞

机构地区渤海大学信息科学与技术学院

出处《渤海大学学报（自然科学版）》 CAS 2017年第3期268-274,共7页 Journal of Bohai University:Natural Science Edition

基金国家自然科学基金项目(No:41371425) 辽宁省教育科学规划项目(No:JB17DB016)

关键词真值发现贝叶斯分析 EM算法多真值数据融合 truth finding Bayesian analysis EM algorithm multi truth data fusion

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803. 被引量：194
2许道云.大数据计算的基础理论探究[J].贵州大学学报（自然科学版）,2016,33(4):1-11. 被引量：2
3任丽丽,张旭.移动医疗大数据平台下基于社交网络中节点社会效用和可靠性的数据转发算法[J].沈阳工程学院学报（自然科学版）,2017,13(1):66-70. 被引量：1
4余东,申德荣,寇月,聂铁铮,于戈.面向Web数据集成的真值发现算法[J].小型微型计算机系统,2016,37(8):1633-1638. 被引量：8

二级参考文献35

1Bleiholder ], Naumann F. Data fusion [ J]. ACM Computing Sur- veys,2008,41(1 ) :1-41.
2Dong X L,Nanmann F. Data fusion:resolving data conflicts for in- tegration[ J ]. Proceedings of the VLDB Endowment,2009,2 ( 2 ) : 1654-1655.
3Yin X,Han J, Yu P S. Truth discovery with multiple conflicting in- formation providers on the web [ C ]. Special Interest Group on Knowledge Discovery and Data Mining ( SIGKDD ), 2007 : 1048- 1052.
4Pasternack l,Roth D. Knowing what to believe ( when you already know something) [ C]. Proceedings of the 23rd International Con- ference on Computational Linguistics, Association for Computation- al Linguistics,2010:877-885.
5Galland A,Abiteboul S,Marian A, et al. Corroborating information from disagreeing views[ C]. Proceedings of the third ACM Interna- tional Conference on Web Search and Data Mining, ACM, 2010: 131-140.
6Pasternack J, Roth D. Making better informed trust decisions with generalized fact-finding [ C ]. IJCAI Proceedings-international Joint Conference on Artificial Intelligence ,2011,22(3 ) :2324.
7Dong X L, Berfi Equille L, Srivastava D. Integrating conflicting da- ta:the role of source dependence[ J]. Proceedings of the VLDB En- dowment,2009,2( 1 ) :550-561.
8Qi G J, Aggarwal C C, Hart J, et al. Mining collective intelligence in diverse groups [ C ]. Proceedings of the 22nd International Confer- ence on World Wide Web, International World Wide Web Confer- ences Steering Committee,2013:1041-1052.
9. Pastemack J ,Roth D. Latent credibility analysis[ C]. Proceedings of the 22nd International Conference on World Wide Web, Internation- al World Wide Web Conferences Steering Committee,2013 : 1009- 1020.
10Zhao B ,Rubinstein B I P, Gemmell J ,et al. A bayesian approach to discovering truth from conflicting sources for data integration [ J ]. Proceedings of the VLDB Endowment,2012,5(6) :550-561.

共引文献201

1叶思斯,林志达,郭献彬,曹小明.基于MongoDB的配置管理平台应用研究[J].系统仿真技术,2021,17(4):253-258. 被引量：5
2冯钦,曹建军,郑奇斌,张磊,翁年凤,李红梅.基于多蚁群同步优化的多真值发现算法[J].计算机应用研究,2020,37(1):44-49. 被引量：3
3郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.
4刘为民,徐金荣,许金宏.复方北虫草胶囊治疗高血压病疗效观察[J].实用中医药杂志,2000,16(2):5-5.
5陈智,梁娟.基于知识点的试题库随机组卷抽卷系统的设计[J].考试周刊,2013(82):1-2.
6罗军锋,徐菲.大数据时代的高校信息化框架[J].中国教育信息化（高教职教）,2014(2):11-13. 被引量：24
7田熙清,陈泳,胡颖茂.IT支撑系统技术架构的去电信化思考[J].移动通信,2014,38(5):68-74. 被引量：5
8张艳霞,丰继林,郝伟,单维锋,沈焱萍.基于NoSQL的文件型大数据存储技术研究[J].制造业自动化,2014,36(6):27-30. 被引量：19
9万川梅.基于大数据下的NOSQL和Mysql融合的数据存储模型研究[J].数字技术与应用,2014,32(2):96-96. 被引量：2
10周文琼,王乐球,叶玫.云环境下Hadoop平台的作业调度算法[J].计算机系统应用,2014,23(5):177-181. 被引量：1

同被引文献8

1王丙刚,曲波,郭海强,张蕾,金鑫,李刚,孙高.传染病预测的数学模型研究[J].中国卫生统计,2007,24(5):536-540. 被引量：105
2田灵芝,符顺明,余爱,周格,齐彩霞,周启元.马尔可夫预测模型在伤寒和副伤寒预测中的应用[J].高师理科学刊,2015,35(7):30-32. 被引量：3
3曹磊,闫云,张义,王维华,陈飒,王舒,李广智.决策树模型在手足口病重症预测中的应用[J].中国热带医学,2018,18(1):57-62. 被引量：9
4洪志敏,郝慧,房祥忠,肖革新,魏利东.ARIMA模型在京津冀区域手足口病发病趋势预测中的应用[J].数理统计与管理,2018,37(2):191-197. 被引量：15
5李若曦,王晓岗,陈黎黎,王琳,杨霄星,杨军勇,孟艳,武晶,冯宝玉,张建军.ARIMA模型在北京市丰台区流行性感冒预测中的应用[J].职业与健康,2018,34(6):792-795. 被引量：10
6张喜红,李慧,曹文君,崔永梅.SARIMA模型在长治市肺结核预测中的应用[J].中国医科大学学报,2018,47(7):585-588. 被引量：4
7曹祥琪,李少波,谢建兴,张辈.基于人工神经网络的病人麻醉深度判断方法[J].贵州大学学报（自然科学版）,2018,35(4):78-84. 被引量：2
8Jaesung Choi,David C. Roberts,EunSu Lee.Forecasting Oil Production in North Dakota Using the Seasonal Autoregressive Integrated Moving Average (S-ARIMA)[J].Natural Resources,2015,6(1):16-26. 被引量：1

引证文献1

1罗兴甸,戴家佳,罗登菊.ARIMA乘积季节模型在我国麻疹发病预测中的应用[J].贵州大学学报（自然科学版）,2019,36(3):9-14. 被引量：6

二级引证文献6

1丁勇,吴静,武丹,李婉,张蓓蓓.ARIMA乘积季节模型预测我国戊肝的发病趋势[J].南京医科大学学报（自然科学版）,2020,40(11):1725-1729. 被引量：10
2田庆,刘永鹏,张晶晶,刘洪庆.ARIMA乘积季节模型在山东省肺结核发病预测中的应用[J].山东大学学报（医学版）,2021,59(7):112-118. 被引量：13
3张蓓蓓,彭献镇,王建明,王欣怡,于新航.中国肺结核发病趋势的ARIMA乘积季节模型构建[J].江苏预防医学,2021,32(4):400-402. 被引量：8
4郑姗姗,刘磊,白乌日娜,丰华,齐敬东,刘丽萍.时间序列分析中自回归求和滑动平均模型在食源性疾病预测中的应用[J].包头医学,2022,46(2):12-14. 被引量：1
5倪茹玉,胡婉,张恒川,潘贵霞.ARIMA乘积季节模型与LSTM神经网络模型对我国麻疹发病数预测效果的比较[J].现代预防医学,2023,50(1):177-182. 被引量：4
6于斐,杨敏雪,夏文俊,尹钰,邹莹,王培生.2011-2021年乌鲁木齐市麻疹流行病学特征及发病趋势预测[J].医学动物防制,2023,39(2):164-168. 被引量：2

1陈家清,陈伟,张智敏,王仁祥.三大需求对我国GDP贡献率的波动特征分析[J].统计与决策,2017,33(18):132-135. 被引量：5
2陈本芬,许成,刘丽丽.有向无环图结构及边缘化研究[J].青岛大学学报（自然科学版）,2017,30(3):15-18. 被引量：1
3方延风.“互联网+”背景下开源软件在科技情报研究中的应用——信息采集、存储和预处理[J].科技和产业,2017,17(8):141-146. 被引量：4
4陈冀生,张林溪,贾秀国.储能式UPS在数据中心的应用（下）[J].UPS应用,2017,0(10):25-29. 被引量：1
5夏业茂,刘应安.Dirichlet过程及其研究进展[J].数学进展,2017,46(5):641-666.
6王珊蕾,岳昆,武浩,田凯琳.基于隐变量模型的多维用户偏好建模[J].华东师范大学学报（自然科学版）,2017(5):138-153.
7王丙参,魏艳华.利用M-H算法求解Logistic回归模型参数的贝叶斯估计[J].统计与决策,2017,33(18):19-23. 被引量：4
8梁吉飞,王殿龙,滕儒民.举高消防车变幅液压系统可靠性分析[J].建设机械技术与管理,2017,30(8):53-57. 被引量：1
9贾晓立,江晓波,蒋三新,刘佩林.利用结构特征的语音压缩感知重建算法[J].上海交通大学学报,2017,51(9):1111-1116. 被引量：6
10陈一鸣,宋士吉.迁移极限学习机及其在域自适应问题的应用[J].中国科技论文,2017,12(14):1565-1569.

渤海大学学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

基于EM算法的多真值发现问题研究被引量：1

参考文献4

二级参考文献35

共引文献201

同被引文献8

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于EM算法的多真值发现问题研究 被引量：1

参考文献4

二级参考文献35

共引文献201

同被引文献8

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于EM算法的多真值发现问题研究被引量：1