面向大数据实体识别的超图分割算法被引量：4

Hypergraph Partitioning for Entity Identification in Big Data

下载PDF

导出

摘要当前信息系统中存在海量复杂异构数据,极大地降低了数据可用性.为有效地"清洗"数据、提高数据实体同一性,借助云计算平台Hadoop设计并实现了基于超图模型的实体识别算法.算法共分为数据预处理、构造超图模型和实体识别三个阶段:在预处理阶段,通过建立属性-值倒排索引表、挖掘频繁项集来对数据进行初步处理;在构造超图模型阶段,改进超边权重的定义,建立超边带权重的超图模型,将所有数据转化为超图模式;在实体识别阶段,改进超图分割算法并基于云平台来完成对同一实体的识别.在Hadoop平台上对真实数据集的实验结果表明该算法在实体识别方面具有良好的准确性和高效性. In view of the current information system,there is a huge amount of complex data which seriously reduces the data availability.To ＂ clean＂ data efficiently and improve the quality of data,based on hypergraph model,this paper proposes an entity identification algorithm utilizing Hadoop cluster. The algorithm is divided into three stages： data preprocessing,constructing hypergraph model and entity identification. In the data preprocessing stage,it processes the data via creating property-value inverted index tables and mining the frequent itemsets; Then it establishes a weighted hypergraph model and transforms all data into the hypergraph in the stage of constructing hypergraph model; Moreover,in the stage of entity identification,it completes the entity identification using an improved hypergraph partitioning algorithm. The experiments on real data sets based on Hadoop cluster indicate that the algorithm is efficient,with great accuracy.

作者胡志刚刘佳 HU Zhi-gang;LIU Jia(College of Software Engineering , Central South University ,Changsha 410073 ,China)

机构地区中南大学软件工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2018年第7期1542-1547,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金面上项目(61572525)资助中南大学研究生自主探索创新(2017zzts618)资助

关键词实体识别大数据云计算 MAP REDUCE 超图 entity identify big data cloud computing MapReduce hypergraph

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1霍然,王宏志,朱鎔,李建中,高宏.基于Map-Reduce的大数据实体识别算法[J].计算机研究与发展,2013,50(S2):170-179. 被引量：9
2王宏志,樊文飞.复杂数据上的实体识别技术研究[J].计算机学报,2011,34(10):1843-1852. 被引量：19
3王旭丛,李翠平,陈红.大数据下基于异步累积更新的高效P-Rank计算方法[J].软件学报,2014,25(9):2136-2148. 被引量：4
4余伟,李石君,杨莎,胡亚慧,刘晶,丁永刚,王骞.Web大数据环境下的不一致跨源数据发现[J].计算机研究与发展,2015,52(2):295-308. 被引量：24
5胡亚慧,李石君,余伟,杨莎,甘琳,王凯,方其庆.大数据环境下的电子商务商品实体同一性识别[J].计算机研究与发展,2015,52(8):1794-1805. 被引量：11
6毛存礼,余正涛,沈韬,高盛祥,郭剑毅,线岩团.基于深度神经网络的有色金属领域实体识别[J].计算机研究与发展,2015,52(11):2451-2459. 被引量：12
7李明达,王宏志,张佳程,李建中,高宏.PEIF:基于并行机群的大数据实体识别算法[J].计算机研究与发展,2013,50(S1):211-220. 被引量：4
8慈祥,马友忠,孟小峰.一种云环境下的大数据Top-K查询方法[J].软件学报,2014,25(4):813-825. 被引量：17
9张宇,宋巍,刘挺,李生.基于URL主题的查询分类方法[J].计算机研究与发展,2012,49(6):1298-1305. 被引量：14

二级参考文献168

1张奥千,宋韶旭,王建民.基于数据质量规则的缺失结果解释约减[J].计算机研究与发展,2013,50(S1):221-229. 被引量：2
2金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
3霍然,王宏志,朱鎔,李建中,高宏.基于Map-Reduce的大数据实体识别算法[J].计算机研究与发展,2013,50(S2):170-179. 被引量：9
4刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
5李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
6Nikki S. Gartner warns firms of "dirty data". Information Management Journal, 2007, 41 (3). http://www, allbusi ness. com/company-activities-management/operations quality-control/8901885-1. html.
7Kohn L T, Corrigan J M, Donaldson M S. To err is human, building a safer health system. Washington, D. C. , USA: National Academies Press, 2000.
8Eckerson W. Data quality and the bottom line: Achieving business success through a commitment to high quality data. The Data Warehousing Institute: Technical Report, 2002. http://download. 101com. com/pub/tdwi/Files/DQReport. pdf.
9Weis M, Naumann F. DogmatiX tracks down duplicates in XML//Proceedings of the ACM S1GMOD International Con ference on Management of Data. Baltimore, Maryland, USA, 2005:431 -442.
10Augsten N, Bohlen M H, Gamper J. Approximate matching of hierarchical data using pq-grams//Proceedings of the 31st International Conference on Very Large Data Bases. Trondheim, 2005:301-312.

共引文献97

1毛健民,李俐俐.水稻转基因技术及其抗性改良[J].农业与技术,2000,20(2):27-30.
2王东,牛军钰.基于多角度关联模型的实体检索方法[J].计算机工程,2013,39(1):71-75. 被引量：1
3陈爽,刁兴春,宋金玉,曹建军,丁晨路.基于伸缩窗口和等级调整的SNM改进方法[J].计算机应用研究,2013,30(9):2736-2739. 被引量：14
4寇月,申德荣,刘恒,王泰明,聂铁铮,于戈.异构网络中关联实体识别模型及增量式验证算法研究[J].计算机学报,2013,36(10):2096-2108. 被引量：6
5宋金玉,陈爽,郭大鹏,王内蒙.数据质量及数据清洗方法[J].指挥信息系统与技术,2013,4(5):63-70. 被引量：31
6谭明超,刁兴春,曹建军.实体分辨研究综述[J].计算机科学,2014,41(4):9-12. 被引量：9
7陈凤娟.基于MapReduce的关联规则挖掘[J].电脑与电信,2014(8):59-60.
8刘一正,杨静,李强.基于URL的中文多语义名词在线语义标注[J].计算机工程,2014,40(10):150-154.
9王宏志.大数据质量管理:问题与研究进展[J].科技导报,2014,32(34):78-84. 被引量：34
10陈诚,战荫伟,李鹰.基于网页链接分类的PageRank并行算法[J].计算机应用,2015,35(1):48-52. 被引量：6

同被引文献49

1周水庚,李丰,陶宇飞,肖小奎.面向数据库应用的隐私保护研究综述[J].计算机学报,2009,32(5):847-861. 被引量：220
2孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2378
3冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258. 被引量：719
4李德仁,姚远,邵振峰.智慧城市中的大数据[J].武汉大学学报（信息科学版）,2014,39(6):631-640. 被引量：410
5程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：735
6孟小峰,张啸剑.大数据隐私管理[J].计算机研究与发展,2015,52(2):265-281. 被引量：93
7卜范玉,陈志奎,张清辰.基于深度学习的不完整大数据填充算法[J].微电子学与计算机,2014,31(12):173-176. 被引量：12
8毛存礼,余正涛,沈韬,高盛祥,郭剑毅,线岩团.基于深度神经网络的有色金属领域实体识别[J].计算机研究与发展,2015,52(11):2451-2459. 被引量：12
9张四海,张建华,陈颖,朱近康.B5G系统中基于无线大数据的新兴技术(英文)[J].北京邮电大学学报,2018,41(5):52-61. 被引量：8
10段艳杰,吕宜生,张杰,赵学亮,王飞跃.深度学习在控制领域的研究现状与展望[J].自动化学报,2016,42(5):643-654. 被引量：146

引证文献4

1刘芳.基于大数据特征选择的深度学习算法[J].赤峰学院学报（自然科学版）,2019,35(5):46-48. 被引量：5
2于楚凡,郭大亮,张秋霞,宋子涛.基于大数据挖掘的发电系统异常数据识别系统设计[J].电子设计工程,2022,30(6):131-135. 被引量：2
3毕娅,张曙红,冷凯君,初叶萍,刘慧,潘林.基于双链区块链的制造服务集成平台框架[J].计算机集成制造系统,2022,28(4):1177-1187. 被引量：8
4徐良奎,杨哲,吴国荣,赵雷.多通道Laplacian矩阵融合的超图直推学习模型[J].小型微型计算机系统,2023,44(11):2566-2575.

二级引证文献15

1刘兴建.基于大数据的机器学习趋势分析[J].信息与电脑,2019,0(13):121-122. 被引量：1
2吕焦盛.基于TCP/IP协议的网络通信服务器设计与实现[J].赤峰学院学报（自然科学版）,2019,35(9):50-52. 被引量：13
3胡勇强,唐珩膑,冯婉媚.基于虚拟空间的社会管理模型[J].中国新通信,2020,22(13):44-46.
4李玮瑶.基于大数据技术的网络异常检测方法[J].信息与电脑,2021,33(19):220-222. 被引量：1
5李玮瑶.基于改进人工蜂群算法的大数据特征选择方法[J].河南科技,2021,40(19):27-29.
6董英辉.基于数据挖掘的体育运动即时数据自动化采集系统设计[J].自动化与仪器仪表,2022(10):155-160.
7潘雪,袁凌云,黄敏敏.主从链下的物联网隐私数据跨域安全共享模型[J].计算机应用研究,2022,39(11):3238-3243. 被引量：5
8曹湘华.基于机器学习的Word文档数据识别系统的设计与实现[J].电脑知识与技术,2022,18(33):17-18.
9黄敏敏,袁凌云,潘雪,张杰.边缘计算与区块多链下的安全可信认证模型[J].计算机科学与探索,2023,17(3):733-747. 被引量：4
10孟柯,吴志勇,黄双喜,王忠杰,燕秀坤,孙亦珑.基于区块链的新型云制造服务选择方法[J].计算机集成制造系统,2023,29(3):707-718. 被引量：2

1郭志民,袁少光,孙玉宝.基于L0稀疏超图半监督学习的异常用电行为识别[J].计算机应用与软件,2018,35(2):54-59. 被引量：8
2李超,郭黎利,窦峥.广义多线性混合效应模型[J].哈尔滨工程大学学报,2018,39(5):934-940. 被引量：1
3刘艺,刁兴春,曹建军,尚玉玲.基于集成分类的高维数据实体分辨[J].计算机应用研究,2018,35(3):689-693. 被引量：3
4Veeam为虚拟、实体及多云端环境提供集中数据管理[J].金融电子化,2018,0(1):112-112.
5陈北辰.调制解调器DCC故障及边带SGN故障的解决方案[J].电子技术与软件工程,2018(13):72-72.
6秦杰仪,曾志,孙蕾,邓昭宇.基于Hadoop的大数据平台架设探讨[J].现代工业经济和信息化,2018,8(5):47-49. 被引量：2
7林鐄.数据仓库和OLAP在我校教务管理系统中的应用[J].电子技术与软件工程,2018(10):200-200. 被引量：2
8陈丽,李斌.天马望远镜K波段双模环型滤波器的研究[J].天文研究与技术,2018,15(3):279-284. 被引量：1
9张淑芬,董岩岩,陈学斌.基于云计算平台Hadoop的HKM聚类算法设计研究[J].应用科学学报,2018,36(3):524-534. 被引量：9
10李东,周勇.大数据在煤矿安全领域应用方法研究[J].中国煤炭,2018,44(7):124-130. 被引量：5

小型微型计算机系统

2018年第7期

浏览历史

内容加载中请稍等...

面向大数据实体识别的超图分割算法被引量：4

参考文献9

二级参考文献168

共引文献97

同被引文献49

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

面向大数据实体识别的超图分割算法 被引量：4

参考文献9

二级参考文献168

共引文献97

同被引文献49

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

面向大数据实体识别的超图分割算法被引量：4