基于众包的社交网络数据采集模型设计与实现被引量：14

Design and Implementation of Crowdsourcing-based Social Network Data Collection Model

下载PDF

导出

摘要社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。 Social network data has the features of informative and strong topicality with significant value for data mining,and it is also a very important part of the Internet big data. How ever,traditional search engines can not use the keyw ords retrieve technology to index the information of social netw ork platform directly,and under such circumstances,this paper designs and implements a data collection model based on crow dsourcing mode and C / S architecture. The model consists of four modules including server,client,storage sub-system and a Deep Web craw ler system. The nodes run the topic Deep Web craw ler system to request new tasks automatically and upload the acquired data,meanw hile the system uses the Hadoop Distributed File System（ HDFS） to process data rapidly and store results. The topic Deep Web craw ler system has the features of easy configuration,flexible scalability and direct data collection,and it also proves that data collection model is able to fulfill the tasks in a high success rate and collect data in an efficient w ay.

作者高梦超胡庆宝程耀东周旭李海波杜然

机构地区四川大学计算机学院中国科学院高能物理研究所计算中心中国科学院声学研究所

出处《计算机工程》 CAS CSCD 北大核心 2015年第4期36-40,共5页 Computer Engineering

基金国家"863"计划基金资助项目"基于媒体大数据的大众信息消费服务平台及应用示范"(SS2014AA012305)

关键词社交网络众包模式分布式计算信息采集 WEB爬虫 HADOOP分布式文件系统 social network crowdsourcing mode distributed computing information collection Web crawler Hadoop Distributed File System（HDFS）

分类号 TP393.0 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1黄延炜,刘嘉勇.新浪微博数据获取技术研究[J].信息安全与通信保密,2013,11(6):71-73. 被引量：22
2Prabhakar C. Cloud Computing with Amazon Web Services, Part5: Dataset Processing in the Cloud with SimpleDB [ EB/OL ]. ( 2009-05-11 ). http ://www. ibm.
3Hadoop[ EB/OL ]. [ 2013-05-28 ]. http ://hadoop. apache. org/.
4Chang F, Dean J, Ghemawat S, et al. Bigtable: A Distributed Storage System for Structured Data[ J ] ACM Transactions on Computer Systems ,2008,26 ( 2 ) 4-12.
5HttpClient Tutorial [ EB/OL ]. [ 2013-05-28 ]. http:// hc. apache, org/httpcomponents-client-ga/tutorial/pdf/ httpclient-tutorial, pdf.
6Hayes B. Cloud Computing [J] . Communications of the ACM,2008,51 (7) :9-11.
7Konstantin S,Hairong K, Sanjay R, et al. The Hadoop Distributed File System [ C ]//Proceedings of the 26th Symposium on Mass Storage Systems and Technologies. Washington D. C. , USA : IEEE Computer Society, 2010 : 1-10.
8陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1311
9崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141

二级参考文献39

1Sims K. IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing. 2007. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss
2Boss G, Malladi P, Quan D, Legregni L, Hall H. Cloud computing. IBM White Paper, 2007. http://download.boulder.ibm.com/ ibmdl/pub/software/dw/wes/hipods/Cloud_computing_wp_final_8Oct.pdf
3Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitous computing. In: Proc. of IEEE the 21st Int'l Conf. on Advanced Information Networking and Applications (AINA 2007). Los Alamitos: IEEE Computer Society, 2007. 394-403.
4Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In: Ma JH, Jin H, Yang LT, Tsai JJP, eds. Proc. of the 3rd Int'l Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006. 1-11.
5Barroso LA, Dean J, Holzle U. Web search for a planet: The Google cluster architecture. IEEE Micro, 2003,23(2):22-28.
6Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 1998,30(1-7): 107-117.
7Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Proc. of the 19th ACM Symp. on Operating Systems Principles. New York: ACM Press, 2003.29-43.
8Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. In: Proc. of the 6th Symp. on Operating System Design and Implementation. Berkeley: USENIX Association, 2004. 137-150.
9Burrows M. The chubby lock service for loosely-coupled distributed systems. In: Proc. of the 7th USENIX Symp. on Operating Systems Design and Implementation. Berkeley: USENIX Association, 2006. 335-350.
10Chang F, Dean J, Ghemawat S, Hsieh WC, Wallach DA, Burrows M, Chandra T, Fikes A, Gruber RE. Bigtable: A distributed storage system for structured data. In: Proc. of the 7th USENIX Symp. on Operating Systems Design and Implementation. Berkeley: USENIX Association, 2006. 205-218.

共引文献1465

1查伟,孙燕琼,郑继平.基于云测试架构的FIVP解决方案[J].铁路技术创新,2021(S01):82-86.
2林少伟.人工智能法律主体资格实现路径:以商事主体为视角[J].中国政法大学学报,2021(3):165-177. 被引量：6
3胡祖林,肇杰.云计算下的网盘安全[J].计算机产品与流通,2020,0(1):164-164.
4陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
5李威耀,范国梅,马俊才.基于微生物分类的信息推荐模型[J].计算机应用研究,2020,37(S01):211-212.
6张盛,任伟,王玉,黄金明,陈旭彤.基于Web的重力异常正演建模工具[J].地质论评,2023,69(S01):595-597.
7赵文韬.基于5G技术的黑龙江云计算产业发展[J].电子技术（上海）,2020,49(9):186-187.
8左学刚,邹滨,胡晨霞,李沈鑫,贺晨骋.自然资源大数据助力的城市可持续发展评估[J].测绘科学,2023,48(1):189-200. 被引量：3
9Longfei He,Mei Xue,Bin Gu.Internet-of-things enabled supply chain planning and coordination with big data services:Certain theoretic implications[J].Journal of Management Science and Engineering,2020,5(1):1-22. 被引量：6
10吴劲松,陈孚.云计算发展及应用研究[J].广西通信技术,2011(2):9-13. 被引量：5

同被引文献117

1张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：377
2危双丰,黎景良,邵振峰.基于空间信息多级网格的CA模型研究[J].计算机工程与应用,2007,43(9):4-7. 被引量：2
34. Kwak H, Lee C, Park H, et al. What is Twitter, a social network or a news media Proceedings of the 19th international conference on World Wide Web. ACM, 2010: 591-600.
4陆微微,刘晶.一种提高K-近邻算法效率的新算法[J].计算机工程与应用,2008,44(4):163-165. 被引量：22
5袁浩,黄烟波.网页标题分析对主题爬虫的改进[J].计算机技术与发展,2009,19(6):22-24. 被引量：11
6王亮.SNS社交网络发展现状及趋势[J].现代电信科技,2009,39(6):9-13. 被引量：56
7肖岚,高长春.“众包”改变企业创新模式[J].上海经济研究,2010,22(3):35-41. 被引量：51
8彭冬,蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学,2011,33(1):157-160. 被引量：7
9谭婷婷,蔡淑琴,胡慕海.众包国外研究现状[J].武汉理工大学学报（信息与管理工程版）,2011,33(2):263-266. 被引量：30
10叶伟巍,朱凌.面向创新的网络众包模式特征及实现路径研究[J].科学学研究,2012,30(1):145-151. 被引量：64

引证文献14

1许祺奎.基于社交网络的疾病监控研究[J].福建电脑,2015,31(12):89-90.
2孟丽丽,宋锋.Web网络大数据分类系统的设计与改进[J].现代电子技术,2016,39(22):36-40. 被引量：10
3周源,郑灿辉,刘禹鑫.基于众包模式的地理信息采集开发与应用研究[J].测绘与空间地理信息,2016,39(12):92-94. 被引量：9
4刘安战,郭基凤,缑西梅,李勇军.面向软件的众包平台设计与实现[J].计算机技术与发展,2017,27(8):171-176. 被引量：3
5杨媛,马旭,陈琛.一种多层次分布式网络数据挖掘方法的改进[J].科学技术与工程,2018,18(1):298-303. 被引量：4
6张章学.社交网络敏感数据获取方法研究[J].软件导刊,2018,17(3):56-58. 被引量：1
7邓文雯,孙成明,秦培亮.云储存海量数据的采集方法研究[J].现代电子技术,2018,41(14):10-13.
8于玲玲.大数据下用电信息智能采集运维挖掘模型仿真[J].计算机仿真,2018,35(10):402-405. 被引量：3
9张俊,杨超.无线网络信息传输节点能量准确检测仿真[J].计算机仿真,2018,35(10):406-409. 被引量：1
10王培名,陈兴蜀,王海舟,王文贤.多策略融合的微博数据获取技术研究[J].山东大学学报（理学版）,2019,54(5):28-36. 被引量：3

二级引证文献85

1王蕙心.被“主宰”的网络言论市场——以对自动化“水军”的多元规制视角切入[J].现代法治研究,2020(1):70-82. 被引量：1
2冯木养.基于改进VFC算法的无人机影像匹配方法[J].江西测绘,2023(3):12-14. 被引量：1
3邓丽君,王涛.英语课程数字化资源自动分类共享系统设计[J].自动化与仪器仪表,2019(2):96-99. 被引量：3
4王威.高流量负荷下基于支持向量机的空间数据聚类方法[J].微电子学与计算机,2017,34(8):137-140.
5罗弦,查志勇,徐焕,刘芬,詹伟.基于云计算的大数据自动分类处理系统设计[J].计算机测量与控制,2017,25(10):278-280. 被引量：12
6罗弦,冯浩,王逸兮,龙霏,邹澄澄.Web环境下大数据动态不良信息安全过滤系统设计[J].电子设计工程,2017,25(24):15-19. 被引量：9
7姜同庆,于海兰,王亚楠.Web网络大数据分类系统开发应用[J].信息技术与信息化,2018(9):105-107. 被引量：3
8闫梦宇,钟志农,景宁,吴烨.文本地理编码关键技术研究与分析[J].测绘通报,2019(5):72-76. 被引量：2
9靳红伟,谢珺,续欣莹.基于邻域粗糙集的文本主题特征提取[J].科学技术与工程,2019,19(22):208-214. 被引量：5
10张扬,范岩,夏玲玲,陈俊安,王沁.微博用户信息采集分析系统设计与实现[J].软件导刊,2019,18(9):125-129. 被引量：2

1韦建杰.云计算环境下的数据采集模型分析[J].信息通信,2014,27(7):142-142. 被引量：2
2肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
3郑耿,刘国平.网络化控制系统中的实时数据采集[J].吉林大学学报（工学版）,2004,34(z1):314-317.
4郭若飞,蔡欣宝,赵朋朋,崔志明.面向Deep Web的Ajax查询接口技术研究[J].苏州大学学报（工科版）,2010,30(3):1-4.
5胡迎松,宁海霞.一种新型的Web挖掘数据采集模型[J].计算机工程与科学,2007,29(2):36-39. 被引量：5
6陈新.文件档案信息管理系统的构建模型[J].信息技术与信息化,2014(8):121-122.
7闫成印.物联网带动大数据发展[J].互联网天地,2012(11):29-31. 被引量：16
8段青玲,华松青.使用CGI编写网络机器人程序[J].程序员,2001(3):99-100.
9薛帆,顾兆军,王静,张俊.面向校园网的搜索引擎CAUCIIC[J].中国民航大学学报,2005,23(z1):134-136.
10卫锋,刘烜,苏庆华.基于海量URL数据存取的快速文件系统设计分析[J].信息通信,2012,25(6):89-90.

计算机工程

2015年第4期

浏览历史

内容加载中请稍等...

基于众包的社交网络数据采集模型设计与实现被引量：14

参考文献9

二级参考文献39

共引文献1465

同被引文献117

引证文献14

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于众包的社交网络数据采集模型设计与实现 被引量：14

参考文献9

二级参考文献39

共引文献1465

同被引文献117

引证文献14

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于众包的社交网络数据采集模型设计与实现被引量：14