基于标签的微博人脉网络挖掘算法和结构分析被引量：2

Mining Algorithm and Structural Analysis of Microblog Interpersonal Relationship Network Based on Tag

下载PDF

导出

摘要针对互联网微博业务的广泛应用及其对大数据挖掘和分析的影响,提出一种基于标签的微博人脉网络挖掘算法。分析该网络的结构特征,利用微博用户标签,在模糊匹配过程中计算词语之间的匹配度时,主要考虑词语语素、次序和词长3个因素。为弱化以不同用户为起点对算法准确率的影响,分别以普通用户和名人用户为起点用户,挖掘微博人脉网络数据。同时,研究微博人脉网络的结构特性,通过分析发现微博人脉网络同时具有小世界和无标度特性。实验结果表明,运用该算法对名人用户和普通用户朋友中对IT感兴趣的人进行挖掘的误差率是可接受的。其中,挖掘10个名人用户朋友时算法的平均误差率为14.08%,挖掘10个普通用户朋友时算法的平均误差率为10.63%。 For the widespread use of microblog business and the impact on data mining techniques, a mining algorithm of microblog interpersonal relationship network is proposed based on the fuzzy matching of tag, and the characteristics of the network are analyzed. Use the tag of the users, the algorithm mainly considers word morpheme, order, and word length to calculate the match degree of the words when matching the tag. For weakening the influence that using different users as a starting point may have different result, ordinary users and celebrities as a starting point separately are used. At the same time, the structural characteristics of the network are studied, and the analysis results show that the network has small-world and scale-free properties. The results show that the mining error rate of celebrities and common users friends who are interested in IT. When mining 10 celebrity users’ friends, the average error rate of the algorithm is 14.08%, and 10.63%for common users.

作者王莎张连明

机构地区湖南师范大学物理与信息科学学院

出处《计算机工程》 CAS CSCD 2014年第5期7-11,共5页 Computer Engineering

基金国家自然科学基金资助项目(60973129) 广东省自然科学基金资助项目(S2011010000812)

关键词标签微博人脉网络模糊匹配数据挖掘结构特征 tag microblog interpersonal relationship network fuzzy matching data mining structural characteristics

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
2刘向红,宋文,姚朋.基于标签的Folksonomy机制研究——以CiteUlike为例[J].图书馆理论与实践,2010(5):29-33. 被引量：9
3孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：12
4朱毅华,侯汉清,沙印亭.计算机识别汉语同义词的两种算法比较和测评[J].中国图书馆学报,2002,28(4):82-85. 被引量：34

二级参考文献45

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王源,吴晓滨,涂从文,刘滨,章元峰,王金娥.后控规范的计算机处理[J].现代图书情报技术,1993(2):4-7. 被引量：30
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
4周荣庭,郑彬.分众分类:网络时代的新型信息分类法[J].现代图书情报技术,2006(3):72-75. 被引量：57
5－.现代汉语词典[M].北京:商务印书馆,1994..
6宋明亮张琪玉.报纸文献机助自由标引研究及对后控制词表动态维护的思维：硕士论文[M].空军政治学院,1994,6..
7吴志强侯汉清.经济信息检索后控制词表的研制：硕士论文[M].南京:南京农业大学,1999,6..
8朱毅华侯汉清.智能搜索引擎中同义词识别算法的研究：硕士论文[M].南京:南洋农业大学,2001,6..
9李朝阳侯汉清.汉语科技同义词字面相似度测试[J].理论学术年刊,1998,.
10学术网络书签工具--citeuLike介绍[EB/OL].[2009-06-20].http://www.xxc.idv.tw/blog/xxc/webtryit/academic_social_1.html.

共引文献171

1韩妍妍,何彦茹,刘培鹤,任慧,张锦圣.基于爬虫的XSS漏洞检测工具设计与实现[J].北京电子科技学院学报,2019,0(1):7-16. 被引量：1
2朱倩,史燕,程显毅,蔡月红.基于HNC词的聚类[J].郑州大学学报（理学版）,2009,41(2):44-47. 被引量：1
3于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
4于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
5王兰成.主题信息检索应用数据库技术的研究现状与展望[J].中国图书馆学报,2004,30(4):58-61.
6王兰成,李超.改进的中文同义词相似匹配方法[J].中国图书馆学报,2005,31(3):61-64. 被引量：6
7刘华梅,侯汉清.基于情报检索的汉语同义词识别初探[J].情报理论与实践,2005,28(4):373-375. 被引量：11
8张维芳.情真意挚妙笔华章——读《聊城:城乡处处好风景》[J].青年记者,2006(12):38-38.
9章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：6
10王兰成,曾琼,陈雪强,王京.本体论方法在文献型信息检索系统中的应用研究[J].现代图书情报技术,2007(1):15-19. 被引量：2

同被引文献27

1姜望琪.Zipf与省力原则[J].同济大学学报（社会科学版）,2005,16(1):87-95. 被引量：146
2Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A Biterm Topic Model for Short Texts[ C ]//Proceedings of the 22nd International Conference Companion on World Wide Web. Rio de Janeiro, Brazil: IW3C2 Press, 2013 : 1445-1456.
3Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003,3( 1 ) :993-1022.
4Zhao Xin,Jiang Jing, He Jing, et al. Comparing Twitter and Traditional Media Using Topic Models [ C ]// Proceedings of the 33rd European Conference on IR Research. Berlin, Germany: Springer-Verlag, 2011: 338-349.
5Hong Liangjie, Dom B, Gurumurthy S, et al. A Time- dependent Topic Model for Multiple Text Streams [ C ]// Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA : ACM Press, 2011 : 832-840.
6Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by Latent Semantic Analysis [ J ]. Journal of American Society for Information Science, 1990,41 (6) : 391 407.
7Griffiths T L, Steyvers M. Finding Scientific Topics[ J]. National Academy of Sciences of the United States of America ,2004,101 ( S1 ) :5228-5235.
8Minka T P, Lafferty J. Expectation-propagation for the Generative Aspect Model [ C ]//Proceeding of the 18th Conference on Uncertainty in Artificial Intelligence. Boston, USA : AUAI Press ,2002 : 352-359.
9Blei D M,Lafferty J D. Correlated Topic Models[ C]// Proceedings of NIPS ' 05. Cambridge, USA : MIT Press, 2005 : 147-155.
10Steyvers M, Smyth P, Griffiths T. Probabilistic Author- topic Models for Information Discovery [ C ]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA : ACM Press, 2004 : 306-315.

引证文献2

1李敬,印鉴,刘少鹏,潘雅丽.基于话题标签的微博主题挖掘[J].计算机工程,2015,41(4):30-35. 被引量：10
2张瑞,金志刚,王颖.一种基于混合粒度的微博用户标签推荐模型[J].计算机科学,2016,43(4):192-196. 被引量：6

二级引证文献16

1吴青林,周天宏.基于话题聚类及情感强度的中文微博舆情分析[J].情报理论与实践,2016,39(1):109-112. 被引量：27
2聂文汇,曾承,贾大文.基于热度矩阵的微博热点话题发现[J].计算机工程,2017,34(2):57-62. 被引量：9
3庞雄文,万本帅,王盼.基于MRT-LDA模型的微博文本分类[J].计算机科学,2017,44(8):236-241. 被引量：2
4文俊浩,袁培雷,曾骏,王喜宾,周魏.基于标签主题的协同过滤推荐算法研究[J].计算机工程,2017,43(1):247-252. 被引量：23
5王莹,罗准辰,于洋.基于排序学习模型的微博多样性检索问题研究[J].计算机工程,2017,43(11):152-160. 被引量：1
6王嵘冰,安维凯,冯勇,徐红艳.基于标签和PageRank的重要微博用户推荐算法[J].计算机科学,2018,45(2):276-279. 被引量：14
7欧阳龙,卢琪,彭艳兵.基于内容和背景的微博问答问题推荐[J].电子设计工程,2018,26(11):183-188. 被引量：1
8崔金栋,杜文强,关杨.基于大数据与LDA融合的微博信息推荐方法研究[J].情报科学,2018,36(9):27-31. 被引量：17
9向菲,彭昱欣,邰杨芳.一种基于协同过滤的图书资源标签推荐方法研究[J].图书馆学研究,2018(15):46-52. 被引量：11
10徐涵,刘小平.作者主题模型及其改进的方法与应用研究综述[J].图书情报工作,2019,63(7):135-145. 被引量：3

1张得鑫.君合汇：可复制的“人脉网络”[J].商界,2014(5):117-117.
2那罡.打通社区人脉[J].中国计算机用户,2007(40):13-14.
3四度空间.拓展我的二度人脉网络[J].网友世界,2009(5):33-33.
4张盈玲,贺耀忠.赢在人脉[J].新疆有色金属,2009,32(3):101-103. 被引量：1
5周建益.数据挖掘技术分析及其应用评价[J].中国电子商务,2014(11):105-105.
6冰河洗剑.职业社交网络，就在此时此刻——拓展职场人脉的BSNS[J].大众软件,2013(8):51-60.
7徐俊毅.Linkist缔造专业人脉网站[J].电子与电脑,2005,5(9):103-103.
8陈晴.《硅谷中关村人脉网络》——正在改变全球创新地图格局[J].高科技与产业化,2012,18(5):111-111.
9谭兴斌,李刚,李季.基于行为监控和数据挖掘的动态信任模型[J].计算机应用研究,2011,28(10):3764-3766. 被引量：3
10刘琦岩.让创新者引领创新——《硅谷中关村人脉网络》对科技体制机制改革和创新体系建设的启示[J].中国科技成果,2012(15):4-5.

计算机工程

2014年第5期

浏览历史

内容加载中请稍等...

基于标签的微博人脉网络挖掘算法和结构分析被引量：2

参考文献4

二级参考文献45

共引文献171

同被引文献27

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于标签的微博人脉网络挖掘算法和结构分析 被引量：2

参考文献4

二级参考文献45

共引文献171

同被引文献27

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于标签的微博人脉网络挖掘算法和结构分析被引量：2