一种基于聚类的微博关键词提取方法的研究与实现被引量：9

Research and Implementation of Micro-blog Keyword Extraction Method Based on Clustering

下载PDF

导出

摘要文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与Text Rank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。 This paper presented a Micro-blog keyword extraction based on Clustering. It achieved in three steps. At ifrst, the experiment pre-processed and breaked word on the microblogs, then used TF-IDF and TextRank algorithm to calculate word weight, according to the characteristics of short text microblogging used a combination of the two methods calculate weighting terms and extracted candidate keyword by clustering algorithm. Secondly, taked n is 2 deifnes the maximum probability left neighbor and maximum probability right neighbor based on the theory of n-gram language model, accordingly extended the candidate keywords into key phrases. At last, the result ifltered according to the concept of accessory variety and semantic number of units in the semantics extension model. The experimental results show this method can effectively extracted the microblogs keywords and TextRank performed better than the TF-IDF when processed short text .

作者孙兴东李爱平李树栋

机构地区国防科学技术大学计算机学院

出处《信息网络安全》 2014年第12期27-31,共5页 Netinfo Security

基金国家科技支撑计划[2012BAH38B00] 国家自然科学基金[61202362 61262057] 中国博士后科学基金[2013M542560]

关键词微博关键词聚类算法 TF-IDF TextRank N-GRAM语言模型 TF-IDF TextRank micro-blog keyword clustering algorithm TF-IDF TextRank n-gram language model

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：15

二级参考文献10

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
3Jilin Chen, Benyu Zhang, Dou Shen, Qiang Yang. Zheng Chen. Diverse Topic Phrase Extraction from Text Collection. Data Mining [C]//ICDM apos: 06. Sixth International Conference on Volume, Issue, Digital Object Identifier. 2006.
4Blaz Fortuna, Dunja Mladenic, Marko Grobelnik . Semi-Automatic Construction of Topic Ontology[C]// ESWC 2005.
5Khaled M. Hammouda, Diego N. Matute, and Mohamed S. Kamel. CorePhrase: Keyphrase Extraction for Document Clustering[C]//Machine Learning and Data Mining in Pattern Recognition. 2005: 265-274.
6Neto, J., Santos, A., Kaestner, C., Freitas, A. Document clustering and text summarization [C]// Proc. 4th International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000), London, UK: 2000:41-55.
7Salton, G. (1991): Developments in Automatic Text Retrieval[J]. Science, Vol 253, 974-979.
8K.B. Khoo and M. Ishizuka. Emerging Topic Track ing System [C]//Proc. of Web Intelligent (WI 2001), LNAI 2198 (Springer), Maebashi, Japan: 2001: 125-130.
9Khoo Khyou Bun, Mitsuru Ishizuka, Topic Extraction from News Archive Using TF× PDF Algorithm[C]// The Third International Conference on Web Information Systems Engineering (WISE'02), 2002.
10董振东董强.[EB/OL].知网[EB/OL].http://www.keenage.com,1999.

共引文献14

1席耀一,林琛,李弼程,周杰,许旭阳.基于语义相似度的论坛话题追踪方法[J].计算机应用,2011,31(1):93-96. 被引量：22
2王昊,邓三鸿,苏新宁.基于字序列标注的中文关键词抽取研究[J].现代图书情报技术,2011(12):39-45. 被引量：7
3邓三鸿,王昊,秦嘉杭,苏新宁.基于字角色标注的中文书目关键词标引研究[J].中国图书馆学报,2012(2):38-49. 被引量：10
4李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
5王永亮,郭巧,曹奇敏.一种基于同义词的中文关键词提取方法[J].江南大学学报（自然科学版）,2013,12(5):620-625. 被引量：2
6龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
7李照航,郭风华,李仁杰,傅学庆,严正峰.大量网络游记文本中热度地名提取方法与实证研究[J].地理与地理信息科学,2015,31(1):68-73. 被引量：22
8曾聪,张东站.基于同义词词林和《知网》的短语主题提取[J].厦门大学学报（自然科学版）,2015,54(2):263-269. 被引量：8
9崔诚煜,冉晓旻.基于频繁模式挖掘的中文关键词提取算法[J].太赫兹科学与电子信息学报,2015,13(2):279-284.
10智烈慧,李仁杰,傅学庆,郭风华.众包旅游文本热度地名的共现挖掘[J].测绘科学,2016,41(8):144-151. 被引量：4

同被引文献113

1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
2雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
3刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
4施少怀. 一种基于用户倾向的微博好友推荐算法[D]. 哈尔滨: 哈尔滨工业大学, 2013.
5Yang Y, CarbonelI J, Brown 1L, et al. Learning approaches fi.,r detecting and tracking news events[J]. Intelligent Systems & Their Applications IEEE, 1999, 14(4):32 - 43.
6Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the thirty-fourth annual ACM symposiunl oll Theory of computing. ACM, 2002: 380-388.
7Chen C C, Chen Y T, Sun Y, et al. Lift" cycle modeling of news events using aging theory[C]//Machine Learning: ECME 2013. Springer Berlin Heidelberg, 21103: 47-59.
8Allan J, Carbonell J G, Doddington G, et al. Topic Detection and Tracking Pilot Study Final Report[C]//proceedings of the darpa broadcast news transcription and understanding workshop, 1998:194-218.
9Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J], the Journal of machine Learning research, 2003, ( 3 ) : 993-1022.
10Chen C C, Chen M C, Chen M S. LIPED: HMM-based life profiles for adaptive event detection[C]//Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining. ACM, 2005: 556-561.

引证文献9

1王乐,王勇,王东安,徐小琳.社交网络中信息传播预测的研究综述[J].信息网络安全,2015(5):47-55. 被引量：12
2张越今,丁丁.敏感话题发现中的增量型文本聚类模型[J].信息网络安全,2015(9):170-174. 被引量：6
3林思娟,林柏钢,许为,杨旸.一种基于词语能量值变化的微博热点话题发现方法研究[J].信息网络安全,2015(10):46-52. 被引量：7
4张俊豪,顾益军,张士豪.基于距离模型的用户关系强度评估[J].信息网络安全,2015(10):86-91. 被引量：2
5高悦,王文贤,杨淑贤.一种基于狄利克雷过程混合模型的文本聚类算法[J].信息网络安全,2015(11):60-65. 被引量：10
6胡雪,封化民,李明伟,丁钊.数据挖掘中一种增强的Apriori算法分析[J].信息网络安全,2015(11):77-83. 被引量：16
7吴威.基于Web文本挖掘算法预防现实危害的研究[J].信息网络安全,2016(9):40-44. 被引量：3
8汪祖柱,阮振秋.基于关联规则的政务微博公众评论观点挖掘[J].情报科学,2017,35(8):19-22. 被引量：10
9张建恒,黄蔚,胡国超.基于LDA模型和AP聚类的主题事件抽取技术[J].计算机与现代化,2017(12):77-81. 被引量：1

二级引证文献66

1裘玥.匿名网络的安全监管隐患与信息获取技术研究[J].信息网络安全,2015(9):106-108. 被引量：3
2郝文江,李翠翠,徐丽萍,田芳.青少年网络保护的立体框架构建探析[J].信息网络安全,2015(9):109-112. 被引量：6
3周红福,贾璐,张婷婷,李剑.微博舆情分析中信息转发路径提取方法研究[J].信息网络安全,2016(4):61-68. 被引量：8
4田燕,张新刚.在线社交网络的拓扑结构与信息传播机制综述[J].长沙大学学报,2016,30(2):73-75. 被引量：2
5尚海,罗森林,韩磊,张笈.基于句义成分的短文本表示方法研究[J].信息网络安全,2016(5):64-70. 被引量：6
6张章学.面向社交网络的信息传播预测方法及实现[J].软件导刊,2016,15(6):159-161.
7吴威.基于Web文本挖掘算法预防现实危害的研究[J].信息网络安全,2016(9):40-44. 被引量：3
8王毅,唐勇,卢泽新,俞昕.恶意代码聚类中的特征选取研究[J].信息网络安全,2016(9):64-68. 被引量：9
9周玉晶,沈嘉荟,邱海韬,查达仁.基于复杂网络的社交媒体内容安全可视化分析系统[J].信息网络安全,2016(9):158-162. 被引量：10
10刘奇飞.基于兴趣的微博用户关系分析原型系统研究[J].信息网络安全,2016(9):240-245. 被引量：4

1汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163-166. 被引量：4
2卢先宁,高泽华,高峰.Web日志挖掘中的会话识别技术研究[J].数据通信,2012(4):19-21.
3顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
4潘晓英,胡开开,朱静.一种基于TextRank的文本二次聚类算法[J].计算机技术与发展,2016,26(8):7-11. 被引量：3
5方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12
6江铭虎,朱小燕,袁保宗.一种适应域的汉语N-gram语言模型平滑算法[J].清华大学学报（自然科学版）,1999,39(9):99-102. 被引量：9
7宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66
8田长波,林民,斯日古楞.融合PAM和主题偏好TextRank的历史沿革信息抽取[J].计算机应用研究,2017,34(1):123-127. 被引量：6
9许爱琴,王梦洁,刘永坚,王卫华.一种新的生成候选关键词集的方法[J].武汉理工大学学报（信息与管理工程版）,2013,35(6):816-819.
10李亚芬,李征.基于Alfresco的出版社资源库系统的研究与实现[J].软件,2015,36(5):34-39.

信息网络安全

2014年第12期

浏览历史

内容加载中请稍等...

一种基于聚类的微博关键词提取方法的研究与实现被引量：9

参考文献1

二级参考文献10

共引文献14

同被引文献113

引证文献9

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

一种基于聚类的微博关键词提取方法的研究与实现 被引量：9

参考文献1

二级参考文献10

共引文献14

同被引文献113

引证文献9

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

一种基于聚类的微博关键词提取方法的研究与实现被引量：9