基于层次分析的微博短文本特征计算方法被引量：9

Calculating the feature method of short text based on analytic hierarchy process

下载PDF

导出

摘要为了建立用户精准兴趣模型以有效发现具有相似兴趣的用户群,提出了一种针对微博的短文本特征计算方法用于聚类算法,提升聚类效果以更好地挖掘微博用户的相似兴趣集合。该方法融合了微博转发数、评论数、点赞数等多个关键指标来度量微博短文本特征的重要性。同时,引入层次分析技术,改进了传统的tf-idf特征计算方法,并利用经典文本聚类算法进行实验。实验结果表明,改进后的短文本特征计算方法与传统的tf-idf特征计算方法相比,在类内集中度和类间分散度上取得了更好的效果。 In order to model the accurate interest preference of microblog users and discover user groups with similar interest, a new method was proposed which considered the total amount of retweets, comments and attitudes of each microblog for text feature calculation with utilizing classic analytical hierarchy process method. The proposed method used three indicators to evaluate the importance of the text feature representation and made an improvement on traditional tf-idf feature calculation method to fit for short text. Furthermore, this method was also implemented in the traditional clustering algorithm. Experimental results show that, compared with the traditional tf-idf method, the improved approach has a better clustering effect on the average scattering for clusters and the total separation between clusters.

作者邹学强包秀国黄晓军马宏远袁庆升 ZOU Xue-qiang BAO Xiu-guo HUANG Xiao-jun MA Hong-yuan YUAN Qing-sheng(Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China University of Chinese Academy of Sciences, Beijing 100049, China School of Information and Communication Engineering, Beijing University of Posts and Tel Beijing 100876, China)

机构地区中国科学院信息工程研究所国家计算机网络应急技术处理协调中心中国科学院大学北京邮电大学信息与通信工程学院

出处《通信学报》 EI CSCD 北大核心 2016年第12期50-55,共6页 Journal on Communications

基金国家高技术研究发展计划("863"计划)基金资助项目(No.SS2014AA012303) 国家自然科学基金资助项目(No.61300206 No.61402123)~~

关键词层次分析特征计算文本聚类短文本 analytic hierarchy process feature calculation text clustering short text

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1邱云飞,王琳颍,邵良杉,郭红梅.基于微博短文本的用户兴趣建模方法[J].计算机工程,2014,40(2):275-279. 被引量：21
2宋巍,张宇,谢毓彬,刘挺,李生,都云程.基于微博分类的用户兴趣识别[J].智能计算机与应用,2013,3(4):80-83. 被引量：12
3Zhiyuan LIU,Xinxiong CHEN,Maosong SUN.Mining the interests of Chinese microbloggers via keyword extraction[J].Frontiers of Computer Science,2012,6(1):76-87. 被引量：26
4张俊林.标签传播算法在微博用户兴趣图谱的应用[J].程序员,2012(7):50-53. 被引量：7
5常建娥,蒋太立.层次分析法确定权重的研究[J].武汉理工大学学报（信息与管理工程版）,2007,29(1):153-156. 被引量：613

二级参考文献83

1彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
2许树伯．层次分析法原理[M]．天津大学出版社,1988．
3林霜梅,汪更生,陈弈秋.个性化推荐系统中的用户建模及特征选择[J].计算机工程,2007,33(17):196-198. 被引量：45
4ZHAO WSYNE Xin,JIANG Jing,WENG Jianshu. Comparing Twitter and traditional media using topic models[A].2011.338-349.
5HONG L,DAVISON B D. Empirical study of topic modeling in Twitter[A].2010.
6ABELF,GAOQI,JANG. Sematic Enrichment of Twitter Posts for User Profile Construction on the Social Web[A].2011.
7RAMAGE D,DUMAIS S T LIEBLINGOL. Liebling.Characterizing Microblogs with Topic Models[A].2010.
8ABELF,GAO QI,JANG. Analyzing User Modeling on Twitter For Personalized News Recommendations[A].2011.
9ABELF,GAO QI,JANG. TUMS:Twitter-based User Modeling Service[A].2011.
10Matthew Michelson,Sofus A.Macskassy. Discovering users'topics of interest on twitter:a first look[A].2010.73-80.

共引文献666

1王静雅.基于鱼骨图和AHP的国内开放存取认可度影响因素研究[J].烟台职业学院学报,2023(3):22-29.
2王健,高铭.基于新发展理念的中国省域经济发展评估[J].现代管理科学,2021,9(4):3-16. 被引量：5
3王涛.关注效率的科技企业创新绩效评价分析[J].市场瞭望,2023(19):96-98.
4李洪波,王成文,吴瑞,张勃.基于博弈论法的银川市地下水资源承载力评价[J].人民黄河,2023,45(S01):42-43. 被引量：2
5王姣,李辉,胡强.基于组合赋权和改进集对分析的水库淤积影响评价[J].人民长江,2022,53(S01):125-129. 被引量：1
6何文.基于模糊综合法的水电站检修机组吊装安全评价[J].人民长江,2021,52(S01):366-368. 被引量：5
7李枝霖,王华.人口流动视角下辽宁省大学生就业问题研究[J].辽宁工程技术大学学报（社会科学版）,2022,24(1):70-75.
8刘洋,韩雪峰.辽宁高校大学生择业影响因素分析[J].辽宁工程技术大学学报（社会科学版）,2020,22(4):307-314. 被引量：2
9徐景涛,董志勇,王长柏.废弃矿井地下空间开发仓储功能适宜性评价[J].煤炭经济研究,2022,42(3):51-57. 被引量：1
10王艳娜.基于AHP法的和顺县精准扶贫分析[J].中国经贸导刊,2019,0(8Z):96-98. 被引量：2

同被引文献68

1章鹿华,了恒春,徐占河,赵林.计量关口设备监测及智能作业管理系统设计与实现[J].自动化仪表,2014,35(S01):41-43. 被引量：1
2郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
3胡春华,吴敏,刘国平.Web服务工作流中基于信任关系的QoS调度[J].计算机学报,2009,32(1):42-53. 被引量：36
4张宇,刘雨东,计钊.向量相似度测度方法[J].声学技术,2009,28(4):532-536. 被引量：132
5刘慧婷,倪志伟.基于EMD与K-means算法的时间序列聚类[J].模式识别与人工智能,2009,22(5):803-808. 被引量：10
6王华朋.基于LPCC与似然比的法庭说话人识别[J].中国刑警学院学报,2011(2):48-50. 被引量：2
7闫幸,常亚平.微博研究综述[J].情报杂志,2011,30(9):61-65. 被引量：92
8唐明珠,阳春华,桂卫华.基于改进的QBC和CS-SVM的故障检测[J].控制与决策,2012,27(10):1489-1493. 被引量：16
9文坤梅,徐帅,李瑞轩,辜希武,李玉华.微博及中文微博信息处理研究综述[J].中文信息学报,2012,26(6):27-37. 被引量：37
10王连喜,蒋盛益,庞观松,吴美玲.微博用户关系挖掘研究综述[J].情报杂志,2012,31(12):91-97. 被引量：27

引证文献9

1郑步青,邹红霞,胡欣杰,王桢.引入时间机制的网络舆情演化分析方法研究[J].计算机科学,2017,44(B11):418-421. 被引量：3
2郭培伦.微博传播特性分析及舆情监控策略研究[J].电脑知识与技术,2018,14(2):40-42.
3郝洪星,何道远,张翔宇,陈雅伦.电能计量装置品级评价方法研究[J].电子设计工程,2019,27(2):113-116. 被引量：1
4龙增艳,陈志刚,徐成林.基于用户交互的社交网络好友推荐算法[J].计算机工程,2019,45(3):132-137. 被引量：16
5胡春华,童小芹,梁伟.基于信任和不信任关系的实值受限玻尔兹曼机推荐算法[J].系统工程理论与实践,2019,39(7):1817-1830. 被引量：11
6罗文华,李孟林.面向法庭科学的多属性中文短文本作者归属[J].中国刑警学院学报,2020(2):119-123.
7沈超,王逊,黄树成.一种实现微博兴趣挖掘的粒子群优化k-means算法[J].计算机与数字工程,2020,48(8):1819-1823. 被引量：2
8Zhao Guosheng,Liu Dongmei,Wang Jian.Cloud security situation prediction method based on grey wolf optimization and BP neural network[J].The Journal of China Universities of Posts and Telecommunications,2020,27(6):30-41. 被引量：2
9代晓丽,刘世峰,宫大庆.基于NLP的文本相似度检测方法[J].通信学报,2021,42(10):173-181. 被引量：8

二级引证文献43

1马心儒,丁伟.用户行为数据统计的案例分析[J].电子技术（上海）,2021,50(8):180-181.
2唐英,林克勤.体验认知视域下时政报道的交互式传播研究——以《重返这五年》为例[J].中华文化与传播研究,2019,0(2):3-21. 被引量：1
3陈艳红,向军,刘嵩.高校网络舆情分析的K-Means算法优化研究[J].湖北民族学院学报（自然科学版）,2018,36(4):442-447. 被引量：9
4向程冠,熊世桓,王东,熊伟程.基于关联规则与相似度的社交好友推荐算法[J].计算机工程,2019,45(4):175-180. 被引量：14
5张继东,蔡雪.基于社区划分和用户相似度的好友信息服务推荐研究[J].情报理论与实践,2019,42(4):151-157. 被引量：12
6刘定一,应毅.基于计算智能的舆情预测分析[J].科技传播,2019,11(14):126-127. 被引量：1
7张新祥,李天鹏,孟鹏洋,贾明泽,葛敬云.基于Vanilla算法的网络视频推荐策略研究[J].数学的实践与认识,2019,49(21):302-308. 被引量：1
8刘晓飞,朱斐,伏玉琛,刘全.基于用户偏好特征挖掘的个性化推荐算法[J].计算机科学,2020,47(4):50-53. 被引量：14
9胡春华,赵慧,童小芹,任剑.推荐系统对消费者网购支出的影响研究[J].中国管理科学,2020(6):158-170. 被引量：7
10顾秋阳,琚春华,吴功兴.融入深度自编码器与网络表示学习的社交网络信息推荐模型[J].计算机科学,2020,47(11):101-112. 被引量：6

1祝晓鲁,白振兴,贾海燕.自动文本分类技术研究[J].现代电子技术,2007,30(3):121-124. 被引量：6
2叶小舟,陶飞飞,戚荣志,张云飞,周思琪,刘璇.循环神经网络结构中激活函数的改进[J].计算机与现代化,2016(12):29-33. 被引量：8
3李国和,岳翔,吴卫江,洪云峰,刘智渊,程远.面向文本分类的特征词选取方法研究与改进[J].中文信息学报,2015,29(4):120-125. 被引量：7
4陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
5徐融,朱根江,谢立.自动并行编译中的层次分析技术[J].计算机科学,1998,25(3):41-44.
6Mohd Saifullah Rusiman,Efendi Nasibov,Kavikumar Jacob,Robiah Adnan.Modification of Intensive Care Unit Data Using Analytical Hierarchy Process and Fuzzy C-Means Model[J].Journal of Mathematics and System Science,2012,2(7):399-403.
7路永和,陈泳珊.基于二进制烟花算法的特征选择方法[J].情报学报,2017,36(3):249-259. 被引量：5
8翁玉章.互读对比回放经典——构建“课文文本”与“相关文本”之间的阅读链[J].福建基础教育研究,2015(12):32-33.
9张焱,黄曙光,汪永益.基于DS理论与层次权重的网络安全风险评估[J].计算机应用与软件,2011,28(11):294-297. 被引量：4
10刘健康.基于态度的中文BBS信息过滤技术的探讨[J].制造业自动化,2010,32(A5):107-110.

通信学报

2016年第12期

浏览历史

内容加载中请稍等...

基于层次分析的微博短文本特征计算方法被引量：9

参考文献5

二级参考文献83

共引文献666

同被引文献68

引证文献9

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于层次分析的微博短文本特征计算方法 被引量：9

参考文献5

二级参考文献83

共引文献666

同被引文献68

引证文献9

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于层次分析的微博短文本特征计算方法被引量：9