基于改进K-means聚类的在线新闻评论主题抽取被引量：15

Topic Extraction in News Comments Based on Improved K-means Clustering Algorithm

下载PDF

导出

摘要新闻评论反映民众对新闻事件的观点,抽取评论主题,对用户、企业、政府都具有很高的情报分析价值。基于K-means聚类的主题挖掘算法应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-means改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,抽取新闻评论主题的效果明显。 News comments on the web express readers＇ attitudes or opinions about the news events. Opinion topic extraction from news comments is valuable for users, businesses and government. When K-means clustering algorithm for topic mining is applied to news comments in the Euclidean distance, it has bad clustering performance through the maximum distance method to select initial centers. To solve this problem, firstly, synonym substitution and field dictionary is introduced in the preprocessing stage to solve the problem of data sparseness and multi dimension. Secondly, the improved K-means algorithm is proposed. It selects the initial cluster centers according to maximum distance after the long comments are hidden, which solves the problem that initial centers are outliers. The method of variance inflection is proposed to deal with the problem of the traditional K-means algorithm in which k values needs to be input. It is found that the new algorithm has good clustering performance by BW-DF after BW is used to select initial centers. Finally, the effect of improved clustering algorithm is compared with the original one. The results show that the improved algorithm with high accuracy extracts opinion topic effectively.

作者夏火松李保国杨培

机构地区武汉纺织大学管理学院

出处《情报学报》 CSSCI 北大核心 2016年第1期55-65,共11页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金项目(71171153)"24小时知识工厂的知识共享活动模型与服务支持系统研究"的研究成果之一

关键词在线新闻评论 K—means聚类改进主题抽取同义词替换分词领域词典 online news comments, Improved K-means clustering algorithm, topic extraction, synonym substitution, field dictionary

分类号 G350 [文化科学—情报学]

引文网络
相关文献

参考文献28

1Abdul-Mageed M M. Online news sites and journalism 2. 0 : Reader comments on A1 Jazeera Arabic [ J ]. tripleC : Communication, Capitalism & Critique. Open Access Journal for a Global Sustainable Information Society, 2008, 6 ( 2 ) : 59-76.
2唐晓波,王洪艳.基于潜在狄利克雷分配模型的微博主题演化分析[J].情报学报,2013,32(3):281-287. 被引量：26
3Liu Q, Zhou M, Zhao X. Understanding News 2.0: A framework for explaining the number of comments from readers on online news [ J ] . Information & Management, 2015, 52(7) : 764-776.
4Walther J B, DeAndrea D, Kim J, et al. The influence of online comments on perceptions of antimarijuana public service announcements on YouTube [ J ]. Human Communication Research, 2010, 36 (4) : 469-492.
5Houston J B, Hansen G J, Nisbett G S. Influence of user comments on perceptions of media bias and third-person effect in online newsEJ~. Electronic News, 2011, 5(2) : 79 -92.
6Saha S K. Person Specific Comment Extraction and Classification [ D ]. Jadavpur University Kolkata, 2012.
7Zhuang L, Jing F, Zhu X Y. Movie review mining and summarization [ C ]//Proceedings of the 15th ACM international conference on Information and knowledge management. ACM, 2006: 43-50.
8Blei D M,Ng A Y,Jordan M I. Latent dirichlet allocation [J]. the Journal of Machine Learning Research, 2003, 3 : 993-1022.
9王卫平,孟翠翠.基于句法分析与依存分析的评价对象抽取[J].计算机系统应用,2011,20(8):52-57. 被引量：8
10姚天昉,程希文,徐飞玉,汉思·乌思克尔特,王睿.文本意见挖掘综述[J].中文信息学报,2008,22(3):71-80. 被引量：106

二级参考文献182

1杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
4徐雅斌,李艳平,郑芬.基于MapReduce架构的网络热点话题发现[J].华中科技大学学报（自然科学版）,2012,40(S1):236-239. 被引量：3
5张阔,徐鹏,李涓子,王克宏.基于优化层次聚类的文档逻辑结构抽取[J].清华大学学报（自然科学版）,2005,45(4):471-474. 被引量：2
6吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120. 被引量：7
7朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：325
8娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
9徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
10刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15

共引文献507

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2聂卉,何欢.引入词向量的隐性特征识别研究[J].数据分析与知识发现,2020,4(1):99-110. 被引量：2
3张新香,赵彩霞.影响电影微博互动效果的隐藏主题探究方法及应用[J].知识管理论坛,2020(5):283-291.
4段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
5温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：8
6刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
7姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
8龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
9龚静,田小梅.基于文本表示的特征项权值计算方法[J].电脑开发与应用,2008,21(2):46-48. 被引量：4
10台德艺,谢飞,胡学钢.基于位置权重的文本分类[J].安徽水利水电职业技术学院学报,2008,8(1):64-66. 被引量：2

同被引文献228

1刘嘉唯,高慧颖,崔立新,朱珈印,吴奕萱.微信社交网络顾客感知服务质量评价指标体系研究[J].信息与管理研究,2019,0(4):58-69. 被引量：4
2李宗伟,张艳辉.体验型产品与搜索型产品在线评论的差异性分析[J].现代管理科学,2013,1(8):42-45. 被引量：13
3李翔,潘瑜春,赵春江,王纪华,鲍艳松,刘良云,王锦地.基于空间连续性聚类算法的精准农业管理分区研究[J].农业工程学报,2005,21(8):78-82. 被引量：28
4王曰芬,宋爽,卢宁,朱烨.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64. 被引量：43
5江道平,班晓娟,尹怡欣,石为人.情感理论及基于情感的决策理论与模型研究[J].计算机科学,2007,34(4):154-157. 被引量：14
6孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060
7徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
8姚天昉,程希文,徐飞玉,汉思·乌思克尔特,王睿.文本意见挖掘综述[J].中文信息学报,2008,22(3):71-80. 被引量：106
9蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18. 被引量：186
10韩永青,陈卓群,夏立新.国内外主题图应用研究述评[J].图书情报知识,2008,25(6):105-109. 被引量：12

引证文献15

1毕达宇,张苗苗,曹安冉.基于情感依恋的用户高质量在线评论信息生成模式[J].情报科学,2020,0(2):47-51. 被引量：5
2陶兴,张向先,郭顺利.基于DPCA的社会化问答社区用户生成答案知识聚合与主题发现服务研究[J].情报理论与实践,2019,42(6):94-98. 被引量：17
3王新.基于神经网络的文献主题国别标引方法研究[J].数字图书馆论坛,2019,0(7):39-47. 被引量：3
4朱晓霞,宋嘉欣,张晓缇.基于主题挖掘技术的文本情感分析综述[J].情报理论与实践,2019,42(11):156-163. 被引量：23
5林杰,苗润生.专业社交媒体中的主题图谱构建方法研究——以汽车论坛为例[J].情报学报,2020,39(1):68-80. 被引量：16
6方佳明,殷娜嘉.在线产品类型的调节效应研究:评论主题分散度视角[J].电子科技大学学报（社科版）,2021,23(1):46-54. 被引量：2
7池毛毛,潘美钰,王伟军.共享住宿与酒店用户评论文本的跨平台比较研究:基于LDA的主题社会网络和情感分析[J].图书情报工作,2021,65(2):107-116. 被引量：30
8吴银昊,那日萨,李慧.基于Gaussian LDA与谱聚类融合的代表性负向评论提取[J].情报科学,2021,39(3):136-142. 被引量：5
9田世海,董月文,王健.基于NRL和k-means的舆情事件聚类研究[J].情报科学,2021,39(2):129-136. 被引量：8
10曾鸣,姜慧玲.网络群体性事件微博舆情主题演化研究[J].信息与管理研究,2021,6(2):28-40. 被引量：2

二级引证文献121

1张振刚,罗泰晔.基于在线评论数据挖掘和Kano模型的产品需求分析[J].管理评论,2022,34(11):109-117. 被引量：8
2陈琳,陈涛.基于LDA模型和信任维度的在线短租用户信任感知空间分布研究——基于Airbnb北京地区数据[J].中国发展,2021,21(5):53-61. 被引量：3
3周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
4曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：4
5李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
6蔡皎洁.AI中的文本信息抽取方法进展研究[J].湖北工程学院学报,2019,39(6):65-72. 被引量：3
7张莉曼,张向先,陶兴,卢恒.面向评论语义关系的学术APP服务需求聚合研究[J].情报理论与实践,2020,43(1):155-162. 被引量：11
8高楠,赵蕴华,彭鼎原.基于引用关系与词汇分析法的研究前沿识别研究——以人工智能领域为例[J].情报杂志,2020,39(4):44-50. 被引量：14
9尤苡名.基于TextRank的产品评论关键词抽取方法研究[J].软件导刊,2020,19(4):229-233. 被引量：3
10陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：12

1郭晨晨,朱红康.一种基于MapReduce的改进k-means聚类算法研究[J].河北工业大学学报,2016,45(5):35-43. 被引量：2
2钱政.Android平台下基于改进的K-means酒店信息聚类算法[J].淮海工学院学报（自然科学版）,2014,23(4):22-25. 被引量：2
3李卫军.K-means聚类算法的研究综述[J].现代计算机（中旬刊）,2014(8):31-32. 被引量：10
4未来BI发展四大趋势云计算仍占重头[J].科技风,2013(1):3-4.
5刘海峰,刘守生,姚泽清,张学仁.一种基于改进K-means聚类的文本特征选择模型[J].微电子学与计算机,2009,26(6):29-31. 被引量：2
6马春平,陈文亮.基于评论主题的个性化评分预测模型[J].北京大学学报（自然科学版）,2016,52(1):165-170. 被引量：1
7陈海彬,郭金玉,谢彦红.基于改进K-means聚类的kNN故障检测研究[J].沈阳化工大学学报,2013,27(1):69-73. 被引量：8
8薛行贵,高见文,张伯虎,黄立勤.基于MapReduce的并行LAD模型评论主题提取算法研究[J].福州大学学报（自然科学版）,2016,44(5):644-648. 被引量：1
9王欢,李红辉,张骏温.改进K-means聚类的云任务调度算法[J].计算机与现代化,2017(2):1-5. 被引量：10
10王庆福,王兴国.基于LDA的网络评论主题发现研究[J].无线互联科技,2016,13(11):103-104. 被引量：1

情报学报

2016年第1期

浏览历史

内容加载中请稍等...

基于改进K-means聚类的在线新闻评论主题抽取被引量：15

参考文献28

二级参考文献182

共引文献507

同被引文献228

引证文献15

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

基于改进K-means聚类的在线新闻评论主题抽取 被引量：15

参考文献28

二级参考文献182

共引文献507

同被引文献228

引证文献15

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

基于改进K-means聚类的在线新闻评论主题抽取被引量：15