基于群体智能的跨语言网络舆情文本聚类模型被引量：4

Multi-Language Text Clustering Model for Internet Public Opinion Based on Swarm Intelligence

下载PDF

导出

摘要跨语言的互联网文本信息在中国多个民族构成中非常普遍,但当前文本聚类模型主要针对单一语言,跨语言文本挖掘的研究较少。群体智能算法具有自组织、启发式、自适应和鲁棒性的特点,提出一种基于群体智能的跨语言网络舆情文本聚类模型SI-Cluster(swarm-intelligence-based text clustering model),应用3种优化策略。梯度下降法弱化智能体拾取文本的能力,避免陷入局部最优解,添加信息素引导智能体移动并有效避免信息素挥发过快的问题,智能体从当前位置选择下一位置考虑信息素感应浓度和方向权重因子。在中文、英文和藏文文本数据集上进行实验,从聚类准确性上看应用优化策略的SI*-Cluster算法的F-measure值达到0. 862,相比于k-means算法提高44. 1%;从收敛性上看SI*-Cluster算法在聚类效果明显的前提下迭代500次收敛,相比SI-Cluster算法900次收敛,具有更快的收敛速度。模拟展示了SICluster和SI*-Cluster算法进行文本聚类的迭代过程,证明所提优化策略的有效性。 Multi-language text from the Internet is ubiquitous in China which is a very huge country composed of many nationalities. Existing text clustering models is mainly applied for one single language,and there are few studies on multi-language text mining. Swarm intelligence algorithms have the characteristics of self-organizing,heuristic,adaptive and robust. A multi-language text clustering model for Internet public opinion based on swarm intelligence is proposed,which is called SI-Cluster( swarm-intelligence-based text clustering model). Three optimization strategies are applied: a gradient descent method is applied to degrade agents’ capability of picking up texts in order to avoid falling into the local optimal solution;the pheromone is used to guide agents to move,which can effectively avoid the problem of excessive volatilization of pheromones;the agent selects the next position from the current position by taking into consideration the pheromone concentration of sensing and the weight factor of directions. Experiments were conducted on Chinese,English and Tibetan text datasets. In terms of clustering accuracy,the F-measure of the improved SI*-Cluster algorithm with optimization strategies can reach to 0. 862,which is 44. 1% higher than that of the k-means algorithm. In terms of convergence,SI*-Cluster can converge after 500 times of iterations with obviously good clustering results,which is faster than that of the SI-Cluster algorithm converging after900 times of iterations. Simulation shows the iterative process of SI-Cluster and SI*-Cluster for text clustering,and the results prove the effectiveness of the proposed optimization strategies.

作者韩楠乔少杰黄萍彭京周凯 HAN Nan;QIAO Shaojie;HUANG Ping;PENG Jing;ZHOU Kai(School of Management,Chengdu University of Information Technology, Chengdu 610225 , China;School of Software Engineering,Chengdu University of Information Technology, Chengdu 610225 , China;Sichuan Provincial Department of Public Security, Chengdu 610014, China)

机构地区成都信息工程大学管理学院成都信息工程大学软件工程学院四川省公安厅

出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2019年第9期99-108,共10页 Journal of Chongqing University of Technology：Natural Science

基金国家自然科学基金资助项目(61802035,61772091,61962006) 四川省科技计划项目(2019YFG0106,2018JY0448,2019YFS0067) 四川高校科研创新团队建设计划(18TD0027) 成都市软科学研究项目(2017-RK00-00053-ZF) 广西自然科学基金项目(2018GXNSFDA138005) 成都信息工程大学中青年学术带头人科研基金项目(J201701) 成都信息工程大学科研基金项目(KYTZ201715,KYTZ201750)

关键词群体智能跨语言文本聚类网络舆情 swarm intelligence multi-language text clustering Internet public opinion optimization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1周楠,杜攀,靳小龙,刘悦,程学旗.面向舆情事件的子话题标签生成模型ET-TAG[J].计算机学报,2018,41(7):1490-1503. 被引量：18
2孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
3乔少杰,韩楠,金澈清,高云君,李天瑞,唐常杰,康健.基于Multi-Agent的分布式文本聚类模型[J].计算机学报,2018,41(8):1709-1721. 被引量：5

二级参考文献33

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
3徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
4费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
5肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
6翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41
7赵川,杜玲,岳鹏,刘少君,林征胜,赵荣海.基于中文的自然语言理解初探[J].现代电子技术,2007,30(6):82-85. 被引量：4
8朱小娟,陈特放.基于SVM的词频统计中文分词研究[J].微计算机信息,2007,23(30):205-207. 被引量：10
9孙宏纲,陆余良,刘金红,龚笔宏.基于HowNet的VSM模型扩展在文本分类中的应用研究[J].中文信息学报,2007,21(6):101-108. 被引量：8
10李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：102

共引文献27

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：3
3李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
4刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：9
5朱烨行,张明杰.微博数据采集的设计与实现[J].电脑编程技巧与维护,2017(17):60-62. 被引量：2
6牛伟农,吴林,于水源.一种基于词聚类信息熵的新闻提取方法[J].软件导刊,2020,19(1):36-40. 被引量：1
7夏丽华,韩冬梅.面向社交媒体评论的子话题挖掘研究[J].情报杂志,2020,39(4):110-116. 被引量：5
8毛郁欣,邱智学.基于Word2Vec模型和K-Means算法的信息技术文档聚类研究[J].中国信息技术教育,2020,0(8):99-101. 被引量：3
9理姗姗,杨文忠,王婷,王丽花.基于网络社交媒体的子话题检测技术综述[J].计算机应用,2020,40(6):1565-1573. 被引量：2
10魏家泽,董诚,何彦青,刘志辉,彭柯芸.基于均衡段落和分话题向量的新闻热点话题检测研究[J].数据分析与知识发现,2020,4(10):70-79. 被引量：1

同被引文献28

1孔万增,孙志海,杨灿,戴国骏,孙昌思核.基于本征间隙与正交特征向量的自动谱聚类[J].电子学报,2010,38(8):1880-1885. 被引量：36
2赵凤,焦李成,刘汉强,公茂果.半监督谱聚类特征向量选择算法[J].模式识别与人工智能,2011,24(1):48-56. 被引量：29
3刘开瑛.汉语框架语义网构建及其应用技术研究[J].中文信息学报,2011,25(6):46-52. 被引量：23
4唐国瑜,夏云庆,张民,郑方.基于跨语言广义向量空间模型的跨语言文档聚类方法[J].中文信息学报,2012,26(2):116-120. 被引量：5
5邓三鸿,万接喜,王昊,刘喜文.基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J].现代图书情报技术,2014(1):28-35. 被引量：3
6乔少杰,金琨,韩楠,唐常杰,格桑多吉,Louis Alberto GUTIERREZ.一种基于高斯混合模型的轨迹预测算法[J].软件学报,2015,26(5):1048-1063. 被引量：113
7夏青,严馨,余正涛,汪建成,高盛祥,洪旭东.融合要素及主题的汉越双语新闻话题分析[J].计算机工程,2016,42(9):186-191. 被引量：3
8彭兰.智媒化：未来媒体浪潮--新媒体发展趋势报告(2016)[J].国际新闻界,2016,38(11):6-24. 被引量：336
9吕绍仟,孟凡荣,袁冠.基于轨迹结构的移动对象热点区域发现[J].计算机应用,2017,37(1):54-59. 被引量：3
10乔少杰,郭俊,韩楠,张小松,元昌安,唐常杰.大规模复杂网络社区并行发现算法[J].计算机学报,2017,40(3):687-700. 被引量：39

引证文献4

1梁卓灵,元昌安,覃晓,乔少杰,韩楠,范勇强.基于改进谱聚类的热点区域挖掘方法[J].重庆理工大学学报（自然科学）,2021,35(1):129-137. 被引量：4
2曹学飞,牛倩,王瑞波,王钰,李济洪.基于共现的汉语词的分布表示学习与改进[J].计算机科学,2021,48(6):222-226. 被引量：1
3陈瑞涵,王紫祥,敖永春.智媒时代高校网络舆情工作机制研究[J].新闻研究导刊,2022,13(19):87-89. 被引量：4
4潘思铭,巫邵诚.基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究[J].情报探索,2023(7):1-10.

二级引证文献9

1姜杰,车程逸.智媒时代高校意识形态风险应对策略[J].鞍山师范学院学报,2023,25(5):84-87.
2刘新斌,王丽珍,周丽华.MLCPM-UC:一种基于模式实例分布均匀系数的多级co-location模式挖掘算法[J].计算机科学,2021,48(11):208-218. 被引量：4
3吉涛,刘玮洁,段立,郑伟,廖勇.采用改进高斯混合模型的电力客户大数据行为分析[J].重庆理工大学学报（自然科学）,2022,36(5):233-240. 被引量：1
4王田雨,吉立新,李邵梅,张建朋.基于改进谱聚类的城市热点区域挖掘[J].信息工程大学学报,2022,23(3):313-319. 被引量：1
5陈姝睿,梁子然,饶洋辉.细粒度语义知识图谱增强的中文OOV词嵌入学习[J].计算机科学,2023,50(3):72-82. 被引量：1
6缐宇峰.大学生思想政治引导及应对策略研究--以高校网络舆情为例[J].品位·经典,2023(2):164-166.
7王少帆,魏福豪,黄世雨,尹宝才.基于图密度峰值聚类算法的热点路段发现[J].中国传媒大学学报（自然科学版）,2023,30(1):31-38. 被引量：1
8韩雨蒙.基于大思政背景下高校网络舆情引导研究[J].办公室业务,2023(16):113-115.
9翟梦杰,王雪.高校网络舆情应对联动机制及分级处置探索[J].新闻研究导刊,2023,14(15):137-139.

1赵荣标.基于公共投资空间布局优化的云南农田水利建设[J].农村实用技术,2019,0(9):79-80.
2潘金月,韩祝明,陈信,陈莉,王成化.基于大数据技术的台区线损率综合评价模型分析[J].电力系统装备,2019,0(14):99-100. 被引量：1
3张国锋,吴国文.基于核函数的改进k-means文本聚类[J].计算机应用与软件,2019,36(9):281-284. 被引量：12
4胡文婷.话语标记语研究现状及展望[J].现代语文,2019(7):36-42.
5李海明.基于SSDKmeans算法的微博热点话题发现研究[J].软件导刊,2019,18(9):173-175. 被引量：1
6钟琪,冯亚琴,王蔚.跨语言语料库的语音情感识别对比研究[J].南京大学学报（自然科学版）,2019,55(5):765-773. 被引量：3
7燕罗成,廖勇,陈静怡.基于梯度下降法的PMSM转矩脉动抑制策略[J].电力电子技术,2019,53(9):18-20. 被引量：6
8黄怡.从传播学视角看软新闻英译的归化策略——以China Daily为例[J].当代外语研究,2019,0(3):122-128. 被引量：1
9闫俊伢,马尚才.基于文本聚类的网络微博舆情话题识别与追踪技术研究[J].重庆理工大学学报（自然科学）,2019,33(9):176-181. 被引量：7
10杜宇.基于群智仿生算法的大数据高效迁移策略研究[J].现代电子技术,2019,42(19):124-126. 被引量：1

重庆理工大学学报（自然科学）

2019年第9期

浏览历史

内容加载中请稍等...

基于群体智能的跨语言网络舆情文本聚类模型被引量：4

参考文献3

二级参考文献33

共引文献27

同被引文献28

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于群体智能的跨语言网络舆情文本聚类模型 被引量：4

参考文献3

二级参考文献33

共引文献27

同被引文献28

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于群体智能的跨语言网络舆情文本聚类模型被引量：4