一种改进的短文本层次聚类算法被引量：5

Improved Short Text Hierarchical Clustering Algorithm

下载PDF

导出

摘要互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip-gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。 A large amount of short text data which contains a variety of information exits on the Internet. However,traditional clustering algorithms work poorly because of the presence of the scarcity and informality of short text. This paper presents a novel short text clustering algorithm based on feature representation with word vectors and keyword extraction. The study defines a feature weight calculation formula and calculates the feather weight of every word in clusters to get the key words to represent them. It then calculates semantic similarity between keywords based on word vectorstrained by Skip-gram model and get the similarity between clusters to cluster. Experimental results on four datasets show that this method works better than traditional clustering algorithms,with the macro-F increasing 22. 3% 、24. 9% 、2. 9% and 34. 4% compared with the second-best result.

作者李天彩席耀一王波张佳明

机构地区信息工程大学

出处《信息工程大学学报》 2015年第6期743-748,752,共7页 Journal of Information Engineering University

基金国家社会科学基金资助项目(4BXW028)

关键词短文本聚类词向量关键词提取 short texts clustering word vector keyword extraction

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1CNNIC. Statistical reports on the Internet development inChina[R].北京:中国互联网信息中心,2014.
2Ding Yuxin, Meng Xuejun, Chai Guangren, et al. User Identification for Instant Messages [ C ]//2011 Interna- tional Conference on Neural Information Processing. 2011:11-13.
3David C, Uthus,David W. Aha. Multiparticipant chat a- nalysis: A survey [ J ]. Artificial Intelligence, 2013,2 (4) :106-121.
4刘金岭,王新功,周泓.基于短信文本信息流的多热点事件挖掘[J].山东大学学报（工学版）,2013,43(3):7-12. 被引量：6
5索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
6张霞,王素贞,尹怡欣,赵海龙.基于模糊粒度计算的K-means文本聚类算法研究[J].计算机科学,2010,37(2):209-211. 被引量：12
7Gabrilovich E. Feature generation for textual information re- trieval using worldknowledge [ J ]. ACM SIGIR Forum,2007, 41 (2) :123-123.
8刘金岭.基于语义的高质量中文短信文本聚类算法[J].计算机工程,2009,35(10):201-202. 被引量：30
9白秋产,金春霞.概念属性扩展的短文本聚类算法[J].长春师范学院学报（自然科学版）,2011,30(5):29-33. 被引量：4
10夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8

二级参考文献99

1梁书杰.对网络语言规范的探讨[J].高教论坛,2005(6):191-193. 被引量：10
2李艳,韩金龙.IRC——聊天室非语言交际研究[J].外语电化教学,2003(6):7-11. 被引量：9
3王登文,吴晓云.英汉网络语言语用探析[J].文教资料,2006(27):177-178. 被引量：1
4王鸿雁.汉语网络语言变体探析[J].社科纵横,2005,20(2):156-158. 被引量：5
5钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：24
6贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
7李梅.谈网络语言的语词类型、特点及规范[J].中华女子学院山东分院学报,2004(3):48-50. 被引量：17
8张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
9马静.语言学视野中的网络语言[J].西北工业大学学报（社会科学版）,2002,22(1):52-56. 被引量：22
10祁伟.试论社会流行语和网络语言[J].语言与翻译,2002(3):18-22. 被引量：87

共引文献131

1陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
2胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
3魏建香,刘怀,苏新宁.基于遗传算法的文档聚类算法的设计与仿真(英文)[J].南京大学学报（自然科学版）,2009,45(3):432-438. 被引量：4
4晋幼丽,周明全,王学松.SVM和K-means结合的文本分类方法研究[J].计算机技术与发展,2009,19(11):35-37. 被引量：5
5刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,2010,36(4):30-32. 被引量：14
6刘金岭.基于语义密度的文本聚类研究[J].计算机工程,2010,36(5):81-83. 被引量：6
7张全,袁毅.基于汉语字义基元化的新词处理分析[J].微计算机应用,2010,31(3):63-66.
8索红光,孙珊珊,王玉伟,梁玉环.基于主题短语的搜索引擎结果聚类[J].计算机系统应用,2010,19(3):107-110.
9刘金岭.海量中文短信文本最佳聚类数研究[J].计算机工程,2010,36(8):66-68. 被引量：1
10马素琴,施化吉,李星毅.基于语义列表的中文文本聚类算法[J].计算机应用研究,2010,27(5):1697-1699. 被引量：1

同被引文献50

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：8
2王轶华.基于层次分析法建立客户综合价值分析体系[J].华东电力,2006,34(4):36-39. 被引量：13
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246
4汤日辉.基于层次聚类分析实现集装箱运输客户的细分[J].铁道运营技术,2010,16(3):10-13. 被引量：2
5代青,白炳泉,贾继兵,刘靖旭.基于层次分析法和证据理论的课堂教学质量综合评价[J].信息工程大学学报,2010,11(6):664-667. 被引量：3
6洪宇,褚学宁,吴晓松.基于层次分析法的太阳能电池生产设备顾客价值分析[J].科技致富向导,2012(32):6-7. 被引量：1
7韩普,王东波,刘艳云,苏新宁.词性对中英文文本聚类的影响研究[J].中文信息学报,2013,27(2):65-73. 被引量：11
8林广发,冯学智,王雷,都金康.以事件为核心的面向对象时空数据模型[J].测绘学报,2002,31(1):71-76. 被引量：63
9刘伟朋,陈雁翔,孙晓.基于表情符号的中文微博多维情感分类的研究[J].合肥工业大学学报（自然科学版）,2014,37(7):803-807. 被引量：11
10王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015,33(1):63-68. 被引量：62

引证文献5

1马存,郭锐锋,高岑,孙咏.改进特征权重的短文本聚类算法[J].计算机系统应用,2018,27(9):210-214. 被引量：1
2刘建湘,刘海砚,刘一萱,李佳,康磊.兼顾时空特征的领导人出访事件可视分析[J].信息工程大学学报,2020,21(4):482-489.
3杨牧,王月,尹东起,刘淑颖.基于AHP的车险客户价值评价方法研究[J].信息工程大学学报,2020,21(5):574-578.
4刘硕,王庚润,李英乐,郭程远.中文短文本分类技术研究综述[J].信息工程大学学报,2021,22(3):304-312. 被引量：9
5刘硕,王庚润,任玉媛.基于LOTClass模型的弱监督中文短文本分类算法[J].信息工程大学学报,2021,22(5):613-620.

二级引证文献10

1谢卫红,杨超波,朱郁筱,李忠顺,蒋瞰阳.网络舆情监控算法研究与分析[J].科技管理研究,2019,39(22):197-205. 被引量：8
2谢波,何凤.基于反馈式文本分类技术自动识别项目标签[J].现代信息科技,2021,5(17):100-102.
3蔡宇翔,王佳斌,郑天华.Spark 平台下基于加权词向量的文本分类方法[J].现代计算机,2022,28(3):25-30.
4郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：4
5范明炜,张云华.基于改进BERT和多阶段TCN的短文本分类[J].智能计算机与应用,2022,12(7):156-159.
6许淞源,李成赞,刘峰.基于知识图谱和主题模型的短文本特征增强方法[J].数据与计算发展前沿,2023,5(2):97-105. 被引量：1
7王梓琦,张铫,夏雨风,任杰文.基于Word2vec和LSTM-SVM的数控机床故障报警预测[J].组合机床与自动化加工技术,2023(4):71-75. 被引量：1
8黄佳,刘翔宇.基于机器学习的医疗器械分类与预测方法研究[J].科技创新与应用,2024,14(5):28-31.
9闫佳和,李红辉,马英,刘真,张大林,江周娴,段宇航.多源异构数据融合关键技术与政务大数据治理体系[J].计算机科学,2024,51(2):1-14. 被引量：2
10张奕林,叶含瑞,张玲玲,薛倚明.基于BERT的短文本分类模型及在铁路CIR设备故障诊断中的应用[J].系统科学与数学,2024,44(1):115-131.

1宋相法,焦李成.基于稀疏表示及光谱信息的高光谱遥感图像分类[J].电子与信息学报,2012,34(2):268-272. 被引量：73
2杨晓红.云计算的定义和体系结构以及应用分析[J].信息与电脑（理论版）,2012(11):46-47. 被引量：1
3董晓婷.大数据的定义特征及其应用分析[J].硅谷,2013,6(11):120-120. 被引量：33
4李莹,李雪安.智能代理及其在网络管理中的应用[J].计算机工程,2000,26(S1):401-405.
5郭群,万立,钟毅芳,周济.基于层次结构的特征及其在CAD/CAM中的应用[J].计算机工程,1997,23(6):68-70.
6刘海泉,张永强.一种基于粗糙集理论的特征选取方法[J].科技资讯,2007,5(28):204-206.
7阳馨,蒋伟,刘晓玲.基于多种特征池化的中文文本分类算法[J].四川大学学报（自然科学版）,2017,54(2):287-292. 被引量：11
8张玲,刘平净,何伟,林英撑,赖琴.一种快速高效的虹膜识别算法[J].光电子．激光,2009,20(11):1507-1510.
9徐菱,柴俭,王金诺.基于特征的几何造型中数据结构的研究[J].西南交通大学学报,1999,34(2):174-179. 被引量：1
10于洁.Skip-Gram模型融合词向量投影的微博新词发现[J].计算机系统应用,2016,25(7):130-136. 被引量：3

信息工程大学学报

2015年第6期

浏览历史

内容加载中请稍等...

一种改进的短文本层次聚类算法被引量：5

参考文献21

二级参考文献99

共引文献131

同被引文献50

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种改进的短文本层次聚类算法 被引量：5

参考文献21

二级参考文献99

共引文献131

同被引文献50

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种改进的短文本层次聚类算法被引量：5