基于词向量和EMD距离的短文本聚类被引量：11

Short text clustering based on word embeddings and EMD

导出

摘要短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。 Short text clustering plays an important role in data mining. The traditional short text clustering model has some problems, such as high dimensionality,sparse data and lack of semantic information. To overcome the shortcomings of short text clustering caused by sparse features ,semantic ambiguity ,dynamics and other reasons, this paper presents a feature based on the word embeddings representation of text and short text clustering algorithm based on the moving distance of the characteristic words. Initially, the word embeddings that represents semantics of the feature word was gained through training in large-scale corpus with the Continous Skip-gram Model. Furthermore, use the Euclidean distance calculation feature word similarity. Additionally, EMD （Earth Mover＇s Distance） was used to calculate the similarity between the short text. Finally, apply the similarity between the short text to Kmeans clustering algorithm implemented in the short text clustering. The evaluation results on three data sets show that the effect of this method is superi- or to traditional clustering algorithms.

作者黄栋徐博许侃林鸿飞杨志豪

机构地区大连理工大学信息检索研究室

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2017年第7期66-72,共7页 Journal of Shandong University(Natural Science)

基金国家自然科学基金资助项目(61572102 61602078 61562080) 国家高技术研究发展计划(863)资助项目(2006AA01Z151) 辽宁省自然科学基金资助项目(201202031 2014020003) 教育部留学回国人员科研启动基金高等学校博士学科点专项科研基金资助课题(20090041110002) 中央高校基本科研业务费专项资金资助

关键词短文本 EMD距离词向量相似度计算聚类 short text earth mover＇s distance word embeddings similarity calculation clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
2李国,张春杰,张志远.一种基于加权LDA模型的文本聚类方法[J].中国民航大学学报,2016,34(2):46-51. 被引量：10
3吴舜尧,邵峰晶,王金龙,孙仁诚,王营.融合语义资源和关键词的文本聚类[J].计算机工程,2014,40(4):223-227. 被引量：7
4夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8
5陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：40
6王少鹏,彭岩,王洁.基于LDA的文本聚类在网络舆情分析中的应用研究[J].山东大学学报（理学版）,2014,49(9):129-134. 被引量：29

二级参考文献89

1梁书杰.对网络语言规范的探讨[J].高教论坛,2005(6):191-193. 被引量：10
2李艳,韩金龙.IRC——聊天室非语言交际研究[J].外语电化教学,2003(6):7-11. 被引量：9
3王登文,吴晓云.英汉网络语言语用探析[J].文教资料,2006(27):177-178. 被引量：1
4王鸿雁.汉语网络语言变体探析[J].社科纵横,2005,20(2):156-158. 被引量：5
5刘绍鹏,侯澍旻.一种基于分割的聚类算法用于振动信号解调(英文)[J].新型工业化,2013,2(10):8-15. 被引量：6
6胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：18
7臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
8颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
9李梅.谈网络语言的语词类型、特点及规范[J].中华女子学院山东分院学报,2004(3):48-50. 被引量：17
10张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16

共引文献104

1张全,袁毅.基于汉语字义基元化的新词处理分析[J].微计算机应用,2010,31(3):63-66.
2张瑛,张娅婷.动态文本会话抽取技术研究[J].电视技术,2011,35(11):84-87.
3黄九鸣,吴泉源,刘春阳,张旭,贾焰,周斌.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747. 被引量：19
4陶永才,何宗真,石磊,卫琳,曹仰杰.基于加权动态兴趣度的微博个性化推荐[J].计算机应用,2014,34(12):3491-3496. 被引量：12
5刘彤,杨冠灿,蒋继娅,郭鲁钢.基于多重关系的专利网络演化特征与动态分析——以锂离子电池领域为例[J].情报学报,2014,33(12):1288-1301. 被引量：8
6刘彤,侯元元,吴晨生.多重关系专利网络分析方法在产业技术路线图的应用[J].情报杂志,2015,34(3):65-70. 被引量：8
7王琼.一种改进的k-means文本聚类优化方法[J].计算机与现代化,2015(3):48-51.
8石博,何楚,卓桐,徐新.慕课教学中基于局部社区发现的主题交互模型[J].计算机应用研究,2015,32(6):1724-1727. 被引量：8
9颜义人.基于特征加权与特征选择的数据挖掘算法研究[J].电子技术与软件工程,2015(15):211-211.
10马慧芳,姚伟,贾美惠子,崔彤.融合用户兴趣模型与会话抽取的微博推荐方法[J].计算机应用研究,2015,32(9):2724-2728. 被引量：2

同被引文献83

1李蕾蕾.城市旅游形象设计探讨[J].旅游学刊,1998,13(1):46-48. 被引量：187
2薛玉梅.旅游形象感知模式的心理机制及相关营销策略[J].贵州社会科学,2005(2):27-28. 被引量：27
3谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
4初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
5崔彩霞.停用词的选取对文本分类效果的影响研究[J].太原师范学院学报（自然科学版）,2008,7(4):91-93. 被引量：7
6施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
7于娟,党延忠.结合词性分析与串频统计的词语提取方法[J].系统工程理论与实践,2010,30(1):105-111. 被引量：19
8粟路军,黄福才.旅游者形象感知影响因素及其对忠诚影响[J].商业经济与管理,2010(6):80-88. 被引量：18
9孔胜,王宇.基于句子相似度的文本主题句提取算法研究[J].情报学报,2011,30(6):605-609. 被引量：12
10刘勘,周丽红,陈譞.基于关键词的科技文献聚类研究[J].图书情报工作,2012,56(4):6-11. 被引量：18

引证文献11

1牛亚男.具有词判别力学习能力的短文本聚类概率模型研究[J].计算机应用研究,2018,35(12):3569-3574. 被引量：3
2王杰,李旭健.改进的TFIDF标签提取算法[J].软件工程,2018,21(2):4-6. 被引量：4
3杨波,杨文忠,殷亚博,何雪琴,袁婷婷,刘泽洋.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计,2019,40(10):2985-2990. 被引量：14
4赵晓平,黄祖源,黄世锋,王永和.一种结合TF-IDF方法和词向量的短文本聚类算法[J].电子设计工程,2020,28(21):5-9. 被引量：12
5何隽飞,赵慧,何学明.基于改进TF-IDF可疑人员文本表示方法[J].计算机工程与设计,2021,42(2):396-401. 被引量：4
6钮焱,李星,李军,刘宇强,Jepkemei Judith.基于DTW和改进匈牙利算法的句子语义相似度研究[J].计算机与数字工程,2021,49(2):242-247. 被引量：1
7汪静,徐昶,王莹莹.基于主题-词向量的多粒度特征协同表达多义词研究[J].现代计算机,2021,27(19):19-24.
8张华,魏阙,董超,叶伟阳,冯晓一.数字文旅体验产品开发研究——以长白山为例[J].长春工程学院学报（社会科学版）,2021,22(2):61-69. 被引量：1
9崔洁.基于加权word2vec算法的文本相似度研究[J].电子测试,2021,32(21):53-55. 被引量：9
10简梓炜,于娟.基于特征词配对的德语文本聚类方法研究[J].情报探索,2022(9):86-93. 被引量：1

二级引证文献49

1彭佳丽,闫凯丽,宗思雨,谢俐萨.数据驱动下面向产品设计的需求识别研究[J].科技经济导刊,2019(35):3-4. 被引量：1
2闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：3
3张丐卓.文本挖掘及其在信息内容安全中的应用[J].华北科技学院学报,2018,15(2):115-121. 被引量：2
4韩肖赟,侯再恩,孙绵.基于主题模型及其扩展的短文本算法评述[J].计算机应用与软件,2020,37(1):1-7. 被引量：3
5韩肖赟,侯再恩,孙绵.主题模型在短文本上的应用研究[J].计算机工程与科学,2020,42(1):144-152. 被引量：1
6李凡,白尚旺,党伟超,潘理虎.基于Do-Bi-LSTM模型的电子政务文本相似度评估模型[J].计算机与现代化,2020,0(7):71-75. 被引量：1
7许彩滇,刘晓丽.基于改进K-means算法的网络入侵行为取证研究[J].中国人民公安大学学报（自然科学版）,2020,26(2):68-74.
8赵晓平,黄祖源,黄世锋,王永和.一种结合TF-IDF方法和词向量的短文本聚类算法[J].电子设计工程,2020,28(21):5-9. 被引量：12
9黄敏,闫思贤.基于NewTF-IDF的新闻文本特征提取算法研究[J].湖北民族大学学报（自然科学版）,2021,39(2):187-192. 被引量：6
10王宇.文本挖掘技术在金融机构客户服务中的应用[J].信息与电脑,2021,33(9):175-180.

1殷复莲,潘幸艺,柴剑平.基于词向量的电影评论情感分析方法[J].现代电影技术,2017(8):4-9. 被引量：3
2陶宏曜,梁栋屹.基于卷积神经网络的职位描述文本分类方法[J].软件,2017,38(6):30-34. 被引量：4
3高强,李啸,胡勇,吴少华.基于社工信息的口令生成与安全性分析[J].通信技术,2017,50(7):1511-1516. 被引量：2
4闫小强,卢耀恩,娄铮铮,叶阳东.基于并行信息瓶颈的多语种文本聚类算法[J].模式识别与人工智能,2017,30(6):559-568. 被引量：2
5周博文,张森林,樊臻.基于WebGL的织物模拟展示系统开发[J].轻工机械,2017,35(3):5-8.
6郝志峰,谢峰,蔡瑞初,陈薇.一种利用负熵局部选择外生变量的DirectLingam算法[J].小型微型计算机系统,2017,38(8):1834-1839.
7Zhuo-Ran Liu,Yang Liu.Exploiting Unlabeled Data for Neural Grammatical Error Detection[J].Journal of Computer Science & Technology,2017,32(4):758-767. 被引量：3

山东大学学报（理学版）

2017年第7期

浏览历史

内容加载中请稍等...

基于词向量和EMD距离的短文本聚类被引量：11

参考文献6

二级参考文献89

共引文献104

同被引文献83

引证文献11

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于词向量和EMD距离的短文本聚类 被引量：11

参考文献6

二级参考文献89

共引文献104

同被引文献83

引证文献11

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于词向量和EMD距离的短文本聚类被引量：11