动态向量的中文短文本聚类被引量：10

Chinese short text clustering based on dynamic vector

下载PDF

导出

摘要因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。 Since Chinese short text is short of keywords and full of anomalous words,it brings about short text similarity drift and the traditional text clustering method is not directly suitable for short text clustering.To solve the problem of sparse key-words and similarity drift in short text segments,this paper proposes a new method to build dynamic text vector by text similarity based on HowNet.This method can measure the similarity between short text segments by dynamic text vector,then find short text relationship,so as to relieve these two characteristics＇bad influence on the clustering performance and therefore to gain a better clustering result.Experiments show the method can get better performance in Chinese short text clustering,compared with traditional method.

作者金春霞周海岩

机构地区淮阴工学院计算机工程学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第33期156-158,共3页 Computer Engineering and Applications

基金江苏省科技攻关项目(No.BE2006357)

关键词短文本文本相似度动态表示向量文本聚类 K-MEANS算法 short text similarity between short text segments dynamic vector text clustering algorithm K-means algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
2Wan Xiaojun.A novel document similarity measure based on earth mover' s distance[J].Information Science, 2007,177: 3718-3730.
3Liu Qun, Li Sujian.Word similarity computing based on HowNet[J]. Computational Linguistics and Chinese Language Processing, 2002,7(2) :59-76.
4Han J W, Kamber M.Data mining concepts and techniques[M]. Beijing, China: Machine Press, 2001 : 223-259.
5Pinto D, Bened J M, Rosso EClustering narrow-domain short texts by using the Kullback-Leibler distance[C]//Gelbukh A.LNCS 4394: CICLing, 2007 : 611-622.
6Cagnina L, Errecalde M, Ingaramo D, et al.A discrete particle swarm optimizer for clustering short-text corpora[C]//BIOMA, 2008 : 93-103.
7Ingaramo D, Etrecalde M, Czgnin~ L, et al.Parlicle swarm oplimization for clustering short-text corpora[C]//Proceedings of the 2009 Con- ference on Computational Intelligence and Bioengineering,2009: 3-19.

二级参考文献14

1赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
2董振东董强.[EB/OL].知网.http://www.keenage.com,.
3Pelleg D,Moore A.X-means:Extending K-means with efficient estimation of the number of clusters//Proceedings of the 17th International Conference on Machine Learning (ICML).Palo Alto,2000:727-734
4Hamerly G,Elkan C.Learning the k in k-means//Proceedings of the 17th Annual Conference on Neural Information Processing Systems (NIPS).2003:281-289
5Han Jia-Wei,Kamber M.Data Mining:Concepts and Techniques (2nd Edition).San Francisco:Morgan Kaufmann Publishers,2006
6Corley C,Mihalcea R.Measuring the semantic similarity of texts//Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment.Ann Arbor,2005:13-18
7Possas B,Ziviani N,Meira W,Ribeiro-Neto B.Set-based vector model:An efficient approach for correlation-based ranking.ACM Transactions on Information Systems,2005,23(4):397-429
8Zhang Z,Otterbacher J,Radev D.Learning cross-document structural relationships using boosting//Proceedings of the 12th International Conference on Information and Knowledge Management.New Orleans,2003:124-130
9Hammouda K M,Kamel M S.Efficient phrase-based document indexing for Web document clustering.IEEE Transactions on Knowledge and Data Engineering,2004,16 (10):1279-1296
10Dolan W B,Quirk C,Brockett C.Unsupervised construction of large paraphrase corpora:Exploiting massively parallel news sources//Proceedings of the 20th International Conference on Computational Linguistics.Geneva,Switzerland,2004:350-356

共引文献43

1高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
2胡金柱,俞小娟,李琼,周毕吉.基于规则库和聚类分析的复句短语字段的自动识别研究[J].华中师范大学学报（自然科学版）,2008,42(2):190-194. 被引量：9
3康健辉,吴渝,郑继明.基于向量空间模型的改进音频分类算法[J].河南师范大学学报（自然科学版）,2008,36(6):30-33.
4王伟.文本自动聚类技术研究[J].情报杂志,2009,28(2):94-97. 被引量：6
5李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009,30(8):1966-1968. 被引量：9
6唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010,36(7):79-81. 被引量：14
7郭景峰,马鑫,代军丽.基于文本—链接模型和近邻传播算法的网页聚类[J].计算机应用研究,2010,27(4):1255-1258. 被引量：3
8马素琴,施化吉,李星毅.基于语义列表的中文文本聚类算法[J].计算机应用研究,2010,27(5):1697-1699. 被引量：1
9艾伟,孙四明,张峰.基于本体的Web文本挖掘与信息检索[J].计算机工程,2010,36(22):75-77. 被引量：8
10冯燕,王洪元,程起才,刘爱萍.基于LLE-k均值方法的中文文本聚类[J].计算机与数字工程,2010,38(11):10-12.

同被引文献177

1沈振萍,谢阳群.基于微博客的竞争情报搜集研究:以新浪微博为例[J].情报杂志,2012,31(5):29-35. 被引量：16
2张海涛,靖继鹏.根据用户的浏览行为确定网页页面等级的方法[J].情报学报,2004,23(3):303-306. 被引量：5
3贺德方.知识链接发展的历史、未来和行动[J].现代图书情报技术,2005(3):11-15. 被引量：30
4赵银春,付关友,朱征宇.基于Web浏览内容和行为相结合的用户兴趣挖掘[J].计算机工程,2005,31(12):93-94. 被引量：36
5李纲,程明结,寇广增.基于情感倾向识别的汽车评论挖掘系统构建[J].情报学报,2011,30(2):204-211. 被引量：14
6郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
7王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
8阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量：28
9耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
10付关友,朱征宇.个性化服务中基于行为分析的用户兴趣建模[J].计算机工程与科学,2005,27(12):76-78. 被引量：27

引证文献10

1赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：30
2蒋盛益,陈东沂,庞观松,吴美玲,王连喜.微博信息可信度分析研究综述[J].图书情报工作,2013,57(12):136-142. 被引量：42
3唐晓波,肖璐.基于单句粒度的微博主题挖掘研究[J].情报学报,2014,33(6):623-632. 被引量：7
4肖璐,陈果.企业竞争情报中微博分析技术研究:基于需求驱动视角[J].情报理论与实践,2015,38(2):116-120. 被引量：3
5杨威,朱福喜.基于聚类融合的标题文本聚类方法[J].计算机工程与应用,2015,51(15):129-133. 被引量：2
6黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7
7兰天,郭躬德.基于词共现关系和粗糙集的微博话题检测方法[J].计算机系统应用,2016,25(6):17-24. 被引量：1
8张婷婷,王伟军,黄英辉,刘凯,胡祥恩.基于屏幕视觉热区的中文短文本关键词实时提取方法[J].情报学报,2016,35(12):1313-1322. 被引量：2
9陈果,肖璐.网络社区中的知识元链接体系构建研究[J].数据分析与知识发现,2017,1(11):75-83. 被引量：9
10常雨骁,庞琳,贾岩涛,林海伦,王元卓,刘悦,刘春阳.融合马尔可夫聚类的实体间关系消解方法[J].计算机科学与探索,2017,11(4):511-519.

二级引证文献102

1梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：12
2王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
3宋岩,李帅,张鲁光.企业社会责任信息质量与业绩操纵——基于沪深A股上市公司年报的文本分析[J].产业经济评论（山东）,2020(2):124-141. 被引量：2
4庄婷婷,王平,程齐凯.一种时间情境依赖的微博话题抽取方法[J].信息资源管理学报,2013,3(3):40-46. 被引量：5
5贺刚,吕学强,李卓,徐丽萍.微博谣言识别研究[J].图书情报工作,2013,57(23):114-120. 被引量：35
6史剑虹,陈兴蜀,王文贤.基于隐主题分析的中文微博话题发现[J].计算机应用研究,2014,31(3):700-704. 被引量：19
7李光敏,张行文,张磊,杨朋英.面向网络舆情的评论文本情感分析研究[J].情报杂志,2014,33(5):157-160. 被引量：22
8倪叶舟,张鹏,扈翔,屈健,李昊青.大数据背景下涉恐信息挖掘方法综述[J].中国公共安全（学术版）,2018(4):91-95. 被引量：5
9陈国兰,孙国梓.微博平台监测网络突发事件的关键问题研究[J].情报探索,2014(8):39-42. 被引量：2
10张远鹏,董建成,钱旦敏,蒋葵,陈亚兰,王理.中文电子病历中否定术语检出方法研究[J].生物医学工程学杂志,2015,32(1):82-85.

1王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
2范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
3胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：37
4刘泽文,丁冬,李春文.基于条件随机场的中文短文本分词方法[J].清华大学学报（自然科学版）,2015,55(8):906-910. 被引量：17
5廖志芳,周国恩,李俊锋,刘飞,蔡飞.中文短文本语法语义相似度算法[J].湖南大学学报（自然科学版）,2016,43(2):135-140. 被引量：13
6高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
7樊兴华,王鹏.基于两步策略的中文短文本分类研究[J].大连海事大学学报,2008,34(3):121-124. 被引量：7
8张婷婷,王伟军,黄英辉,刘凯,胡祥恩.基于屏幕视觉热区的中文短文本关键词实时提取方法[J].情报学报,2016,35(12):1313-1322. 被引量：2
9郑诚,熊大康,刘倩倩.基于卡方特征选择和LDA主题模型的中文短文本分类[J].电脑知识与技术,2014(5):3182-3185. 被引量：3
10王昊,邓三鸿,苏新宁.中文短文本自动分类中的汉字特征优化研究[J].情报理论与实践,2015,38(6):121-127. 被引量：4

计算机工程与应用

2011年第33期

浏览历史

内容加载中请稍等...

动态向量的中文短文本聚类被引量：10

参考文献7

二级参考文献14

共引文献43

同被引文献177

引证文献10

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

动态向量的中文短文本聚类 被引量：10

参考文献7

二级参考文献14

共引文献43

同被引文献177

引证文献10

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

动态向量的中文短文本聚类被引量：10