基于频繁模式的长尾文本聚类算法被引量：1

Long Tail Text Clustering Algorithm Based on Frequent Patterns

下载PDF

导出

摘要短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在"长尾现象",传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collaborative Pruning iteration Clustering framework, FIPC).该算法将迭代聚类框架与K中心点算法相结合,运用协同剪枝策略,实现对小类别文本聚类,实验结果证明该聚类算法能够有效的提高小类别短文本信息聚类的精确度,并能避免聚类中类簇重叠的问题. Short texts clustering is a popular topic in the field of information extraction.There is a'long tail phenomenon'when the scale of data is large,which causes high dimensions of features and information loss of small class.To solve these problems,this study proposes a Frequent Itemsets collaborative Pruning iteration Clustering framework(FIPC).This framework combines the iterative clustering framework with the K-mediods algorithm,using the collaborative pruning strategy to cluster text of small class.The result of experiments shows that the FIPC framework can achieve text clustering of small class with high accuracy,and avoid the problem of overlapping clusters.

作者宋中山张广凯尹帆帖军 SONG Zhong-Shan;ZHANG Guang-Kai;YIN Fan;TIE Jun(School of Computer Science,South-Central University for Nationalities,Wuhan 430074,China)

机构地区中南民族大学计算机科学学院

出处《计算机系统应用》 2019年第4期139-144,共6页 Computer Systems & Applications

基金国家科技支撑计划项目子课题(2015BAD29B01) 农业部软科学研究课题(D201721) 中央高校基本科研业务费专项资金(CZY18016)~~

关键词文本聚类长尾现象频繁模式 K中心点算法 text clustering long tail phenomenon frequent mode K-mediods algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：121
2栗伟,许洪涛,赵大哲,刘积仁.一种面向医学短文本的自适应聚类方法[J].东北大学学报（自然科学版）,2015,36(1):19-23. 被引量：3
3彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
4张佩云,陈传明,黄波.基于子树匹配的文本相似度算法[J].模式识别与人工智能,2014,27(3):226-234. 被引量：13
5张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112. 被引量：14
6彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量：35
7张群,王红军,王伦文.一种结合上下文语义的短文本聚类算法[J].计算机科学,2016,43(S2):443-446. 被引量：11
8邢光林,胡一然,孙翀,帖军.改进的k中心点算法在茶叶拼配中的应用[J].中南民族大学学报（自然科学版）,2017,36(4):126-130. 被引量：7

二级参考文献199

1彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
2童华荣,龚正礼.茶叶拼配的混料设计研究[J].茶叶科学,2004,24(3):207-211. 被引量：20
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
5肖宏儒,朱志祥.茶叶机械化加工装备技术发展趋势[J].农业装备技术,2005,31(6):7-10. 被引量：16
6黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
7彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
8A.K. JAIN, M.N. MURTY, P.J. FLYNN. Data Clustering: A Review[J]. ACM Computing Surveys, September 1999, 31(3).
9Wang L, Jia Y, Han W H. Instance message clustering based on extended vector space model[EB/OL]. Proceedings of 2^nd Iternational Symposium on Intelligence Computation and Applications. Wuhan, China: Springer, 2007: 435-443.
10He H, Chen B, Xu W R, Guo J. Short text feature extraction and clustering for web topic mining [EB/ OL]. Proceeding of the 3^rd International Conference on Semantics, Knowledge and Grid. Washington D. C. , USA: IEEE, 2007: 382-385.

共引文献219

1张辉,何庆勇,惠小珊,但文超,孟培培.蒲辅周先生治疗湿证用药规律的数据挖掘研究[J].世界科学技术-中医药现代化,2021,23(9):3195-3201. 被引量：1
2李云龙,余正涛,高盛祥,郭军军,彭仁杰.基于案件要素指导及深度聚类的新闻与案件相关性分析[J].中文信息学报,2021,35(11):60-69. 被引量：1
3丁荩,涂浩.微博感知突发重大新闻事件的研究与分析[J].广西大学学报（自然科学版）,2011,36(A01):335-338. 被引量：6
4曾诗奇,刘欣宇,宋玉龙,孙蕾,雷祎舲.浅析微博系统的研究进展[J].中国电子商务,2012(4):8-8.
5孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：12
6张剑峰,夏云庆,姚建民.微博文本处理研究综述[J].中文信息学报,2012,26(4):21-27. 被引量：55
7蒋盛益,麦智凯,庞观松,吴美玲,王连喜.微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142. 被引量：28
8刘金岭,王新功,周泓.基于手机短信信息流的热点事件识别[J].计算机应用与软件,2012,29(10):200-204. 被引量：3
9赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：31
10刘金岭,倪晓红,王新功.手机短信文本信息流的自动文摘生成[J].现代图书情报技术,2013(2):43-49. 被引量：4

同被引文献6

1施志华.提升规章制度执行力的思考[J].商场现代化,2010(11):39-39. 被引量：5
2王艳玲.论企业规章制度的有效执行[J].决策探索,2010(10):62-62. 被引量：4
3尹蓉.现代企业规章制度体系建设模式研究[J].中国电力教育（中）,2013(1):215-216. 被引量：6
4聂锐利.企业规章制度体系建设的探索与实践[J].人才资源开发,2018(6):71-72. 被引量：6
5董默.规章制度一体化与结构化建设问题探讨[J].企业改革与管理,2018(10):38-39. 被引量：1
6王玉强.关于加强企业规章制度建设的思考[J].中国石油石化,2016(S2). 被引量：1

引证文献1

1陶婧,陈文,吕云波,刘青欢.促进规章制度管理信息化对策分析[J].秘书之友,2019,0(11):15-16.

1文武,李培强.基于K中心点和粗糙集的KNN分类算法[J].计算机工程与设计,2018,39(11):3389-3394. 被引量：8
2杨帆,罗彬.众筹新闻中的“长尾现象”研究[J].采写编,2019,0(1):23-25. 被引量：1
3李新运,王嘉梅,张晨阳,王儒.融合K-means和CFSFDP的聚类算法[J].福建电脑,2019,35(3):1-5.
4段桂芹,邹臣嵩,刘锋.基于优化初始聚类中心的K中心点算法[J].计算机与现代化,2019(4):1-5. 被引量：5
5孟瑞芳.长尾理论在档案信息服务中的指导意义[J].兰台世界,2019,0(5):42-44. 被引量：1
6张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112. 被引量：14
7刘明峰,侯路,郭顺森,韩然.基于改进Apriori的WiFi入侵检测模型研究[J].沈阳航空航天大学学报,2019,36(2):82-88.
8Hong Wei BI,Hui HE.A Tree-valued Markov Process Associated with an Admissible Family of Branching Mechanisms[J].Acta Mathematica Sinica,English Series,2019,35(1):135-160.
9谭敏,张宏源,张海超.基于弱监督深度学习的文本聚类算法及应用[J].计算机应用与软件,2019,36(4):171-177. 被引量：2
10王建.医院信息系统中的机房管理策略探析[J].临床医药文献电子杂志,2019,6(27):187-187.

计算机系统应用

2019年第4期

浏览历史

内容加载中请稍等...

基于频繁模式的长尾文本聚类算法被引量：1

参考文献8

二级参考文献199

共引文献219

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于频繁模式的长尾文本聚类算法 被引量：1

参考文献8

二级参考文献199

共引文献219

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于频繁模式的长尾文本聚类算法被引量：1