基于Kolmogorov复杂性的文本聚类算法改进被引量：4

Improved Text Clustering Algorithm Based on Kolmogorov Complexity

下载PDF

导出

摘要基于Kolmogorov复杂性的聚类算法虽然具有普适性、参数无关性的优点,但是应用到文本内容语义信息聚类时往往准确率较低。针对这一问题,提出了一种基于特征扩展的文本聚类改进算法——DEF-KC算法。该算法通过引用百度百科中特定词条的信息,对预处理过的文本中的关键词进行特征扩展,从而提高特征词的主题贡献度,增强文本的结构辨识度,并通过选取特定压缩算法近似计算Kolmogorov复杂性得到文本相似度,最后使用谱聚类算法进行聚类。实验结果表明,与传统的基于Kolmogorov复杂性的文本聚类算法相比,使用该算法时聚类准确率和召回率均得到了较大提升。 Clustering algorithm based on Kolmogorov complexity has the advantages of generality,parameter independence,but always shows low accuracy when applied to the text semantic information clustering.In order to solve this problem,this paper proposed a text clustering algorithm based on feature extension-DEF-KC.For improving keyword＇s theme contribution,DEF-KC applies feature extension to the keyword in the pretreated text by referencing information of specific entry in a baidu encyclopedia,and calculates the text similarity by approximate Kolmogorov complexity of the text.Finally it clusters text using spectral clustering algorithm.The experimental results show that the proposed algorithm has much better accuracy and recall rate compared to the traditional text clustering algorithm based on Kolmogorov complexity.

作者王有华陈笑蓉

机构地区贵州大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2016年第5期243-246,共4页 Computer Science

基金国家自然科学基金(61363028)资助

关键词 Kolmogorov复杂性文本聚类特征扩展谱聚类 Kolmogorov complexity Text clustering Feature extension Spectral clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1明均仁.基于本体图的文本聚类模型研究[J].情报科学,2013,31(2):29-33. 被引量：6
2Nikvand N,Wang Z.Generic image similarity based on Kolmo-gorov complexity[C]∥2010 17th IEEE International Conference on Image Processing(ICIP).IEEE,2010:309-312.
3Zhang L,Zhuang Y,Yuan Z.A program plagiarism detection mo-del based on information distance and clustering[C]∥The 2007 International Conference on Intelligent Pervasive Computing,2007(IPC).IEEE,2007:431-436.
4Ukil A.Application of Kolmogorov complexity in anomaly de-tection[C]∥2010 16th Asia-Pacific Conference on Communications(APCC).IEEE,2010:141-146.
5Belabbes S,Richard G.On Using SVM and Kolmogorov Complexity for Spam Filtering[C]∥FLAIRS Conference.2008:130-135.
6Geweniger T,Schleif F M,Hasenfuss A,et al.Comparison of cluster algorithms for the analysis of text data using kolmogorov complexity[M]∥Advances in Neuro-Information Processing.Springer Berlin Heidelberg,2009:61-69.
7Vita,nyi,Paul M B.Information Distance in Multiples[J].IEEE Transactions on Information Theory ,2011,57(4):2451-2456.
8Vitanyi P M B,Balbach F J,Cilibrasi R L,et al.Normalized information distance[M]∥Information Theory and Statistical Learning.Springer US,2009:45-82.
9Tao Xiao-lei.Study of Kolmogorov Complexity Based Clustering Algorithms[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2013(in Chinese).
10王会青,陈俊杰.基于图划分的谱聚类方法的研究[J].计算机工程与设计,2011,32(1):289-292. 被引量：16

二级参考文献55

1樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
2张华平.计算所汉语词法分析系统ICTCLAS[EB/OL].[2002-08-16].http://www.nip.org.cn/project/project.php?pwj_id=6.
3Meila M,Shi J.A random walks view of spectral segmentation [C]. 8th International Workshop on Artificial Intelligence and Statistics,2001.
4Brand M,Kun H A.Unifying theorem for spectral embedding and clustering[C].Key West,Florida: Proceeding of the 9th International Conference on Artificial Intelligence and Statistics,2003.
5Dhillon I, Guan Y, Kulis B. A unified view of kernel k-means, spectral clustering and graph cuts[R]. Technical report, UTCS, 2004.
6Xing E P, Jordan M I.On semidefine relaxation for normalized k- cut and connections to spectral clustering[R].Technical Report, UCB/CSD-03-1265, EECS Department, University of California, Berkeley, 2003.
7Meila M, Xu L. Multiway cuts and spectral clustering [R]. U. Washington Tech Report.2003.
8NG A Y, JORDAN M I,WEISS Y.On spectral clustering: Analysis and an algorithm [C]. Proceedings of the 14th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press,2002:849-856.
9HAN Jiawei,KAMBER M.Data mining: concept and techniques [M].America:Morgan Kaufmann Publishers,2001:223-260.
10Zhang B,Hsu M,Dayal U.K-harmonic means - a data clustering algorithm[R].HP Technical Report, 1999.

共引文献69

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
3姜大庆,夏士雄,周勇.基于半监督自动谱聚类算法的网络故障检测[J].计算机工程与应用,2012,48(30):89-94. 被引量：6
4尚伟.基于认知心理视角的古文字信息处理研究[J].情报科学,2013,31(7):135-139. 被引量：2
5于永玲,李向,宗思生,施进发.考虑空间格局的谱聚类算法及其应用[J].河南科技大学学报（自然科学版）,2013,34(5):101-104. 被引量：1
6丛勤.谱聚类算法中的奇异解问题[J].自动化与信息工程,2013,34(2):6-9.
7洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
8冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
9张吉文,陈笑蓉.基于谱聚类的词和文档的联合聚类[J].贵州大学学报（自然科学版）,2014,31(5):53-57.
10邢洁清.谱聚类及其在文本分析中的应用研究进展[J].安徽电子信息职业技术学院学报,2015,14(4):15-18.

同被引文献34

1张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
2李卓,刘斌,刘铁男.支持向量机在油田产量预测中的应用[J].大庆石油学院学报,2005,29(5):96-97. 被引量：14
3孙双,贺樑,杨静,顾君忠.An improved algorithm for weighting keywords in web documents[J].Journal of Shanghai University(English Edition),2008,12(3):235-239. 被引量：1
4许相莉,张利彪,刘向东,于哲舟,周春光.基于粒子群的图像检索相关反馈算法[J].电子学报,2010,38(8):1935-1940. 被引量：33
5雷军程,黄同成,柳小文.一种基于权重的文本特征选择方法[J].计算机科学,2012,39(7):250-252. 被引量：8
6杨惠荣,尹宝才,付鹏斌,曲亮.基于Google距离的语义Web服务发现[J].北京工业大学学报,2012,38(11):1670-1675. 被引量：3
7徐涛,于洪志,加羊吉.基于改进卡方统计量的藏文文本表示方法[J].计算机工程,2014,40(6):185-189. 被引量：4
8裴炳南,保铮.对偶线性规划神经网络及算法步长的选取[J].电子学报,2002,30(1):110-113. 被引量：1
9邓莉琼,郝向宁,夏鸣,李中宁.基于内容检索的图像自动标注方法研究[J].计算机科学,2014,41(B11):119-122. 被引量：2
10张晶,李德玉,王素格,李华.基于稳健模糊粗糙集模型的多标记文本分类[J].计算机科学,2015,42(7):270-275. 被引量：7

引证文献4

1张小川,于旭庭,张宜浩.一种改进的向量空间模型的文本表示算法[J].重庆理工大学学报（自然科学）,2017,31(1):87-92. 被引量：8
2赵小艳,刘宏哲,袁家政,杨少鹏.图像重排序技术的研究进展[J].计算机科学,2018,45(5):15-23. 被引量：1
3陈宇家,王巍,任利剑,王兵,王润萍,杨军,樊嘉伟,朱玉双.基于BP神经网络的低渗透油田开发动态预测[J].测井技术,2024,48(3):317-325.
4徐海蛟,何佳蕾,区德辉,彭世锋.基于语义链接网的图像自动标注[J].人工智能与机器人研究,2019,8(3):158-165.

二级引证文献9

1王红霞,钟爱琳.基于本体的协同过滤信息推送算法研究[J].沈阳理工大学学报,2020,0(1):44-48. 被引量：1
2蓝海英,何昊林,李玉翠,李千颖,李伊苧.基于文本聚类的煤矿安全事故类型分析[J].长江技术经济,2021(S01):199-202. 被引量：1
3耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3
4郑秋梅,孙燕翔,马茂东.基于FCCA的多特征融合的检索方法[J].电子设计工程,2019,27(14):181-184. 被引量：2
5吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学,2019,37(12):47-51. 被引量：8
6吴龙峰,于瓅,王峰.向量空间模型的文本分类研究进展与应用[J].宿州学院学报,2019,34(12):69-72. 被引量：6
7高爽,刘梅,屈加豹,王苏滨,韩鑫勇,康运峰,吕巍,卢力.智能查重方法在建设项目环评文件技术复核中的应用探讨[J].环境影响评价,2021,43(6):28-32. 被引量：6
8张振海,张湘婷.基于关联规则的铁路信号设备故障诊断方法[J].铁道标准设计,2022,66(4):175-181. 被引量：12
9李凯,毛文卉,孙晶晶,刘雅琴,吴驰.基于人工智能技术的内容分类仿真实验平台[J].电子技术与软件工程,2023(6):246-250.

1陶小雷,胡正华.基于Kolmogorov复杂性的对象相似性计算[J].江苏科技信息,2013(5):44-46.
2吴忻生,邓军.末端有未知扰动的分布参数柔性机械臂的鲁棒边界控制[J].控制理论与应用,2011,28(4):511-518. 被引量：18
3汪浩,严伟,黄田和,郭斌,.稳定裕度与网络特征参数无关的AQM算法[J].计算机工程,2010(4):12-16.
4邓蔚,程红蓉,钱伟中,秦志光.基于Kolmogorov复杂性的垃圾图像分类模型[J].计算机应用研究,2011,28(4):1533-1535. 被引量：1
5姜涛,李明,等.Average-Case Analysis of Algorithms UsingKolmogorov Complexity[J].Journal of Computer Science & Technology,2000,15(5):402-408.
6王海峰.基于颜色分布的图像检索技术的算法描述[J].科技传播,2010,2(7):118-118. 被引量：1
7宋小辉,范小红.UG工程绘图系统文件的设置[J].电加工与模具,2006(5):49-51.
8里各.每个男人都想成为黑客[J].科技新时代,2005(7):6-6.
9殷凤霞.社会网络中基于内容语义的新闻推荐方法研究[J].计算机技术与发展,2013,23(10):253-257.
10刘白雁,丁崇生.电液伺服非线性系统模型跟随自适应控制[J].机床与液压,2002,30(5):78-79. 被引量：6

计算机科学

2016年第5期

浏览历史

内容加载中请稍等...

基于Kolmogorov复杂性的文本聚类算法改进被引量：4

参考文献11

二级参考文献55

共引文献69

同被引文献34

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Kolmogorov复杂性的文本聚类算法改进 被引量：4

参考文献11

二级参考文献55

共引文献69

同被引文献34

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Kolmogorov复杂性的文本聚类算法改进被引量：4