面向变异短文本的快速聚类算法被引量：17

A Fast Clustering Algorithm for Abnormal and Short Texts

下载PDF

导出

摘要本文主要针对近些年来大量出现在聊天语言中和手机短信中的短文本，提出了一种快速有效的聚类算法。这些短文本由于具有不规范性和大量相似性等特点，我们称其为变异短文本。本文在原有的网页去重算法的基础上，根据变异短文本的特点，采取了特定的特征串抽取方法，并融合了压缩编码的思想，从而加快了处理速度。实验表明，基于该算法的聚类系统对于大量的变异短文本处理速度可以达到每小时百万级以上，并且有比较高的准确率。 This paper discusses mainly about the short texts, which occurs on mobile short messages and chat rooms. Because of their irregular style and similarity, we call them abnormal texts. We propose an efficient clustering algorithm based on the duplication information deletion algorithm. It concerns about the features of the abnormal short texts and takes some special methods such as extracting feature code and compressing code to solve this problem. Experiments show that the clustering system based on this algorithm can depose millions of abnormal short texts per hour with high accuracy.

作者黄永光刘挺车万翔胡晓光

机构地区哈尔滨工业大学信息检索实验室

出处《中文信息学报》 CSCD 北大核心 2007年第2期63-68,共6页 Journal of Chinese Information Processing

关键词人工智能模式识别检索特征串聚类 artificial intelligence pattern recognition retrieve feature string clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41
2张刚，刘挺，郑实福，车万祥，李生．大规模网页快速去重算法[A]．中国中文信息学学会二十周年学术会论文集(续集)[C]．2001．18—25．
3J. W. Kirriemuir & P. Willett, Identification of duplicate and near-duplicate full-text records in database search outputs using hierarchic cluster analysis[J]. In:Program-automated library and information, ( 1995 ) 29(3):241-256.
4孙学刚,陈群秀,马亮.基于主题的Web文档聚类研究[J].中文信息学报,2003,17(3):21-26. 被引量：31
5G. Karypis, E.H. Han, and V. Kumar. Chameleon:A hierarchical clustering algorithm using dynamic modeling[J]. IEEE Computer, 1999,32(8) :68-75.
6Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval[M]. Addison Wesley, 2004.
7陈儒,张宇,刘挺.面向中文特定信息变异的过滤技术研究[J].高技术通讯,2005,15(9):7-12. 被引量：7
8王滨华,石志刚.基于散列关键词的大规模网页去重算法[J].高性能计算技术,2004,0(5):35-38. 被引量：1
9Thomas H. Cormen, Charles E. Leiserson. Introduction to Algorithms[M]. Second Edition. The MIT Press, 2002.
10Larsen, Bjorner, Aone, Chinatsu.: Fast and Effective Text Mining Using Linear-time Document Clustering[J]. In: KDD'99, San Diego, California: 16-22.

二级参考文献18

1[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
2[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
3[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
4[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
5[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
6M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases. In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96),1996.
7M. Ankerst, M. Breunig, H. -P. Kriegel, and J. Sander. OPTICS: Ordering points to identify the clustering structure. In Proc. 1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD' 99),1999.
8Yang, Y., Pedersen, J.O. A Comparative Study on Feature Selection in Text Categorization. Proc. of the 14th International Conference on Machine Learning ICML97.
9Eui-Hong Han, George Karypis and Vipin Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification. Pacific-Asia Conference on Knowledge Diseovery and Data Minings, 2001.
10Knuth D E, J. H. Morris Jr and V. R. Pratt. Fast Pattern Matching in Strings. SIAM J Comput, 1977, 6( 1 ) : 323.

共引文献75

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
5李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
6谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
7王楠.基于聚类的全文检索系统后处理[J].情报杂志,2005,24(1):112-114. 被引量：4
8陈磊,王云华,陈世鸿.基于概念的教育资源元素材聚类方法研究[J].武汉大学学报（理学版）,2005,51(3):347-350. 被引量：7
9魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
10刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65

同被引文献212

1张海涛,靖继鹏.根据用户的浏览行为确定网页页面等级的方法[J].情报学报,2004,23(3):303-306. 被引量：5
2钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：24
3邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：146
4马静.语言学视野中的网络语言[J].西北工业大学学报（社会科学版）,2002,22(1):52-56. 被引量：22
5赵银春,付关友,朱征宇.基于Web浏览内容和行为相结合的用户兴趣挖掘[J].计算机工程,2005,31(12):93-94. 被引量：36
6郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
7王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
8付关友,朱征宇.个性化服务中基于行为分析的用户兴趣建模[J].计算机工程与科学,2005,27(12):76-78. 被引量：27
9庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
10张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：19

引证文献17

1吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
2王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145. 被引量：17
3吴铁洲,孙杨,夏防震.有标记的文本聚类方法研究[J].舰船电子工程,2009,29(4):104-106. 被引量：1
4贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量：18
5彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量：35
6娄建玮.高职院校学生网络舆情分析系统的研究[J].潍坊学院学报,2011,11(2):40-45. 被引量：2
7时睿,封化民.一种基于名词的微博语义计算方法[J].北京电子科技学院学报,2011,19(4):16-22. 被引量：4
8张剑峰,夏云庆,姚建民.微博文本处理研究综述[J].中文信息学报,2012,26(4):21-27. 被引量：53
9王才伟,王锁花.网络文本挖掘相关技术的发展现状和问题[J].江苏教育学院学报（自然科学版）,2013,29(3):29-33. 被引量：1
10郑诚,李鸿.基于主题模型的K-均值文本聚类[J].计算机与现代化,2013(8):78-80. 被引量：4

二级引证文献180

1杨一璞,朱永华,高海燕,高文靖.一种结合文章信息的新闻评论情感分析方法[J].上海大学学报（自然科学版）,2022,28(1):170-178.
2李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
3高倩,戴月明.用于文本聚类的模糊谱聚类算法[J].计算机工程与应用,2010,46(13):142-144. 被引量：2
4孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：94
5张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
6杜俊卫,李爱军.一种基于聚类的文本迁移学习算法[J].计算机系统应用,2010,19(12):238-241. 被引量：1
7彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量：35
8刘喜梅,雷达.一种改进的模糊C均值聚类算法[J].青岛科技大学学报（自然科学版）,2011,32(2):194-198. 被引量：1
9潘章明.基于亲和度累积的人工免疫网络聚类[J].计算机应用,2011,31(6):1660-1663. 被引量：2
10於建峰,吴正升.文本地名自动识别的空间信息检索研究[J].测绘科学技术学报,2011,28(3):227-230. 被引量：4

1张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
2徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
3周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
4张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
5马辉.网页去重技术问题研究[J].移动信息,2015,0(8):67-67.
6闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
7徐朝辉,赵淑梅,闫付亮,秦杰.一种基于特征向量的改进DSC网页去重算法[J].科学技术与工程,2013,21(8):2250-2253. 被引量：1
8王静,刘观宁,张钰辉.网页去重的改进算法[J].微型机与应用,2011,30(12):16-18.
9夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8
10周杨.基于关键长句及正文长度预分类的网页去重算法研究[J].软件导刊,2012,11(10):48-50. 被引量：2

中文信息学报

2007年第2期

浏览历史

内容加载中请稍等...

面向变异短文本的快速聚类算法被引量：17

参考文献11

二级参考文献18

共引文献75

同被引文献212

引证文献17

二级引证文献180

相关作者

相关机构

相关主题

浏览历史

面向变异短文本的快速聚类算法 被引量：17

参考文献11

二级参考文献18

共引文献75

同被引文献212

引证文献17

二级引证文献180

相关作者

相关机构

相关主题

浏览历史

面向变异短文本的快速聚类算法被引量：17