基于频繁词集聚类的海量短文分类方法被引量：6

Massive short documents classification method based on frequent term set clustering

下载PDF

导出

摘要信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。 With the rapid development of information technology, huge data is accumulated. A vast amount of such data appears as short documents. It is very useful to classify such short documents to get knowledge automatically form the data. But most of the current classification algorithms can not get acceptable accuracy since key words appear few times in short documents. Some classification algorithms based on semantic information are fnore accurate but they are inefficient to be used to process very large document sets. A novel classification method based on frequent term set clustering is proposed. This method uses frequent term set clustering to compress massive data and uses semantic information to improve accuracy. Experimental study shows that this method is more accurate and efficient than other classification algorithms when classifying massive short documents.

作者王永恒贾焰杨树强

机构地区国防科技大学计算机学院网络研究所

出处《计算机工程与设计》 CSCD 北大核心 2007年第8期1744-1746,1780,共4页 Computer Engineering and Design

基金国家863高技术研究发展计划基金项目(2004AA112020 2003AA115210 2003AA111020)

关键词文本挖掘分类海量短文频繁词集 text mining classification massive short document frequent term set

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1Jiawei Han,Micheline Kamber.Data mining:Concepts and techniques[M].Morgan Kaufmann Publishers,2001.
2Hynek J,Jezek K,Rohlik O.Short document categorizationitemsets method[C].Lyon,France:PKDD 4-th European Conference on Principles and Practice of Knowledge Discovery in Databases,Workshop Machine Learning and Textual Information Access,2000.14-19.
3Cheng Ching Kang,Pan Xiaoshan,Franz J Kurfess.Ontologybased semantic classification of unstructured documents[C].Adaptive Multimedia Retrieval,2003.120-131.
4苏伟峰,李绍滋,李堂秋.一个基于概念的中文文本分类模型[J].计算机工程与应用,2002,38(6):193-195. 被引量：17
5De Luca E W,Nürnberger A.Ontology-based semantic online classification of documents:Supporting users in searching the web[C].Aachen:Proc of the European Symposium on Intelligent Technologies (EUNITE 2004),2004.
6Wu S H,Tsai T H,Hsu W L.Text categorization using automatically acquired domain ontology[C].Sapporo,Japan:Proceedings of IRAL2003 Workshop on Information Retrieval with Asian Languages,2003.
7Song D,Bruza P D,Huang Z,et al.Classifying document titles based on information inference[C].Japan:Proceedings of the 14th International Symposium on Methodologies for Intelligent Systems,2003.297-306.
8Beil F,Ester M,Xu X.Frequent term-based text clustering[C].Edmonton,Alberta,Canada:Proc 8th Int Conf on Knowledge Discovery and Data Mining(KDD'2002),2002.
9Yi Guan,Xiao-long Wang,Xiang-yong Kong,et al.Quantifying semantic similarity of Chinese words from hownet[C].Beijing:Proceedings of the First International Conference on Machine Learning and Cybernetics(ICMLC02),2002.234-239.
10Jure Leskovec,John Shawe-Taylor.Semantic text features from small world graphs[C].Bohinj,Slovenia:Subspace,Latent Structure and Feature Selection techniques:Statistical and Optimization perspectives Workshop,2005.

二级参考文献4

1吴赣程学旗等.WWW页面的文档分类技术.计算机语言学文集[M].,1999,10..
2董振东董强.知网.计算语言学文集[M].,1999,10..
3曹素丽,曾伏虎,曹焕光.基于汉字字频向量的中文文本自动分类系统[J].山西大学学报（自然科学版）,1999,22(2):144-149. 被引量：5
4李蕾,钟义信,郭祥昊.全信息理论在自动文摘系统中的应用[J].计算机工程与应用,2000,36(1):4-7. 被引量：13

共引文献16

1王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
2高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
3钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
4吴志峰,田学东.基于概念的文本分类中的人名、地名处理研究[J].微机发展,2005,15(3):11-13.
5李长荣,阚戈.中文文本2-分类模型在上证指数趋势分析中的应用研究[J].齐齐哈尔大学学报（自然科学版）,2005,21(2):33-36.
6曹二堂,刘玉林.基于语义理解的智能搜索引擎的研究[J].情报杂志,2005,24(6):58-59. 被引量：7
7李彦平,张佳骥.文本聚类中的降维技术研究[J].无线电工程,2005,35(6):51-53. 被引量：8
8张婷慧,耿焕同,蔡庆生.一种改进的VSM及其在文本自动分类中的应用[J].微电子学与计算机,2005,22(12):24-27. 被引量：3
9李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
10廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12

同被引文献82

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
5陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
6罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
7周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
8王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
9吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120. 被引量：7
10余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8

引证文献6

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11
3张建刚,彭勤科,康雪姣.在线电影评论倾向性分类算法研究[J].计算机工程与应用,2011,47(11):91-93. 被引量：2
4唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90. 被引量：44
5湛燕,陈昊.基于主题本体扩展特征的短文本分类[J].河北大学学报（自然科学版）,2014,34(3):307-311. 被引量：4
6李菲菲,王移芝.基于频繁词网络的LDA最优主题个数选取方法[J].计算机技术与发展,2018,28(8):1-5. 被引量：5

二级引证文献101

1温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：9
2伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
3蔡月红,朱倩,孙萍,程显毅.基于属性选择的半监督短文本分类算法[J].计算机应用,2010,30(4):1015-1018. 被引量：8
4王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
5刘建波,杨峰.面向舆情分析的短文本频繁模式聚类算法[J].北京电子科技学院学报,2010,18(4):6-11. 被引量：7
6任剑锋,梁雪,李淑红.基于非线性流形学习和支持向量机的文本分类算法[J].计算机科学,2012,39(1):261-263. 被引量：10
7杨艺,周元.基于用户查询意图识别的Web搜索优化模型[J].计算机科学,2012,39(1):264-267. 被引量：16
8王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
9杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. 被引量：7
10贾长云,梁海军.基于B-ISVM算法的物联网云存储数据伪装不良信息检测[J].计算机科学,2013,40(2):95-97. 被引量：3

1张书敏.短文本聚类算法研究[J].科技致富向导,2013(9):84-84.
2徐雅斌,李卓,吕非非,武装.基于频繁词集聚类的微博新话题快速发现[J].系统工程理论与实践,2014,34(S1):276-282. 被引量：7
3莫紫娟.试论短文本聚类算法在微博的应用[J].科技致富向导,2014(9):193-193.
4王乐,田李,贾焰,韩伟红.一个并行的文本聚类混合算法[J].计算机研究与发展,2007,44(z3):119-124.
5邱云飞,赵彬,林明明,王伟.结合语义改进的K-means短文本聚类算法[J].计算机工程与应用,2016,52(19):78-83. 被引量：14
6王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
7王乐,田李,贾焰,韩伟红.基于频繁词集和k-Means的Web文本聚类混合算法[J].计算机工程与科学,2008,30(8):92-96. 被引量：6
8袁满,欧阳元新,熊璋,罗建辉.一种基于频繁词集的短文本特征扩展方法[J].东南大学学报（自然科学版）,2014,44(2):256-260. 被引量：15
9马慧芳,曾宪桃,李晓红,朱志强.改进的频繁词集短文本特征扩展方法[J].计算机工程,2016,42(10):213-218. 被引量：6
10陈铁明,王小号,庞卫巍,江颉.结合时序和语义的中文微博话题检测与跟踪方法[J].网络与信息安全学报,2016,2(5):21-29. 被引量：3

计算机工程与设计

2007年第8期

浏览历史

内容加载中请稍等...

基于频繁词集聚类的海量短文分类方法被引量：6

参考文献10

二级参考文献4

共引文献16

同被引文献82

引证文献6

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

基于频繁词集聚类的海量短文分类方法 被引量：6

参考文献10

二级参考文献4

共引文献16

同被引文献82

引证文献6

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

基于频繁词集聚类的海量短文分类方法被引量：6