大规模文本数据库中的短文分类方法被引量：4

Short Documents Classification Method in Very Large Text Database

下载PDF

导出

摘要信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。文本提出了一个新颖的短文分类算法。该算法基于文本语义特征图,并使用类似kNN的方法进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。 With the rapid development of information technology,huge data are accumulated.A vast amount of such data appears as short documents.It is very useful to classify such short documents to get knowledge automatically form the data.But most of the current classification algorithms can＇t get acceptable accuracy since key words appear less time in short documents and the labeled training examples are usually very few.Some classification algorithms based on semantic information is more accurate but they are inefficient to be used to process very large document sets.In this paper,we propose a novel classification method based on semantic text features graph and kNN like method.Our experimental study shows that our algorithm is more accurate and efficient than other classification algorithms when classifying large scale short documents.

作者王永恒贾焰杨树强

机构地区国防科技大学计算机学院网络研究所

出处《计算机工程与应用》 CSCD 北大核心 2006年第22期5-7,共3页 Computer Engineering and Applications

基金国家863高技术研究发展计划资助项目(编号:2004AA112020 2003AA115210 2003AA111020)

关键词文本挖掘分类短文大规模文本数据库 text mining,classification,short document,very large text database

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1Song D,Bruza P D.Discovering Information Flow Using a High Dimensional Conceptual Space[C].In:Proceedings of ACM SIGIR 2001,2001:327～333
2Lund K,Burgess C.Producing High-dimensional Semantic Spaces from Lexical Co-occurrence[J].Behavior Research Methods,Instruments,&Computers,1996; 28 (2):203～208
3Jure Leskovec,John Shawe-Taylor.Semantic Text Features from Small World Graphs[C].In:Subspace,Latent Structure and Feature Selection techniques:Statistical and Optimization perspectives Workshop,Bohinj,Slovenia,2005
4D Song,P D Bruza,Z Huang et al.Classifying Document Titles Based on Information Inference[C].In:proceedings of the 14th International Symposium on Methodologies for Intelligent Systems,Japan,2003:297～306
5J Hynek,K Jezek,O Rohlik.Short Document Categorization-Itemsets Method[C].In:PKDD 4th European Conference on Principles and Practice of Knowledge Discovery in Databases,Workshop Machine Learning and Textual Information Access,Lyon,France,2000:14～19

同被引文献26

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2文瑞.微博之识[J].软件工程师,2009(12):20-20. 被引量：4
3甄彤.基于层次与划分方法的聚类算法研究[J].计算机工程与应用,2006,42(8):178-180. 被引量：8
4张妹,赵铁军,赵华,姚建民.基于内容相似度的文摘自动评测方法及其有效性分析[J].高技术通讯,2006,16(3):241-245. 被引量：8
5曹洪其,余岚,孙志挥.基于网格聚类技术的离群点挖掘算法[J].计算机工程,2006,32(11):119-121. 被引量：15
6夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
7Zelikovitz S,Transductive M F.Learning for Short-Text Classification Problem using Latent Semantic Intexing International [J].Joumal of Pattern Recognition and Artificial Intelligence, 2005, 19(2):143-163.
8Pu Qiang,Yang Guo,Wei. Short-Text Classification Based on ICA and LSA [J]Proceedings of International Symposium on Neural Networks,2005, (ISNN 2):265-270.
9P.W.Lord, R.D.Stevens, A.Brass, C.A.Goble, Semantic Similarity Measures as Tools for Exploring the Genge Ontology[J] Proceedings of the 8th Pacific Symposium on Biocomputing, 2003.
10刘群李素建.基于《知网》的词汇语义相似度计算[A]..第三届汉语词汇语义学研讨会[c].台北,2002..

引证文献4

1崔争艳.基于语义的微博短信息分类[J].现代计算机,2010,16(8):18-20. 被引量：18
2韩雪,张业,朱聪慧.企业经营范围文本自动分类方法探究[J].标准科学,2012(1):93-96. 被引量：1
3杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. 被引量：7
4刘世勇,罗美淑.基于微博信息数据分析研究综述[J].中国校外教育,2012(12):168-168. 被引量：1

二级引证文献27

1张东霞.基于高校学生微博的舆情热点分析与发现[J].东南传播,2013(6):87-89. 被引量：7
2赵文兵,朱庆华,吴克文,黄奇.微博客用户特性及动机分析——以和讯财经微博为例[J].现代图书情报技术,2011(2):69-75. 被引量：31
3李龙,李芝棠,涂浩,史春永.一种分布式微博数据采集平台的设计与实现[J].广西大学学报（自然科学版）,2011,36(A01):324-328. 被引量：9
4郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：84
5程亮,邱云飞,孙鲁.微博谣言检测方法研究[J].计算机应用与软件,2013,30(2):226-228. 被引量：23
6罗美淑,刘世勇,陈丽敏.论微博对网络舆情的影响[J].赤峰学院学报（自然科学版）,2013,29(6):15-17. 被引量：2
7周胜臣,瞿文婷,石英子,施询之,孙韵辰.中文微博情感分析研究综述[J].计算机应用与软件,2013,30(3):161-164. 被引量：80
8何跃,王迪,张丽丽.基于关联规则的微博主题搜索策略研究[J].情报杂志,2013,32(6):131-136. 被引量：1
9魏萌,杨文涛.基于关键词的微博热点话题实时检测方法[J].计算机与现代化,2013(10):184-187.
10朱晓峰,陈楚楚,尹婵娟.基于微博舆情监测的K-Means算法改进研究[J].情报理论与实践,2014,37(1):136-140. 被引量：17

1冯舸,王华军,谢羽佳.基于存储过程的累积实现[J].数字通信,2012,39(5):59-61. 被引量：1
2王钊.基于SSH的Web中的文本挖掘算法的研究与应用[J].工业控制计算机,2015,28(9):128-129.
3朱颢东,蔡乐才,刘忠英.一种改进的文本特征选择算法[J].现代电子技术,2008,31(8):97-99. 被引量：7
4王永恒,杨树强,贾焰.海量文本数据库中的高效并行频繁项集挖掘方法[J].计算机工程与科学,2007,29(9):110-113. 被引量：2
5王永恒,贾焰,杨树强.基于频繁词集聚类的海量短文分类方法[J].计算机工程与设计,2007,28(8):1744-1746. 被引量：6
6李纲,毛进.文本图表示模型及其在文本挖掘中的应用[J].情报学报,2013,32(12):1257-1264. 被引量：12
7刘志勇,耿新青.基于模糊聚类的文本挖掘算法[J].计算机工程,2009,35(5):44-45. 被引量：19
8朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4
9吴晓洲,万里明,韩霄松,梁艳春,吴春国.基于隐马尔可夫模型的转录因子文本挖掘算法[J].吉林大学学报（理学版）,2012,50(2):320-322. 被引量：1
10张清清,李长云,李旭,周玲芳,胡淑新,邹豪杰.基于不规则区域划分方法的k-Nearest Neighbor查询算法[J].计算机系统应用,2015,24(9):186-190. 被引量：1

计算机工程与应用

2006年第22期

浏览历史

内容加载中请稍等...

大规模文本数据库中的短文分类方法被引量：4

参考文献5

同被引文献26

引证文献4

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

大规模文本数据库中的短文分类方法 被引量：4

参考文献5

同被引文献26

引证文献4

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

大规模文本数据库中的短文分类方法被引量：4