Web自动文本分类技术研究综述被引量：9

A Literature Review on Web Automated Text Categorization Technology

下载PDF

导出

摘要 Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术：文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势。 In recent years,there have been extensive studies and rapid progresses in automated text categorization,which is one of the hotspots and key techniques in the information retrieval and data mining field.This article has analyzed the research present situation of domestic and foreign Web text categorization method firstly,has analyzed the new methods which recently appeared,swarm-based approaches,based on the fuzzy-rough collection text classification model,the multi-sorters fusion method,based on RBF network text categorization model,latent semantic classification model and so on,as well as the recent development of the K-NN and the support vector machine（SVM）method;And has discussed the Web text categorization process several essential technologies：The text pretreatment,the text expressed,the characteristic fell Uygur,the training method and the classified algorithm;Finally summarized the development deficiency and tendency of Web automated text categorization technology.

作者蒲筱哥

机构地区徐州师范大学图书馆

出处《情报学报》 CSSCI 北大核心 2009年第2期233-241,共9页 Journal of the China Society for Scientific and Technical Information

关键词文本分类分类方法文本表示特征选择 text categorization categorization method text representation feature selection

分类号 TP393 [自动化与计算机技术—计算机应用技术] G35 [文化科学—情报学]

引文网络
相关文献

参考文献56

1Aas K,Eikvil A.Text Categorisation:A Survey[R].Norwegian Computing Center,http://citeseer.nj.nec.com/aas99text.html,1999.
2Lewis D D,Stern D L,Singhal A.Attics:a software platform for online text classification.In Proceedings of SIGIR-99,22nd AC'M International Conference on Research and Development in Information Retrieval (Berkeley,US,1999),1999,267-268.
3Chen Hao,Dumais S T.Bringing order to the Web:automatically categorizing search results[C]∥Proceedings of CHI-00,ACM International Conference on Human Factors in Computing Systems,Den Haag,NL,2000.ACM Press,New York,US.145-152.
4Giraldez I E.et al.Chacon.HERMES:Intelligent multilingual news filtering based on language engineering for advanced user profiling[C]∥Multilingual Information Access and Natural Language Processing Workshop Proceedings.2002:81-88.
5王本年,高阳,陈世福,谢俊元.Web智能研究现状与发展趋势[J].计算机研究与发展,2005,42(5):721-727. 被引量：23
6侯汉清.分类法的发展趋势简论[M].北京:中国人民大学出版社,1981.
7李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57
8黄营警,吴立德.独立于语种的文本分类方法[C]∥2000 International Conference on Multilingual Information Processing.2000:37-43.
9Breiman L.Bagging predictors[J].Machine Learning,1996,24:123-140.
10Schapire F,Freund Y,Schapire R E.Experiments with a new boosting algorithm[C]∥Machine Learning:Proceedings of the thirteenth International Conference,Morgan Kaufmann,1996:148-156.

二级参考文献91

1曾黄麟.粗集理论及其应用－－关于数据推理的新方法[M].重庆:重庆大学出版社,1998..
2[1]Dubois D,Prade H. Putting rough sets and fuzzy sets together [A]. Intelligent Decision Support: Handbook of Applications and Advanced of the Rough Set Theory [C].Boston: Slowinski R ED, Kluwer Academic Publishers, 1992. 203 - 222.
3[2]Yao Y Y. A comparative study of fuzzy sets and rough sets [J]. Information Sciences, 1998,109 (1-4): 227 -242.
4[4]Keller J M, Gray M R, Givens J A. A fuzzy k-nearest neighbor algorithm [J]. IEEE Transactions on System Man and Cybernetics, 1985,15 (4) :580 - 585.
5[5]Yang Y,Pederen J P. A comparative study on feature selection in text categorization [A]. Proceeding of the Fourteenth International Conference on Machine Learning (ICML97) [C]. Nashville Tennessee USA :Morgan Kaufmann, 1997.412 - 420.
6[7]Denoeux T. A k-nearest neighbor classification rule based on Dempster-Shafer theory [J]. IEEE Transactions on System Man and Cybernetics, 1995,25(5):804 -813.
7[8]Francois J, Grandvalet Y, Denoeux T, et al. Resample and combine:An approach to improving uncertainty representation in evidential pattern classification [J]. Information Fusion,2003 (4) :75 -85.
8[1]Sebastiani F. Machine learning in automated text categorization [J]. ACM Computing Survey, 2002,34 (1):1 -47.
9[2]Deerwester S,Dumais S T,Furnas G W,et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990,41 (6) :391 - 407.
10[3]Dumais S T. Using LSI for information filtering [A].Harman D. The Third Text Retrieval Conference ( TREC - 3) [C]. USA: National Institute of Standards and Technology Special Publication, 1995.

共引文献186

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
3廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
4叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
5况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
6范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
7邵琳.浅谈计算机软件技术的发展及其在工程领域中的应用[J].硅谷,2009,2(23). 被引量：3
8刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
9陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
10李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13

同被引文献73

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2杨胜,顾钧.Feature selection based on mutual information and redundancy-synergy coefficient[J].Journal of Zhejiang University Science,2004,5(11):1382-1391. 被引量：7
3孙茂松,王洪君,李行健,富丽,黄昌宁,陈松岑,谢自立,张卫国.《信息处理用词汇研究》九五项目结题汇报信息处理用现代汉语分词词表[J].语言文字应用,2001(4):84-89. 被引量：24
4李惠娟,高峰,管晓宏,黄亮.基于贝叶斯神经网络的垃圾邮件过滤方法[J].微电子学与计算机,2005,22(4):107-111. 被引量：21
5王波,黄迪明.遗传神经网络在邮件过滤器中的应用[J].电子科技大学学报,2005,34(4):505-508. 被引量：9
6曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-135. 被引量：10
7吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):55-62. 被引量：104
8郭辉,王玲,刘贺平.基于核主成分分析与最小二乘支持向量机结合处理时间序列预测问题[J].北京科技大学学报,2006,28(3):303-306. 被引量：14
9王淑群.影响网络信息检索的因素与对策[J].图书馆论坛,2006,26(2):197-199. 被引量：16
10肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究[J].计算机应用,2006,26(5):1125-1126. 被引量：12

引证文献9

1徐春雨.基于RBF神经网络的Web文本分类的研究[J].电脑知识与技术,2011,7(5):3107-3108. 被引量：1
2蔡华利,刘鲁,王理.突发事件Web新闻多层次自动分类方法[J].北京工业大学学报,2011,37(6):947-954. 被引量：6
3黄美璇.基于主题发现的舆情分析系统的设计与实现[J].北京联合大学学报,2012,26(1):33-36. 被引量：5
4张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
5李勇,张克亮,李伟刚.基于微博的网络舆情分析系统设计[J].计算技术与自动化,2013,32(2):123-127. 被引量：5
6易军凯,田立康.基于类别区分度的文本特征选择算法研究[J].北京化工大学学报（自然科学版）,2013,40(B12):72-75. 被引量：4
7陈立.基于加权子图和支持向量机相融合的邮件分类算法[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(5):647-651. 被引量：1
8张洁.改进支持向量机的电子邮件分类[J].现代电子技术,2017,40(1):77-79. 被引量：4
9熊回香,杨雪萍,高连花.基于用户兴趣主题模型的个性化推荐研究[J].情报学报,2017,36(9):916-929. 被引量：21

二级引证文献53

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2李兵,安悦.危机事件近实时情境感知研究综述[J].图书情报工作,2012,56(19):133-139. 被引量：3
3李勇,张克亮,李伟刚.基于微博的网络舆情分析系统设计[J].计算技术与自动化,2013,32(2):123-127. 被引量：5
4薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：24
5韩赛,卢建军,卫晨,刘志鹏.基于概率神经网络的煤炭企业物资分类方法研究[J].工矿自动化,2014,40(4):38-41. 被引量：6
6莫祖英.微博信息研究热点分析[J].图书馆学研究,2015(6):2-8. 被引量：5
7王恒静,曹存根,高尚.基于词类和搭配的微博舆情文本聚类方法研究[J].南京师大学报（自然科学版）,2015,38(1):57-65. 被引量：2
8刘鑫,胡云琴.基于J2EE的舆情分析系统的设计与实现[J].信息系统工程,2015,28(4):69-69.
9徐童童.微博主题发现方法综述[J].内蒙古科技与经济,2015(19):81-83.
10郑恒毅,廖城霖,李天柱.一种面向网络长文本的话题检测方法[J].工程科学学报,2019,41(9):1208-1214. 被引量：7

1高淑琴.Web文本分类技术研究现状述评[J].图书情报知识,2008,25(3):81-86. 被引量：7
2赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
3尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
4丁磊,钱云涛.不同程度的监督机制在自动文本分类中的应用[J].计算机应用与软件,2004,21(6):65-68. 被引量：1
5于锟,刘知贵,黄正良.一种改进的基于模糊-粗糙集的属性约简算法[J].微计算机信息,2006,22(06X):272-273. 被引量：5
6宋枫溪,陈才扣,刘树海,杨静宇.文本表示方式对线性支持向量机分类性能的影响[J].模式识别与人工智能,2004,17(2):161-166. 被引量：4
7肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
8范敬德,沈中林,于旭亮,樊玮.一种改进的基于模糊-粗糙集的属性约简算法[J].航空计算技术,2007,37(2):8-10. 被引量：1
9袁妍,洪晓光.基于模糊-粗糙集的移动对象k近邻预测[J].计算机科学,2008,35(2):140-143. 被引量：2
10贾宁.使用概念基元特征进行自动文本分类[J].计算机工程与应用,2007,43(1):24-26. 被引量：6

情报学报

2009年第2期

浏览历史

内容加载中请稍等...

Web自动文本分类技术研究综述被引量：9

参考文献56

二级参考文献91

共引文献186

同被引文献73

引证文献9

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

Web自动文本分类技术研究综述 被引量：9

参考文献56

二级参考文献91

共引文献186

同被引文献73

引证文献9

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

Web自动文本分类技术研究综述被引量：9