摘要
本文介绍了文本分类的基本原理及关键技术,讨论目前的一些主要算法,对现有的文本分类算法进行分析和比较,并针对目前文本分类技术的不足之处,提出今后文本分类研究的方向和目标。
出处
《福建电脑》
2006年第9期5-6,8,共3页
Journal of Fujian Computer
基金
福建省科技计划项目(2004I014)
参考文献9
-
1龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量:26
-
2程泽凯,陆小艺.文本分类中的特征选择方法[J].安徽工业大学学报(自然科学版),2004,21(3):220-224. 被引量:11
-
3姚力群,吴高巍.一种基于层次结构的科技论文分类模型[J].计算机工程与应用,2004,40(6):18-22. 被引量:2
-
4刘娇蛟,龚丽,李建华.基于本体实现对网页文本的自动主题分类[J].计算机工程,2003,29(11):95-97. 被引量:15
-
5宫秀军,孙建平,史忠植.主动贝叶斯网络分类器[J].计算机研究与发展,2002,39(5):574-579. 被引量:37
-
6解冲锋,李 星.基于序列的文本自动分类算法[J].软件学报,2002,13(4):783-789. 被引量:35
-
7庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量:293
-
8Zijian Zheng,Geoffrey I. Webb. Lazy Learning of Bayesian Rules[J] 2000,Machine Learning(1):53~84
-
9Corinna Cortes,Vladimir Vapnik. Support-Vector Networks[J] 1995,Machine Learning(3):273~297
二级参考文献53
-
1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量:83
-
2黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
-
3鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
-
4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
-
5[16]M Schmidt. Identifying Speaker with Support Vector Networks[C].In:Interface′96 Proceedings, Sydney, 1996
-
6[17]Edgar Osuna,Robert Freund,Federico Girosi.Training Support Vector Machines:an Application to Face Detection[C].In:IEEE Conference on Computer Vision and Pattern Recognition,1997:130~136
-
7[18]Yaoyong Li,Hugo Zaragoza,Ralf Herbrich et al.The Perceptron Algorithm with Uneven Margins[C].In:Proceedings of the 9th International Conference on Machine Learning(ICML-2002) ,2002: 379~386
-
8[1]G Salton,A Wong,C S Yang. Information Retrieval and Language Processing[J].communications of the ACM, 1975; 18 ( 11 ): 613~620
-
9[2]Masao Fuketa,Sangkon Lee,Takako Tsuji et al.A document Classification Method by Using Field Association Words[J].Information Sciences, 2000; 126 ( 1-4 ): 57 ~70
-
10[3]Lochbaum K E,Streeter L A.Comparing and Combining the Effectiveness of Latent Semantic Indexing and the Ordinary Vector Space Model for Information Retrieval[J].Information Processing & Management, 1989; 25 ( 6 ): 665 ~676
共引文献409
-
1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量:7
-
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
-
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量:2
-
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报(自然科学版),2005,45(S1):1903-1907. 被引量:5
-
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量:4
-
6王利民,李雄飞,张海龙.基于广义信息论的贝叶斯分类器动态建模[J].吉林大学学报(工学版),2009,39(3):776-780. 被引量:5
-
7李笛,胡学钢,胡春玲.主动贝叶斯分类方法研究[J].计算机研究与发展,2007,44(z2):47-51. 被引量:1
-
8杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
-
9李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
-
10陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量:2
同被引文献12
-
1赵姝,张燕平,张媛,陈传明.基于交叉覆盖算法的改进算法——核平移覆盖算法[J].微机发展,2004,14(11):1-3. 被引量:6
-
2张燕平,张铃,段震.构造性核覆盖算法在图像识别中的应用[J].中国图象图形学报(A辑),2004,9(11):1304-1308. 被引量:17
-
3吴涛,张铃,张燕平.机器学习中的核覆盖算法[J].计算机学报,2005,28(8):1295-1301. 被引量:33
-
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量:79
-
5周瑛,张铃.基于概率的覆盖算法的研究[J].计算机技术与发展,2006,16(3):29-30. 被引量:3
-
6张玉芳,杨柯,熊忠阳.基于关联规则的中文文本分类算法的改进[J].郑州大学学报(理学版),2007,39(2):114-117. 被引量:6
-
7张玉芳,陈剑敏,熊忠阳.一种改进的贝叶斯文本分类方法[J].广西师范大学学报(自然科学版),2007,25(2):206-209. 被引量:7
-
8王倩倩,段震,张燕平.基于交叉覆盖算法的文本分类[J].计算机技术与发展,2007,17(6):113-115. 被引量:5
-
9张铃,吴涛,周瑛,张燕平.覆盖算法的概率模型[J].软件学报,2007,18(11):2691-2699. 被引量:10
-
10张铃,张钹.M-P神经元模型的几何意义及其应用[J].软件学报,1998,9(5):334-338. 被引量:135
-
1黄钢石,张亚非,陆建江,肖江.基于NMF的潜在语义模型在文本检索中的应用[J].解放军理工大学学报(自然科学版),2004,5(2):36-39. 被引量:1
-
2张敏,李锋.PageRank算法研究[J].微计算机信息,2011,27(8):143-144. 被引量:1
-
3杨清,李方敏.基于潜在语义模型的SVM入侵检测研究[J].计算机工程与应用,2007,43(5):143-145.
-
4金小峰.一种大容量文本集的智能检索方法[J].计算机工程与应用,2011,47(7):143-145.
-
5朱韶平,樊晓平.基于pLSA模型的滚动轴承故障检测[J].计算机应用研究,2015,32(10):2999-3003.
-
6赖冠辉,王晓博,刘超.代码与文档间关联关系的提取方法研究和改进[J].电子学报,2009,37(B04):22-30. 被引量:3
-
7廖一星.一种新的监督潜在语义模型[J].计算机工程与应用,2009,45(33):117-119. 被引量:1
-
8张少磊,王忠.基于闭频繁项集短文本聚类[J].计算机应用,2016,36(A02):227-229. 被引量:1
-
9闫建红.企业智能化Web商务数据挖掘引擎算法设计与实现[J].计算机工程与设计,2007,28(4):926-928. 被引量:6
-
10宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘[J].软件学报,2002,13(8):1508-1514. 被引量:28