基于LSI和SVM相结合的文本分类研究被引量：1

Research on text classification based on combining LSI with SVM

下载PDF

导出

摘要传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题。为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用替在语义索引方法获得原始特征向量的潜在语义结构。实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维。 In traditional vector space modal, key words are used to represent the text, but the problems ofpolysemy and synonymy are not taken into account. To solve the problem, a text classification method combining latent semantic indexing with support vector machine is presented, using latent semantic indexing to obtain latent semantic structure of original feature vector. The experimental result shows that comparing to using the SVM solely, the dimension of feature vector drops largely with the accuracy of this method dropping a little.

作者刘洋张秋余

机构地区兰州理工大学计算机与通信学院

出处《计算机工程与设计》 CSCD 北大核心 2007年第23期5762-5764,共3页 Computer Engineering and Design

基金甘肃省科技攻关计划基金项目(2GS047-A52-002-03)

关键词潜在语义索引奇异值分解支持向量机文本分类机器学习 latent semantic indexing single value decomposition support vector machine text classification machine learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1Sebastiani F. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002, 34(1): 1-47.
2Yang Y, Lin X. A re-examination of text categorization methods [C]. Proceedings of the 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley: ACM Press, 1999,42-49.
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
5陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
6Moschitti A, Basili R. Complex linguistic features for text classification: A comprehensive study [C]. Proceedings of the 26th european Conference on Information Retrieval Research. Sunderland: Springer-Verlag, 2004:181-196.
7Shima K, Todoriki M, Suzuki A. SVM-based feature selection of latent semantic features[J]. Pattern Recognition Letters,2004,25 (2):1051-1057.
8Kim H, Howland P, Park H. Dimension reduction in text classification with support vector machine [J]. Journal of Machine Learning Research,2005,6(1):37-53.
9Liu T, Chen Z, Zhang B, et al. Improving text classification using local latent semantic indexing[C]. Proceedings of the 4th IEEE International Conference on Data Mining. Brighton: IEEE Computer Society, 2004,162-169.
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378

二级参考文献51

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3[1]Sebastiani F. Machine learning in automated text categorization [J]. ACM Computing Survey, 2002,34 (1):1 -47.
4[2]Deerwester S,Dumais S T,Furnas G W,et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990,41 (6) :391 - 407.
5[3]Dumais S T. Using LSI for information filtering [A].Harman D. The Third Text Retrieval Conference ( TREC - 3) [C]. USA: National Institute of Standards and Technology Special Publication, 1995.
6[4]Baker L D,McCallum A K. Distributional clustering of words for text classification [A]. Proc. ACM-SIGIR-98[C]. Australia: ACM Press, 1998. 96 - 103.
7[5]Park H,Howland P,Jeon M. Cluster structure preserving dimension reduction based on the generalized singular value decompositon [J]. SIAM Journal on Matrix Analysis and Applications ,2003,25 (1): 165 - 179.
8[6]Wold H. Encyclopedia of Statistical Science [M]. New York: Wiley, 1985.
9[7]Tenenhaus M. La Régreesion PLS. Théorie et Pratique [M]. Paris: éditions Technip, 1998.
10D. D. Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998, 4-15.

共引文献546

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：4
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
4廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
5叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
6张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
7况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
8王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
9徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
10袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.

同被引文献9

1李子木,吴建平,李星.CERNET高性能网络信息服务体系结构的研究[J].计算机工程,2000,26(S1):841-846. 被引量：3
2宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：40
3Leopold E,Kindermann J.Text categorization with support vector machine:How to represent texts in input space.Machine Learing,2002;46(13):423-444.
4于静,李淼.基于WEB信息抽取的主动服务技术研究[J].计算机系统应用,2008,17(1):54-56. 被引量：4
5宋怡.基于网络图书馆的主动信息服务机制研究[J].情报科学,2008,26(5):735-739. 被引量：2
6丁振国,黎靖,张卓.一种改进的基于神经网络的文本分类算法[J].计算机应用研究,2008,25(6):1639-1641. 被引量：4
7廖小平,王志坚,刘山.基于XML和发布/订阅机制的主动服务系统[J].计算机应用与软件,2009,26(1):205-206. 被引量：4
8刘克允.基于用户信息需求的网络信息服务模式[J].情报探索,2009(9):83-85. 被引量：5
9李曼,张惠玲.基于Agent的个性化主动信息服务研究综述[J].图书情报工作,2002,46(8):5-9. 被引量：22

引证文献1

1杨强,隋福宁,邓苏,刘青宝,周有为.基于主题分析的网络信息资源聚焦服务方法[J].科学技术与工程,2010,10(19):4813-4816. 被引量：2

二级引证文献2

1周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
2宗士强,蒋炜,高璇,吴姗姗,金欣.任务驱动的信息自动汇聚方法[J].指挥信息系统与技术,2015,6(4):46-52. 被引量：4

1王瑛.基于VSM的潜在语义索引[J].陕西科技大学学报（自然科学版）,2010,28(5):151-154. 被引量：1
2方铖.用于网页智能搜索的数据挖掘[J].电脑学习,2008(2):33-34. 被引量：1
3李垒,李怀刚.基于语义网络的Web挖掘[J].广西轻工业,2008,24(2):52-53.
4周佩德.第二讲 FoxPro的索引方法[J].计算机文汇,1994,1(1X):53-56.
5陈祎荻,秦玉平.基于机器学习的文本分类方法综述[J].渤海大学学报（自然科学版）,2010,31(2):201-205. 被引量：12
6崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
7崔彩霞,张朝霞.文本分类方法对比研究[J].太原师范学院学报（自然科学版）,2007,6(4):52-54. 被引量：5
8罗洋.自动文摘抽取的研究[J].科技信息,2009(1). 被引量：1
9刘美茹.基于LSI和SVM的文本分类研究[J].计算机工程,2007,33(15):217-219. 被引量：8
10吴降龙,周一民.一种新型文本分类方法的研究[J].微型电脑应用,2008,24(8):1-3.

计算机工程与设计

2007年第23期

浏览历史

内容加载中请稍等...

基于LSI和SVM相结合的文本分类研究被引量：1

参考文献10

二级参考文献51

共引文献546

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于LSI和SVM相结合的文本分类研究 被引量：1

参考文献10

二级参考文献51

共引文献546

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于LSI和SVM相结合的文本分类研究被引量：1