基于核方法的潜在语义文本分类模型被引量：4

A kernel latent semantic classification model

导出

摘要在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳。而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高。为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型。该模型比LSC模型能更好地表示文档空间的潜在语义结构信息。在R eu ter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。 Latent semantic indexing is an effective algorithm for information retrieval. However, some features, which contribute much to classification, may be ignored when it is applied to text classification. A latent semantic classification LSC model, which considers both text feature and classification information, is virtually a linear model and could not gain higher effectiveness. To enhance the classification performance, a nonlinear LSC model is proposed based on kernel function. This model can capture more l...

作者罗远胜王明文曾雪强

机构地区江西师范大学计算机信息工程学院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第S1期1853-1856,共4页 Journal of Tsinghua University(Science and Technology)

基金教育部重点科技资助项目(03070) 江西省自然科学基金资助项目(0311041)

关键词文本分类核方法潜在语义索引偏最小二乘分析核偏最小二乘分析 text classification kernel trick latent semantic index partial least squares kernel partial least squares

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27

二级参考文献7

1[1]Sebastiani F. Machine learning in automated text categorization [J]. ACM Computing Survey, 2002,34 (1):1 -47.
2[2]Deerwester S,Dumais S T,Furnas G W,et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990,41 (6) :391 - 407.
3[3]Dumais S T. Using LSI for information filtering [A].Harman D. The Third Text Retrieval Conference ( TREC - 3) [C]. USA: National Institute of Standards and Technology Special Publication, 1995.
4[4]Baker L D,McCallum A K. Distributional clustering of words for text classification [A]. Proc. ACM-SIGIR-98[C]. Australia: ACM Press, 1998. 96 - 103.
5[5]Park H,Howland P,Jeon M. Cluster structure preserving dimension reduction based on the generalized singular value decompositon [J]. SIAM Journal on Matrix Analysis and Applications ,2003,25 (1): 165 - 179.
6[6]Wold H. Encyclopedia of Statistical Science [M]. New York: Wiley, 1985.
7[7]Tenenhaus M. La Régreesion PLS. Théorie et Pratique [M]. Paris: éditions Technip, 1998.

共引文献26

1廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
2叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
3陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
4王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
5付雪峰,刘邱云,王明文.基于互信息的粗糙集信息检索模型[J].山东大学学报（理学版）,2006,41(3):17-19. 被引量：2
6刘桂雄,林绪虹.鱼类超微弱发光的偏最小二乘回归分析与建模[J].华南理工大学学报（自然科学版）,2006,34(11):29-32. 被引量：5
7张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384. 被引量：4
8孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
9刘洋,张秋余.基于LSI和SVM相结合的文本分类研究[J].计算机工程与设计,2007,28(23):5762-5764. 被引量：1
10李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：102

同被引文献70

1廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
2叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
3付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
4曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
5周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
6王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
7郑贵滨,韩纪庆.音频信息检索技术在IVR中的应用策略[J].哈尔滨理工大学学报,2005,10(3):65-68. 被引量：1
8万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
9严明,苏新宁.数字视频信息的索引研究[J].现代图书情报技术,2005(7):46-50. 被引量：6
10原福永,李莉,李红岩.智能信息检索的设计与研究[J].燕山大学学报,2005,29(4):287-290. 被引量：1

引证文献4

1王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
2徐武,李琳,陶红亮,杨印根.Web Information Retrieval的分析与展望[J].景德镇高专学报,2006,21(4):15-17. 被引量：1
3刘华.文本分类C#实现[J].现代图书情报技术,2007(3):43-45.
4刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14

二级引证文献19

1常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
2王娟.Web文本分类技术研究[J].福建电脑,2008,24(9):107-107.
3王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J].现代图书情报技术,2008(9):58-63. 被引量：5
4任克强,张国萍,赵光甫.基于相对文档频的平衡信息增益降维方法[J].江西理工大学学报,2008,29(5):68-71. 被引量：3
5刘华.面向对外汉语教学的话题聚类研究[J].外语研究,2008,25(5):55-60. 被引量：5
6盛宇,刘俊熙,郭金兰,龙怡.自然语言理解心理学在短文本分类中的实证研究[J].现代情报,2009,29(8):4-7. 被引量：2
7潘丽芳,杨炳儒.基于簇的K最近邻(KNN)分类算法研究[J].计算机工程与设计,2009,30(18):4260-4262. 被引量：27
8赵敏涯.结合语言模型的自动文本分类的应用研究[J].计算机与现代化,2010(3):141-143.
9张志平.基于“中文新闻信息分类与代码”文本分类[J].太原理工大学学报,2010,41(4):402-405. 被引量：5
10阿力木江·艾沙,吐尔根·依布拉音,库尔班·吾布力,李哲.基于短语的维吾尔文文本分类[J].计算机应用,2012,32(10):2923-2926. 被引量：5

1谢英红,吴成东.基于偏最小二乘分析的双模粒子滤波目标跟踪[J].控制与决策,2014,29(8):1372-1378. 被引量：6
2赵文强.使用99盘网络硬盘与朋友共享资源[J].电子乐园,2009(18):14-17.
3韩晓东,王晓博,刘超.中文文档与源代码间关联关系提取方法的研究[J].合肥工业大学学报（自然科学版）,2010,33(2):188-192. 被引量：5
4周小娟,李春晓.基于偏最小二乘分析和稀疏表示的目标跟踪算法[J].重庆邮电大学学报（自然科学版）,2014,26(1):104-110. 被引量：6
5李志军,梁乐乐,韩存武,孙德辉.基于PLS的多采样率过程故障检测及其仿真[J].计算机仿真,2016,33(10):445-449. 被引量：11
6刘红芝.信息过滤系统主要数学模型的研究[J].科技信息,2009(6):20-20. 被引量：3
7金广智,石林锁,刘浩,牟伟杰,蔡艳平.结合PLS表示与随机梯度的目标优化跟踪[J].电子与信息学报,2016,38(8):2027-2032.
8孙权森,陈强,夏德深.基于偏最小二乘分析的人脸表示与识别[J].江南大学学报（自然科学版）,2008,7(1):1-5.
9孙铁利,杨凤芹.根据用户隐式反馈建立和更新用户兴趣模型[J].东北师大学报（自然科学版）,2003,35(3):99-104. 被引量：29
10曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27

清华大学学报（自然科学版）

2005年第S1期

浏览历史

内容加载中请稍等...

基于核方法的潜在语义文本分类模型被引量：4

参考文献1

二级参考文献7

共引文献26

同被引文献70

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于核方法的潜在语义文本分类模型 被引量：4

参考文献1

二级参考文献7

共引文献26

同被引文献70

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于核方法的潜在语义文本分类模型被引量：4