一种基于潜在语义结构的文本分类模型被引量：27

A Text Classification Model Based on the Latent Semantic Structure

下载PDF

导出

摘要潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构. In the Latent Semantic Indexing (LSI) model, the problems of polysemy and synonymy can be dealt with to a certain degree and some noise in the raw document can be reduced, while some important features may be ignored because of their small feature values. To solve the problem, a new text classification model extending the LSI model is proposed. In this model, the classification information of the training document is additionally taken into account while keeping as much document information as possible. So the proposed model can better capture the latent semantic structure behind the classification examples than the LSI model.

作者曾雪强王明文陈素芬

机构地区江西师范大学计算机信息工程学院

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2004年第z1期99-102,共4页 Journal of South China University of Technology(Natural Science Edition)

关键词文本分类潜在语义索引偏最小二乘法 text classification latent semantic indexing partial least square analysis

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1[1]Sebastiani F. Machine learning in automated text categorization [J]. ACM Computing Survey, 2002,34 (1):1 -47.
2[2]Deerwester S,Dumais S T,Furnas G W,et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990,41 (6) :391 - 407.
3[3]Dumais S T. Using LSI for information filtering [A].Harman D. The Third Text Retrieval Conference ( TREC - 3) [C]. USA: National Institute of Standards and Technology Special Publication, 1995.
4[4]Baker L D,McCallum A K. Distributional clustering of words for text classification [A]. Proc. ACM-SIGIR-98[C]. Australia: ACM Press, 1998. 96 - 103.
5[5]Park H,Howland P,Jeon M. Cluster structure preserving dimension reduction based on the generalized singular value decompositon [J]. SIAM Journal on Matrix Analysis and Applications ,2003,25 (1): 165 - 179.
6[6]Wold H. Encyclopedia of Statistical Science [M]. New York: Wiley, 1985.
7[7]Tenenhaus M. La Régreesion PLS. Théorie et Pratique [M]. Paris: éditions Technip, 1998.

同被引文献405

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
3左家莉,王明文,王希.基于Markov网络的信息检索扩展模型[J].清华大学学报（自然科学版）,2005,45(S1):1847-1852. 被引量：9
4廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
5叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
6张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
7刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
8付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
9徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
10郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1

引证文献27

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
3叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
4陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
5王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
6付雪峰,刘邱云,王明文.基于互信息的粗糙集信息检索模型[J].山东大学学报（理学版）,2006,41(3):17-19. 被引量：2
7刘桂雄,林绪虹.鱼类超微弱发光的偏最小二乘回归分析与建模[J].华南理工大学学报（自然科学版）,2006,34(11):29-32. 被引量：5
8张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384. 被引量：4
9孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
10刘洋,张秋余.基于LSI和SVM相结合的文本分类研究[J].计算机工程与设计,2007,28(23):5762-5764. 被引量：1

二级引证文献222

1陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
2王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
3牛玲.一种基于向量空间模型的改进文本分类算法[J].情报杂志,2006,25(6):63-64. 被引量：2
4徐武,李琳,陶红亮,杨印根.Web Information Retrieval的分析与展望[J].景德镇高专学报,2006,21(4):15-17. 被引量：1
5刘华.文本分类C#实现[J].现代图书情报技术,2007(3):43-45.
6倪茂树,时达明,林鸿飞.基于粗糙集属性约简的文本分类[J].郑州大学学报（理学版）,2007,39(2):100-103. 被引量：7
7张桂芸,刘洋,王元元.基于模糊认知图的文本分类推理算法[J].计算机工程与应用,2007,43(12):155-158. 被引量：4
8陈晓云,王步钰,马友忠,孙辉.基于LSSWM模型的交并式动态扩展聚类算法[J].广西师范大学学报（自然科学版）,2007,25(2):135-139.
9刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
10张薇娟,张桂芸.基于模糊认知图的文本分类模型研究[J].天津科技,2007,34(4):50-52.

1赵文强.使用99盘网络硬盘与朋友共享资源[J].电子乐园,2009(18):14-17.
2孙铁利,杨凤芹.根据用户隐式反馈建立和更新用户兴趣模型[J].东北师大学报（自然科学版）,2003,35(3):99-104. 被引量：29
3丁振凡.基于Spring MVC的网络存储系统[J].计算机系统应用,2013,22(2):178-181. 被引量：6
4陈攀,杨浩,吕品,王海晖.基于LDA模型的文本相似度研究[J].计算机技术与发展,2016,26(4):82-85. 被引量：12
5郑新立,徐云青,骆昌日.LSI模型在信息检索中的应用[J].计算机技术与发展,2006,16(10):160-162. 被引量：1
6王秀娟,郑康锋.基于文档空间向量距离的查询扩展[J].计算机工程,2009,35(18):54-56. 被引量：5
7王自强,冯博琴.Web信息查询优化的遗传算法[J].控制与决策,2005,20(2):187-190. 被引量：2
8股仙.送你一个随身记事本[J].软件指南,2010(1):56-56.
9王自强,钱旭.基于流形学习和SVM的Web文档分类算法[J].计算机工程,2009,35(15):38-40. 被引量：14
10罗飞,夏天.基于小生境遗传算法的多媒体数据查询优化[J].计算机与数字工程,2007,35(6):28-31.

华南理工大学学报（自然科学版）

2004年第z1期

浏览历史

内容加载中请稍等...

一种基于潜在语义结构的文本分类模型被引量：27

参考文献7

同被引文献405

引证文献27

二级引证文献222

相关作者

相关机构

相关主题

浏览历史

一种基于潜在语义结构的文本分类模型 被引量：27

参考文献7

同被引文献405

引证文献27

二级引证文献222

相关作者

相关机构

相关主题

浏览历史

一种基于潜在语义结构的文本分类模型被引量：27