潜在语义索引在文本分类中的应用被引量：3

Application of latent semantic indexing to the research of text classification

下载PDF

导出

摘要传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。 Because traditional text classification is based on explicit character, and the common method is to represent textual materials with space vectors using vector space model, then confirm the category of the test documents by comparing the degree of similarity. In order to overcome the hypothesis of term independence in VSM, the text classification based on latent semantic indexing was proposed. It extracts the contextual-usage meaning of words by statistical computations applied to a large corpus of text and can advance the accuracy of text classification by using a singular value decomposition （SVD） to effectively reduce the dimension of the vector space and remove the influences of synonymy and polysemy.

作者伍建军康耀红

机构地区海南大学信息科学技术学院

出处《电脑与信息技术》 2006年第5期32-34,38,共4页 Computer and Information Technology

关键词潜在语义索引文本分类奇异值分解 latent semantic indexing （LSI） text classification singular value decomposition

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Deerwester S, Dumais S T A. Indexing by Latent Semantic Analysis[J]. Journal of the Society for Information Science,1990,41 (6) :391-407.
2Landaurer T K, Foltz P W. Introduction to Latent Semantic Analysis[C]. Discourse Process,1998(25):259-284.
3Wang Ming-wen,Nie Jian-Yun.A Latent Semantic Structure Model for Text Classification[A]. Workshop on Mathematioral/Formal methods in information retfieval,26th ACM-SIGIR[C] ,2003.
4刘贵龙,王慧玲,宋柔.矩阵的奇异值分解在文本分类研究中的应用[J].计算机工程,2002,28(12):17-18. 被引量：14
5林鸿飞,姚天顺.基于潜在语义索引的文本浏览机制[J].中文信息学报,2000,14(5):49-56. 被引量：29

二级参考文献6

1[1]Berry M W,Dumais S T.Using Linear Algebra for Intelligent Information Retrieval. SIAM Review, 1995,37(4):573 -595
2Yang Y，Proceedingsofthe 14thInternationalConferenceonMachineLearning，1997年
3吴立德，大规模中文文本处理，1997年
4姚天顺，自然语言理解，1995年
5林鸿飞,战学刚,姚天顺.文本层次分析与文本浏览[J].中文信息学报,1999,13(4):7-15. 被引量：12
6林鸿飞,战学刚,姚天顺.基于概念的文本结构分析方法[J].计算机研究与发展,2000,37(3):324-328. 被引量：35

共引文献41

1朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004,23(7):2-5. 被引量：16
2郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
3赵晶,林鸿飞,卢冶.可视化文本分类树浏览机制[J].小型微型计算机系统,2006,27(3):524-528. 被引量：1
4刘磊.基于潜在语义分析的JAVA类库检索方法[J].电脑开发与应用,2006,19(3):43-44.
5李莉,张太红,李霞.潜在语义分析在中文文本分类中的应用[J].新疆农业大学学报,2006,29(2):99-102. 被引量：2
6秦春秀,刘怀亮,赵捧未.一种基于本体论和潜在语义索引的文本语义处理方法[J].现代图书情报技术,2006(9):34-37.
7徐晓琳,熊建萍.基于隐含语义的馆藏资源检索研究[J].情报杂志,2006,25(10):66-67.
8陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].电脑开发与应用,2006,19(12):27-29.
9林鸿飞,杨志豪,赵晶.基于段落匹配和分布密度的偏重摘要实现机制[J].中文信息学报,2007,21(1):43-48. 被引量：1
10陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].情报杂志,2007,26(5):34-36. 被引量：3

同被引文献17

1石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
2SC Deerwester,ST Dumais,TK Landauer,et al.Indexing by Latent Semantic Analysis[].Journal of the American Society for Information Science.1990
3Letsche T A,Berry M W.Large-scale information retrieval with latent semantic indexing[].Journal of Information Science.1997
4Tirunillai S,Tellis G.Mining Marketing Meaning from Chatter:Strategic Brand Analysis of Big Data Using Latent Dirichlet Allocation[J].Journal of Marketing Research,2014,51(4):463-479.
5Duan Jiangjiao,Zeng Jianping.Web Objectionable Text Content Detection Using Topic Modeling Technique[J].Expert Systems with Applications,2013,40(15):6094-6104.
6Wiebe J,Wilson T,Cardie C.Annotating Expressions of Opinions and Emotions in Language[J].Language Resources and Evaluation,2005,39(2/3):164-210.
7Deerwesler S,Dumais S T A.Indexing by Latent Semantic Analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.
8Ekman P,Friesen W V.The Repertoire of Nonverbal Behavior:Categories,Origins,Usage,and Coding[J].Semiotica,1969,1(1):49-98.
9Brown G W,Cliff M T.Investor Sentiment and the Nearterm Stock Market[J].Journal of Empirical Finance,2004,11(1):1-27.
10Liu Huan,Yu Lei.Toward Integrating Feature Selection Algorithms for Classification and Clustering[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(5):491-502.

引证文献3

1黄章益,刘怀亮.一种基于语义的中文文本特征降维技术研究[J].情报杂志,2011,30(S2):123-125. 被引量：2
2罗邦慧,曾剑平,段江娇,吴承荣.基于情感模型的文本意见分类方法[J].计算机工程,2015,41(5):175-179. 被引量：4
3刘荣叁,张宇,王星.面向新浪微博的信息溯源技术研究[J].智能计算机与应用,2017,7(2):94-98. 被引量：4

二级引证文献10

1杨峰.面向高维信息可视化的顺序映射降维方法[J].情报理论与实践,2014,37(5):83-86.
2罗衎,王春峰,房振明.投资者情绪影响下资本资产定价的区制性研究——基于股票论坛发帖的情感分析[J].运筹与管理,2017,26(10):129-136. 被引量：2
3任静,刘立波.基于NMF的Web评论情感分类方法研究[J].电脑知识与技术,2016,12(6X):167-170.
4任聪,李石君.面向网络新闻领域的评论情感极性分析[J].计算机工程与应用,2017,53(1):77-82. 被引量：7
5王宁,贾志娟.基于复杂网络的微博传播溯源方法[J].计算机技术与发展,2019,29(12):81-86.
6杨潇,陈秀真,马进,梁浩喆,李生红.基于用户兴趣的微博溯源算法[J].网络与信息安全学报,2020,6(6):164-173. 被引量：1
7田烨.面向SELL语料库的AI虚拟英语教育训练系统研究[J].微型电脑应用,2020,36(12):42-44. 被引量：1
8阎庚耀.APP信息传播溯源技术的应用与实验分析[J].科学技术创新,2022(17):73-76.
9曾子明,江新林.突发公共卫生事件中基于区块链的网络舆情溯源体系研究[J].现代情报,2023,43(6):149-157. 被引量：2
10Zijiang Zhu,Junshan Li,Xiaoguang Deng,Yi Hu.An Improved Three-Dimensional Model for Emotion Based on Fuzzy Theory[J].Journal of Computer and Communications,2018,6(8):101-111.

1吕泽华,梁虎,唐赫,王光伟.目标跟踪研究综述[J].计算机工程与科学,2012,34(10):92-97. 被引量：11
2苏应强.面向对象数据库与关系数据库的比较研究[J].软件导刊,2011,10(9):153-155. 被引量：1
3谢长生,王宇德,曹强.进化存储系统的研究[J].计算机工程,2004,30(22):59-61.
4张臻.你准备烧到什么程度？[J].微型计算机,2016,0(9):46-53.
5中文信息检索利器——TRS 4内容服务器[J].中国计算机用户,2000(42):74-74.
6张广佰.文海捞针,你有招吗?[J].中国经济和信息化,1999,0(30):52-52.
7曹国锋.“微课”时代,语文教学走向何方?[J].初中生世界（初中教学研究）,2015,0(6):8-12. 被引量：1
8裴可锋,陈永洲,马静.基于DTPM模型的话题热度预测方法[J].情报杂志,2016,35(12):52-57. 被引量：10
9葛君伟,张鹏,方义秋.结合扇入分析和聚类分析的Aspect挖掘方法[J].计算机应用研究,2009,26(11):4128-4132.
10吴玉环,曾国荪.基于指代冗余的矩阵编码文本水印算法[J].通信技术,2014,47(7):800-806.

电脑与信息技术

2006年第5期

浏览历史

内容加载中请稍等...

潜在语义索引在文本分类中的应用被引量：3

参考文献5

二级参考文献6

共引文献41

同被引文献17

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

潜在语义索引在文本分类中的应用 被引量：3

参考文献5

二级参考文献6

共引文献41

同被引文献17

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

潜在语义索引在文本分类中的应用被引量：3