基于文本聚类的LSI文本分类模型被引量：1

The Model of Text Categorization Based on Latent Semantic Indexing

下载PDF

导出

摘要文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性. Text categorization（TC）,the foundation of text mining,can be used in information retrieval and web data mining.Before text categorization the text should be converted to a model that can be processed in computer at first.A new algorithm that combines latent semantic indexing（LSI） and text clustering is given.Through the experiment this algorithm is fouhe effective.

作者邱志宇安艳辉

机构地区河北师范大学数学与信息科学学院河北省工业和信息化厅

出处《河北师范大学学报（自然科学版）》 CAS 北大核心 2012年第1期24-26,83,共4页 Journal of Hebei Normal University：Natural Science

基金河北省自然科学基金(602127)

关键词文本分类隐含语义检索文本聚类 text categorization latent semantic indexing text clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1SCOTT D,SUSAN T D, GEORGE W F, et al. Indexing by Latent Semantic Analysis [J ]. Journal of the American Society for Information Science, 1990,41 (6) :391-407.
2FOLTZ P W, DUMAIS S. Personalized Information Delivery:An Analysis of Information Filtering Methods [J]. Communications of the Association for Computing Machinery, 1992,35 ( 12 ) : 51-60.
3何伟.LSI潜在语义信息检索模型[J].数学的实践与认识,2003,33(9):1-10. 被引量：9

二级参考文献7

1Golub G, Loan V Van. Matrix Computations[M]. 3rd ed. The Johns Hopkins University Press, Baltimore, MD,1996.
2Mirsky L. Symmetric gage functions and unitarilly invariant norm[J]. Q J Math, 1960,11:50-59.
3Michael Berry, Jack Dongarra. Atlanta organizers put mathematics to work for the math sciences community[J].SIAM News, 1999,32 : 10-11.
4Scott Deerwester, Susan T Dumais, George W Furnas, Thomas K Landauer, Richard harshman. Indexing by latent semantic analysis[J]. J of the Amer Soc for Inform Sci, 1990,41:391-407.
5Dumais S T. Improving the retrieval of information from external sources[J]. Behavior Res Meth & Comp, 1991,23:229-236.
6Salton G, Buckley C. Improving retrieval performance by relevance feedback[J]. J Amer Soc for Inform Sci, 1990,41:288-297.
7Michael W Berry, Zlatko Drmac, Elizabeth R Jessup. Matrices, vector spaces, and information retrieval[J].SIAM Rev, 1999,41:335-362.

共引文献8

1毕砚昭,张捷,汪浩文,赵歌,王苗苗.可视化技术在媒介丰富性研究中的应用[J].系统仿真技术,2020(3):166-170.
2焦玉英,刘伟成,孙吉红.基于向量空间模型的专题文献过滤算法研究[J].情报学报,2005,24(5):562-566. 被引量：3
3李新福.组合降维技术在中文网页分类中的应用[J].计算机工程与应用,2007,43(24):169-171. 被引量：3
4李华云.F范数及矩阵分解实例研究[J].现代情报,2008,28(10):223-225. 被引量：2
5江开忠,李路,王昭宗.基于语料库的潜语义信息度量[J].计算机应用,2009,29(9):2450-2453.
6谭学清,蔡军,罗琳.基于改进的LSI标签语义检索书目系统[J].图书馆学研究,2014(11):67-72. 被引量：1
7张世博,刘博爱,柳朝阳,张宝全.基于潜在语义分析的文档检索设计方法[J].北京石油化工学院学报,2015,23(2):37-42. 被引量：4
8张颖,沈辰楠,杜秀兰,阎晓强.基于企业知识库的智能问答技术与应用[J].电子技术与软件工程,2021(5):206-208. 被引量：1

同被引文献5

1肖伟,赵嵩正.虚拟团队沟通行为分析与媒体选择策略[J].科研管理,2005,26(6):56-60. 被引量：14
2杨振华,施琴芬.高校科研团队沟通网络的媒体适应性与隐性知识传播[J].科技进步与对策,2007,24(11):115-117. 被引量：9
3丁君风,姜进章,伍凌燕.FTF和CMC的沟通满意度、沟通效率与个体主义和群体主义价值观相关性分析[J].学海,2013(1):103-112. 被引量：4
4樊帅,田志龙,胡小青.心理所有权视角下消费者参与虚拟CSR共创的影响研究[J].管理学报,2017,14(3):414-424. 被引量：23
5何伟.LSI潜在语义信息检索模型[J].数学的实践与认识,2003,33(9):1-10. 被引量：9

引证文献1

1毕砚昭,张捷,汪浩文,赵歌,王苗苗.可视化技术在媒介丰富性研究中的应用[J].系统仿真技术,2020(3):166-170.

1周文,龚礼明,蒋岚.隐含语义检索及中文样本分析实例[J].计算机应用,2004,24(S1):273-276. 被引量：5
2王春红.基于语义的中文信息检索技术分析与研究[J].现代计算机,2008,14(10):54-56.
3苏亮,聂峰光,郭力,李晓霞,梁春燕.隐含语义检索系统词条权重的处理[J].计算机与应用化学,2005,22(11):972-976. 被引量：4
4张玉连,张敏,张波.一种扩展的向量空间模型-隐含语义索引模型研究[J].燕山大学学报,2006,30(1):87-90.
5杨震,邓贵仕.基于隐含语义的个性化信息检索[J].计算机工程与设计,2003,24(7):90-93. 被引量：3
6梁春燕,夏诏杰,郭力.面向化学领域网络资源的文本自动分类算法[J].华南理工大学学报（自然科学版）,2004,32(z1):52-57. 被引量：1
7王天江,叶卫国,卢正鼎,李永平.LSI和kNN相结合的文本分类模型研究[J].华中科技大学学报（自然科学版）,2004,32(4):59-60. 被引量：3
8王栋,吴军华.基于LSI和词典的文本语义相似度算法[J].煤炭技术,2010,29(12):217-218. 被引量：1
9魏保子,王儒敬.隐含语义索引在农业技术问答系统中的应用[J].微电子学与计算机,2008,25(7):48-51. 被引量：1
10侯泽民,巨筱.一种改进的基于潜在语义索引的文本聚类算法[J].计算机与现代化,2014(7):24-27. 被引量：3

河北师范大学学报（自然科学版）

2012年第1期

浏览历史

内容加载中请稍等...

基于文本聚类的LSI文本分类模型被引量：1

参考文献3

二级参考文献7

共引文献8

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本聚类的LSI文本分类模型 被引量：1

参考文献3

二级参考文献7

共引文献8

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本聚类的LSI文本分类模型被引量：1