TCBLSA:一种中文文本聚类新方法被引量：15

TCBLSA:A New Method of Chinese Text Clustering

下载PDF

导出

摘要根据隐含语义分析（LSA）理论，提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型，在词条的权重中引入了语义关系，消减了原词条矩阵中包含的“噪声”因素，从而更加突出了词和文本之间的语义关系。通过奇异值分解（SVD），有效地降低了向量空间的维数，从而提高了文本聚类的精度和速度。 This paper presents a new method of text clustering by latent semantic analysis. This method establishes vector space model of term weight by the theory of latent semantic analysis, and eliminates disadvantageous factors. This method decreases the number of vector, and advances the speed and precision of text clustering.

作者王国勇徐建锁

机构地区天津大学系统工程研究所

出处《计算机工程》 CAS CSCD 北大核心 2004年第5期21-22,37,共3页 Computer Engineering

基金国家自然科学基金资助项目(60275020)

关键词文本聚类隐含语义分析奇异值分解向量空间模型 Text clustering Latent semantic analysis Singular value decomposition Vector space model

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2002,16(3):8-14. 被引量：75
2姜宁,史忠植.文本聚类中的贝叶斯后验模型选择方法[J].计算机研究与发展,2002,39(5):580-587. 被引量：21

二级参考文献19

1黄萱菁.大规模中文文本的检索、分类与摘要研究.复旦大学博士学位论文[M].,1998..
2[1]H H Bock.Probabilistic models in cluster analysis.Computational Statistics & Data Analysis,1996,23:5～28
3[2]Chris Fraley,Adrian E Raftery.Model-based clustering,discriminate analysis,and density estimation.Department of Statistics,University of Washington,Tech Rep:380,2000
4[3]Petri T Kontkanen,Petri J Myllymaki,Henry R Tirri.Comparing Bayesian model class selection criteria by discrete finite mixtures.In:D L Dowl,K B Korb,J J Oliver eds.Information,Statistics and Induction in Science (Proc of the ISIS'96 Conf in Melbourne.Australia,1996).Singapore:World Scientific,1996.364～374
5[4]An Introduction to Cluster Analysis for Data Mining.http://www.cs.umn.edu/classes/Spring-2000/csci5980-dm/cluster-survey.pdf
6[5]高等数理统计.超星数字图书馆.http://www.ssreader.com.cn.442～444(Advanced Mathematical Statistics (in Chinese),Superstar Digital Library.http://www.ssreader.com.cn.442～444)
7[6]Jeff A Bilmes.A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models.Computer Science Division Department of Electrical Engineering and Computer Science,U C Berkeley,Tech Rep:TR-97-021,1998
8[7]R E Kass,A E Raftery.Bayesian factors and model uncertainly.Department of Statistics,Carnegie-Mellon University,Tech Rep:571,1993
9[8]I J Good.Weight of evidence:A brief survey.In:J M Bernade ed.Bayesian Statistics 2.New York:Elsevier,1985.249～269
10[9]贝叶斯统计推断.超星数字图书馆.http://www.ssreader.com.cn(Bayesian Inferential Statistics (in Chinese).Superstar Digital Library.http://www.ssreader.com.cn)

共引文献91

1高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
2吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
3况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
4胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
5徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
6李嘉佑,何清,史忠植.机器学习与网络信息处理[J].计算机工程与应用,2004,40(33):189-191. 被引量：3
7徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
8丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量：14
9万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
10寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25

同被引文献86

1孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
2林春燕,朱东华.一种快速的文本聚类-分类法[J].计算机工程与科学,2004,26(7):74-76. 被引量：2
3周宁,杨峰.信息可视化系统的RDV模型研究[J].情报学报,2004,23(5):619-624. 被引量：22
4徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
5陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
6汤晓兵,贾智平.基于特征事务元素的用户事务聚类方法研究[J].微电子学与计算机,2005,22(2):85-87. 被引量：4
7李向军,徐国华,刘立平.一种文本聚类算法[J].西北大学学报（自然科学版）,2005,35(2):155-158. 被引量：3
8包学超,孙强,李生红.隐性语义的SVM文本分类模型[J].信息安全与通信保密,2005,27(5):29-31. 被引量：5
9孟爱国,卜胜贤,李鹰,甘文.一种网络考试系统中主观题自动评分的算法设计与实现[J].计算机与数字工程,2005,33(7):147-150. 被引量：46
10潘玉奇,周劲,杨秀丽,袁宁.基于模糊聚类分析的数据检索的应用[J].微电子学与计算机,2005,22(6):167-169. 被引量：11

引证文献15

1孙祖和.企业应做好员工职业生涯规划[J].人才资源开发,2005(6):58-58.
2杨峰,周宁,吴佳鑫.基于信息可视化技术的文本聚类方法研究[J].情报学报,2005,24(6):679-683. 被引量：18
3陈明晶,姚建荣,唐志豪.电子商务系统的商品搜索算法研究[J].计算机工程与应用,2006,42(3):209-211. 被引量：5
4陈明晶,姚建荣,唐志豪.一种改进的电子商务系统商品搜索算法[J].计算机工程,2006,32(8):219-220.
5朱烨行,戴冠中,李晓宇,慕德俊.一种文本聚类方法及BBS浏览机制研究[J].微电子学与计算机,2006,23(8):55-56. 被引量：3
6陈明晶.潜在语义分析方法在主观题评判中的应用[J].浙江科技学院学报,2007,19(2):93-96. 被引量：2
7向永生,赵志伟.基于动态文本聚类方法的BBS浏览机制研究[J].湖南工程学院学报（自然科学版）,2008,18(2):64-67.
8赵亚琴,邹红艳.基于信息粒度的文本聚类算法[J].计算机工程与设计,2009,30(22):5171-5174. 被引量：2
9唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010,36(7):79-81. 被引量：14
10马世霞,刘丹,贾世杰.基于蚁群算法的文本聚类算法[J].计算机工程,2010,36(8):206-207. 被引量：5

二级引证文献59

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120. 被引量：7
3唐超.GIS:文献信息可视化的新理念和工具——以竞争情报领域知识地图构建为例[J].情报理论与实践,2007,30(5):593-596. 被引量：9
4孙爱香,杨鑫华.关于文本聚类有效性评价的研究[J].山东理工大学学报（自然科学版）,2007,21(5):65-68. 被引量：5
5王素格,李伟.面向中日关系论坛的情感分类问题研究[J].计算机工程与应用,2007,43(32):174-177. 被引量：4
6刘玮,周宁,马莹珺.信息可视化在音频管理领域的应用——语音信息可视化研究[J].现代图书情报技术,2008(7):33-37. 被引量：4
7康宇航,苏敬勤.基于共词分析的技术跟踪可视化研究—以公路工程领域为例[J].情报学报,2008,27(4):566-571. 被引量：2
8朱伯尘,崔晓燕.基于模糊集的术语搜索方法研究[J].科技创新导报,2008,5(33):233-234.
9史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
10陈智斌,彭平,陈宇亮.基于可拓策略生成技术的商品搜索服务改进研究[J].数学的实践与认识,2009,39(4):160-167. 被引量：3

1王国勇,徐建锁.一种基于LSA和Kohonen网络的文本分类新方法[J].计算机应用,2004,24(2):53-55. 被引量：2
2徐晨凯,高茂庭.使用LSA降维的改进ART2神经网络文本聚类[J].计算机工程与应用,2014,50(24):133-138. 被引量：4
3李琳娜,江雪琴.推荐系统中的隐语义模型研究[J].情报工程,2016,2(4):30-39. 被引量：6
4刘凤林,胡雪蕾.二项矩阵分解在离散评分推荐算法中的改进[J].计算机应用与软件,2016,33(1):81-84. 被引量：1
5金恬,宋彦,戴礼荣.一种改进的PRSVM语种识别方法[J].小型微型计算机系统,2011,32(5):1017-1020. 被引量：2
6马雯雯,魏文晗,邓一贵.基于隐含语义分析的微博话题发现方法[J].计算机工程与应用,2014,50(1):96-100. 被引量：36
7孙艳,朱玉全,陈耿.基于隐语义模型的协同过滤图书推荐方法[J].信息技术,2015,39(11):41-44. 被引量：2
8任艳.微信息大数据粗糙集的近似约简[J].沈阳工业大学学报,2016,38(3):309-313. 被引量：4
9武高敏,张宇晨,韩京宇.基于隐含语义分析的在线新闻话题发现方法[J].计算机技术与发展,2016,26(9):1-7. 被引量：1
10潘渊,李弼程,张先飞.LS-SVM:一种有效的新闻主题追踪方法[J].计算机应用研究,2008,25(9):2661-2663. 被引量：3

计算机工程

2004年第5期

浏览历史

内容加载中请稍等...

TCBLSA:一种中文文本聚类新方法被引量：15

参考文献2

二级参考文献19

共引文献91

同被引文献86

引证文献15

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

TCBLSA:一种中文文本聚类新方法 被引量：15

参考文献2

二级参考文献19

共引文献91

同被引文献86

引证文献15

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

TCBLSA:一种中文文本聚类新方法被引量：15