一种基于主题的Web文本聚类算法被引量：2

A Clustering Algorithm for Web Document Based on Theme

下载PDF

导出

摘要设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每个主题词向量归类到其应属的词类,再将同属于一个词类的主题词向量对应的文本归并到用对应词类的名字代表的类,从而达到聚类的目的.算法分四个步骤:预处理、建立主题向量、生成词聚类和主题聚类.同时,对HTBC与STC、AHC、KMC算法从聚类的准确率和召回率上做了比较,实验结果表明,HTBC算法的准确率较STC、AHC和KMC算法要好. A clustering method-HTBC was devised based on theme.It extracts the Keywords according to the title and the main body of the document,trains the text sets to generate the word clustering,classifies each keyword to responding word cluster,combines the same thesis attribute to word cluster and finally realizes clustering.There are four steps for HTBC such as pretreatment,constructing the theme vector,generating the word cluster and theme clustering.The experimental data indicate HTBC are better than K-Means,AHC and STC in terms of accuracy and recall ratio after comparision.

作者袁晓峰

机构地区盐城师范学院信息科学与技术学院

出处《成都大学学报（自然科学版）》 2010年第3期249-252,共4页 Journal of Chengdu University（Natural Science Edition）

关键词 HTBC算法 WEB文本聚类主题搜索引擎互信息 HTBC Web document clustering theme search engine mutual information

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
2Yanjun Li.Text Document Clustering Based on Frequent Word Meaning Sequences[J].Data and Knowledge Engineering,2008,64(1):381-404.
3ZAMIR O E.Clustering Web Documents:A Phrase-Based Method for Grouping Search Engine Results[D].Washington DC:Unioversity of Washinton,1999.
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
5Xu D X.Energy,Entropy and Information Poterntial for Neural Coputation[D].Florida:Universtiy of Florida,1999.
6韩客松,王永成,沈洲,吴芳芳.三个层面的中文文本主题自动提取研究[J].中文信息学报,2001,15(4):20-27. 被引量：13
7Yang Z R,Zwolinski Z.Mutual Information Theory for Adaptive Mixture Models[J].IEEE Transactions on Pattern Analaysis and Machine Intelllgence,2001,23(4):26-32.
8代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228

二级参考文献41

1唐振民,靳从,杨静宇,李远复.一种用于自动标引系统的主题词自动切分方法[J].南京理工大学学报,1995,19(5):401-404. 被引量：2
2牛凯.中文科技文献计算机自动标引系统的研究[J].情报学报,1995,14(1):16-26. 被引量：2
3靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量：3
4黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
5唐振民，南京理工大学学报，1995年，19卷，5期，401页
6Apte C, Damerau F J, and Weiss S M. Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 1994, 12:233- 251.
7Yang Yiming, and Pedersen J O. A comparative study on feature selection in text categorization. In- Proceedings of the 14^th International Conference on Machine Learning (ICML-97), 1997. 412 - 420.
8Hwee Tou Ng, Wei Boon Goh, and Kok Leong Low. Feature selection, perceptron learning, and a usability case study for text categorization. In: Proceedings of the 20^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-97), 1997. 67 - 73.
9Schutze H, Hull D A, and Pedersen J O. A comparison of classifiers and document representations for the routing problem. In: Proceedings of the 18^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-95). 1995. 229 - 237.
10Li Y H, and Jain A K. Classification of text document. The Computer Journal, 1998, 41(8) :537 - 546.

共引文献316

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
4张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
5张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
6况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
9刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
10陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2

同被引文献18

1赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：24
2赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量：7
3杨彩莲,谢福鼎.基于主题概念聚类的中文文本聚类[J].现代电子技术,2007,30(22):161-163. 被引量：3
4LI Y. Text document clustering based on frequent word meaning sequences [J]. Data and Knowledge Engineering, 2008, 64(1):381-404.
5YI B, WANG Y, CHEN X, et al. Extracting hot topics from microblogging based on keywords detection and text clustering[J]. Applied Mechanics and Materials, 2013, 303-306:2289-2293.
6LI X. A new text clustering algorithm based on improved k_means[J]. Journal of Software, 2012, 7(1):95-101.
7GUPTA N, SAXENA P C, GUPTA J P. Automatic generation of initial value k to apply K-means method for text documents clustering [J]. International Journal of Data Mining, Modelling and Management, 2011, 3(1):18-41.
8ZHENG Y, SHU J, CHUN L, et al. A text hybrid clustering algorithm based on HowNet semantics [J]. Key Engineering Materials, 2011, 474-476:2071-2078.
9KWALE F M. A critical review of k means text clustering algorithm[J]. International Journal of Advanced Research in Computer Science, 2013, 4(9):27-34.
10黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27. 被引量：36

引证文献2

1张万山,肖瑶,梁俊杰,余敦辉.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3144-3146. 被引量：4
2高松,董志成,冯志伟.基于主题集中度的新闻文本聚类研究[J].外语电化教学,2024(5):29-34.

二级引证文献4

1姚瑶,张慧.基于ART1用户聚类的Web预取模型研究[J].计算机技术与发展,2015,25(9):106-110.
2柯钢.基于增强蜂群优化与K-means的文本聚类算法[J].计算机应用研究,2016,33(8):2298-2302. 被引量：8
3郭肇毅.文本主题提取及相似度计算系统研究与开发[J].现代信息科技,2017,1(4):20-22.
4高松,董志成,冯志伟.基于主题集中度的新闻文本聚类研究[J].外语电化教学,2024(5):29-34.

1陈宇,王强.聚类算法在Web文本挖掘中的应用研究[J].中国电子商情（通信市场）,2009(2):62-68.
2李建忠.Web网页聚类系统研究与设计[J].韩山师范学院学报,2008,29(6):27-30.
3张万山,肖瑶,梁俊杰,余敦辉.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3144-3146. 被引量：4
4傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5
5贾丙静,吴长勤,葛华.Web文本聚类的研究与实现[J].长春师范学院学报（自然科学版）,2011,30(3):26-29. 被引量：2
6贾丙静,王传安,王亚军,吴长勤.基于属性重要性的Web文本聚类研究[J].重庆文理学院学报（自然科学版）,2011,30(3):49-51.
7李云,田素方,李拓,徐涛.基于概念格的Web文本聚类[J].计算机工程与应用,2008,44(23):169-171. 被引量：3
8王卫玲,刘培玉,刘克非.一种用于Web文本聚类的特征选择方法[J].计算机应用与软件,2007,24(1):154-156. 被引量：2
9叶宇飞,安世全,代劲.一种新的Web中文文本聚类方法研究[J].计算机应用与软件,2013,30(12):222-225. 被引量：3
10杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1

成都大学学报（自然科学版）

2010年第3期

浏览历史

内容加载中请稍等...

一种基于主题的Web文本聚类算法被引量：2

参考文献8

二级参考文献41

共引文献316

同被引文献18

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于主题的Web文本聚类算法 被引量：2

参考文献8

二级参考文献41

共引文献316

同被引文献18

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于主题的Web文本聚类算法被引量：2