基于句子级最大频繁单词集的Web文档聚类研究被引量：1

Research on Web Document Clustering Based on Sentential Maximum Frequent Word Sets

下载PDF

导出

摘要 Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。 Web document clustering is an important research direction in Web mining area. Frequent pattern acquired form existing mining algorithms not only hashigh dimension, but can＇t reflects semantic information expressed form document well. For gaining more precise clustering result, this paper presents a mining algorithm based on sentential maximum frequent words set to mine document characteristic items. Based on then, documents are clustered elementarily at first. Then classes are incorporated or separated according to distance between classes and join intension in class. At the end, documents clustering is achieved. Variable precision rough set model is used to compute eigenvector of each class. The experiment results indicate the algorithm presented in this paper is better than traditional document clustering algorithms.

作者路松峰陈云开袁莉

机构地区华中科技大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2007年第7期154-157,164,共5页 Computer Science

关键词 WEB文档聚类粗糙集关联规则最大频繁单词集 Web document cluster, Rough set, Association rules, Maximum frequent words set

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
2Hearst M A, Pedersen J. Reexamining the Cluster Hypothesis: Scatter/Gather on Retrieval Results. In:Proc. of the 19th Annual Int'l ACM/SIGIR Conf. Zurich, 1996. 76-84
3Willet P. Recent Trends in Hierarchic Document Clustering: A Critical Review. Information Processing and Mangement, 1988, 24(5):577-597
4Rocchio J J. Document Retrieval Systems--Optimization and Evaluation: [PhD dissertation]. Harvard University, Cambridge, MA, 1966
5Cutting D R,Pedersen J O,Karger D R, et al. Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collections In: Proc. of the 15^th Annual Int'l ACM/SIGIR Conf. Copenhagen, 1992. 318-329
6Xu Jian Suo. Wang Li. TCBLHT: A New Method of Hierarchical Text Clustering. In: Proceedings of 4^th International Conference on Machine Learning and Cybernetics, 2005. 2178-2181
7Dumais ST,Furnas GW, Landauer TK, et al. Using Latent Semantic Analysis to Improve Information Retrieval. In:Proceedings of CHI'88,1988. 281-285
8Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules in Large Databases. In:Proceedings of the 20th International Conference on Very Large Data Bases, 1994. 487-499
9Antonie M, Zaiane O R. Text Document Categorization by Term Association. In:Proc. of IEEE Intl. Conf. on Data Mining,2002, 19-26
10Meretakis D, Fragoudis D, Lu Hongjun, et al. Scalable Association-based Text Classification. In:Proe. of the 2000 ACM CIKM International Conference on Information and Knowledge Management 2000,6-11

二级参考文献2

1宋擒豹,沈钧毅.基于关联规则的Web文档聚类算法[J].软件学报,2002,13(3):417-423. 被引量：41
2钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86

共引文献25

1郑晓鸣,吕士颖,王晓东.一种基于随机抽取的有限深度层次聚类[J].郑州大学学报（理学版）,2007,39(3):80-83.
2李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
3董献洲,司光亚,胡晓峰,吴琳.战略模拟情报分析与信息可视化服务研究[J].系统仿真学报,2005,17(11):2815-2817. 被引量：4
4段敏,张锡恩.基于仿真的通用模拟电路故障知识获取平台[J].计算机工程与设计,2006,27(1):129-131. 被引量：14
5段敏,张锡恩.基于仿真的模拟电路故障知识获取新方法[J].系统仿真学报,2006,18(3):802-804. 被引量：7
6邹加棋,陈国龙,郭文忠.基于图模型的中文文档分类研究[J].小型微型计算机系统,2006,27(4):754-757. 被引量：3
7倪永州,田跃.一种快速模板匹配的波形识别算法[J].传感器世界,2006,12(4):32-34. 被引量：8
8胡爱钦,文益民,陈方.一种等分割聚类算法的改进[J].计算技术与自动化,2006,25(2):75-77.
9蔡江辉,张继福,赵旭俊.二阶段模糊聚类方法研究[J].哈尔滨工程大学学报,2006,27(B07):552-557.
10林恩爱,许宏丽.改进CLIMB聚类算法在图象数据库中的应用研究[J].计算机与数字工程,2006,34(10):154-156.

同被引文献7

1叶吉祥,谭冠政,路秋静.基于核的非凸数据模糊K-均值聚类研究[J].计算机工程与设计,2005,26(7):1784-1785. 被引量：7
2罗可,张学茂.一种高效的频集挖掘算法[J].长沙理工大学学报（自然科学版）,2006,3(3):84-90. 被引量：2
3许磊,张凤鸣.基于PSO的模糊聚类算法[J].计算机工程与设计,2006,27(21):4128-4129. 被引量：17
4龙海侠,须文波,孙俊.基于QPSO的数据聚类[J].计算机应用研究,2006,23(12):40-42. 被引量：14
5刘晓峰,陈通.PSO算法的收敛性及参数选择研究[J].计算机工程与应用,2007,43(9):14-17. 被引量：23
6苏晋荣,李兵义,王晓凯.一种利用种群平均信息的粒子群优化算法[J].计算机工程与应用,2007,43(10):58-59. 被引量：18
7陈琳,何嘉.基于模糊聚类的粒子群优化算法[J].西南民族大学学报（自然科学版）,2007,33(4):739-742. 被引量：5

引证文献1

1叶吉祥,林泉.基于粒子群算法的文档模糊均值聚类分析[J].计算机工程与设计,2009,30(6):1446-1448. 被引量：2

二级引证文献2

1高劲松,张俊丽.基于粒子群的模糊C均值文本聚类算法研究[J].图书情报工作,2010,54(6):57-60. 被引量：2
2符保龙.基于混沌振荡粒子群优化的FCM文本聚类方法[J].河池学院学报,2015,35(2):74-78.

1田萱,孟祥光,刘希玉,孟强.基于BP神经网络的文档特征表示研究[J].情报学报,2003,22(1):22-26. 被引量：4
2谷雨.基于可变精度粗糙集的决策规则格构造[J].微电子学与计算机,2005,22(4):174-176. 被引量：1
3徐择峰,陈世鸿.一种统一的文本与图像分类算法[J].武汉大学学报（理学版）,2004,50(1):79-82. 被引量：6
4张晶.基于可变精度粗糙集的相关反馈人脸识别方法[J].山西财经大学学报,2008,30(S1):202-203.
5吴欣远,林建辉.基于粗糙集约简并加权的SVM分类算法[J].微型机与应用,2014,33(20):55-57.
6原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
7刘玉明.浅谈搜索引擎优化的影响因素[J].科教导刊（电子版）,2013(17):143-143.
8洪雪飞,徐维祥.基于变精度粗糙集的决策树改进方法[J].计算机工程与应用,2009,45(13):163-165. 被引量：6
9赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
10杨占华,杨燕.一种基于SOM和K-means的文档聚类算法[J].计算机应用研究,2006,23(5):73-74. 被引量：16

计算机科学

2007年第7期

浏览历史

内容加载中请稍等...

基于句子级最大频繁单词集的Web文档聚类研究被引量：1

参考文献15

二级参考文献2

共引文献25

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于句子级最大频繁单词集的Web文档聚类研究 被引量：1

参考文献15

二级参考文献2

共引文献25

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于句子级最大频繁单词集的Web文档聚类研究被引量：1