中文Web检索中聚类算法的改进被引量：9

Improvement of clustering algorithm in chinese web retrieval

下载PDF

导出

摘要对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。 Improvement of HTFC algorithm based on mixed similarity is engaged. Pre-processes to be done are： building up vector space model, computing mixed similarity according to text and hyperlink. Procedure of algorithm is： firstly choose 4 kn texts at random, agglomerative clustering is executed until the number of clusters is left k, secondly iteration is repeated until elements in the set keep stability; then show each class; lastly the feedback to result can iterate again to stabilize newly cluster. By adoption of improved k-means algorithm, performance can be enhanced. The improvement of feedback to prototype can also upgrade precision.

作者耿玉良陈家琪王咏梅

机构地区上海理工大学计算机工程学院

出处《计算机工程与设计》 CSCD 北大核心 2005年第10期2685-2687,共3页 Computer Engineering and Design

基金上海市教育委员会科研基金项目(04EB12)

关键词文本聚类算法信息检索 WEB挖掘 text clustering algorithm information retrieval web mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Ronen Feldman,Ido Dagan. KDT-Knowledge discovery in textual databases[R].Montereal:In Proceedings of the 1st Annual Conference on Knowledge Discovery and Data Mining, 1995.112-117.
2Willet P. Recent trends in hierarchical document clustering: A critical review [J]. Information Processing and Management,1988, 24(5).
3Rocchio J J.Document retrieval systems-optimization and evaluation[D].Harvard University: Ph.D.Thesis in Computer Science,1966.
4Cheeseman P, Kelly J, SelfM.AutoClass:A bayesian classification system[C]. Proceedings of the Fifth International Confe-rence on Machine Learning(ML'88), 1988.54-64.
5Hill D R. A vector clustering technique in samuelson(ed.)[M].Amsterdam:Mechanized Information Storage,Retrieval and Dissemination, 1968.
6Cutting D R,Karger D R,Pedersen J O. A cluster-based approach to rrowsing large document collections [R]. SIGIR'92, 1992.318-329.
7Berry M.W, Drmac Z,Jessup E.R.Matrices,vector spaces,and information retrieval[J].SIAM Review, 1999,41(2):335-362.
8Bjomar Larsen,Chinatsu Aone. Fast and effective text mining using linear-time document clustering[R].San Diego California:KDD'99, 1999.16-22.
9Buckles B Petal. Fuzzy clustering with genetic search[J].IEEE～FUZZ'94, 1994.

同被引文献65

1徐科,黄国景,崔志明.元搜索引擎中基于用户兴趣的个性化调度模型[J].清华大学学报（自然科学版）,2005,45(S1):1915-1919. 被引量：16
2王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
3刘艳青,田萱,苏桂莲.基于Internet的个性化信息检索技术的研究[J].计算机工程与设计,2004,25(5):772-775. 被引量：12
4万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
5许有志,沈洁,唐小燕.基于多Agent的主动数据仓库的研究[J].计算机工程与设计,2005,26(4):947-950. 被引量：8
6林川.基于UDDI和WSDL的Web服务发布方案[J].计算机工程与设计,2005,26(4):993-994. 被引量：7
7芮雄健,王忠民.UDDI的原理与实现[J].计算机工程与设计,2005,26(6):1602-1605. 被引量：23
8印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
9叶吉祥,谭冠政,路秋静.基于核的非凸数据模糊K-均值聚类研究[J].计算机工程与设计,2005,26(7):1784-1785. 被引量：7
10张延红.搜索引擎PageRank算法的改进[J].浙江万里学院学报,2005,18(4):35-37. 被引量：2

引证文献9

1程菲,汪建海,罗键.基于重复检测的多摘要消重方法[J].计算机工程与设计,2006,27(23):4521-4524. 被引量：1
2谭德坤,赵珑,吴润秀,孙辉.基于UDDI Registry的智能检索引擎的研究[J].计算机工程与设计,2007,28(4):858-861. 被引量：2
3黄建春,邹汉斌,李晓峰.基于文本聚类的映射聚类算法研究[J].计算机工程与设计,2007,28(6):1264-1266. 被引量：1
4张永,侯莉莉,周振龙.基于多Agent的智能信息检索框架[J].计算机工程与设计,2007,28(5):1137-1139. 被引量：6
5原福永,张园园.基于链接分析的相关排序方法的研究和改进[J].计算机工程与设计,2007,28(7):1630-1631. 被引量：11
6张辉,谢科,庞斌,吴辉.一种基于关键特征的搜索引擎结果聚类算法[J].北京航空航天大学学报,2007,33(6):739-742. 被引量：4
7郭建永,蔡勇,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008,29(6):1426-1428. 被引量：15
8李云鹏,熊桂喜.面向交通管理领域的分类索引算法[J].计算机工程,2009,35(20):276-277. 被引量：2
9段淮川,胡平.基于主题特征和时间因子的改进PageRank算法[J].计算机工程与设计,2010,31(4):866-868. 被引量：21

二级引证文献62

1杨格兰,涂立.基于主题相关性和链接权重的PageRank算法[J].华中科技大学学报（自然科学版）,2012,40(S1):300-303. 被引量：4
2李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
3李江华,郑剑,刘利峰.基于概念格的文档相关排序[J].情报杂志,2009,28(2):98-100. 被引量：1
4周鹏,吴华瑞,赵春江,杨宝祝,朱华吉.基于Nutch农业搜索引擎的研究与设计[J].计算机工程与设计,2009,30(3):610-612. 被引量：15
5陈超祥,丁健龙,陈友荣.智能短信就业服务平台的设计与实现[J].计算机工程,2009,35(7):191-194. 被引量：6
6张新鹤.网络信息计量学在网络学科知识地图构建中的应用[J].图书馆,2009(2):35-37. 被引量：3
7王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79. 被引量：62
8李志义,池爽.基于Agent的智能检索综述[J].情报科学,2009,27(7):1035-1039. 被引量：2
9田卉.用数据挖掘技术构建政府智能化网络投诉平台[J].办公自动化（综合月刊）,2009(9):13-14. 被引量：3
10赵亚琴,邹红艳.基于信息粒度的文本聚类算法[J].计算机工程与设计,2009,30(22):5171-5174. 被引量：2

1田振浩,邢清华,李龙跃.基于混合相似度的反导作战案例检索方法[J].装甲兵工程学院学报,2016,30(6):55-59. 被引量：5
2杨英华,魏玉龙,李召,秦树凯.基于子空间混合相似度的过程监测与故障诊断[J].仪器仪表学报,2013,34(4):935-941. 被引量：10
3郭立山,董守斌,袁华.基于站点资源的主题提取算法[J].清华大学学报（自然科学版）,2005,45(S1):1738-1742.
4滕少华,麦嘉俊,张巍,赵淦森.一种基于混合相似度的用户多兴趣推荐算法[J].江西师范大学学报（自然科学版）,2016,40(5):481-486. 被引量：3
5汤吴建.基于混合相似度的协同过滤推荐[J].软件导刊,2017,16(2):32-35.
6罗小双,杨晓元,王绪安.适用于社交网络的隐私保护兴趣度匹配方案[J].计算机应用,2016,36(12):3322-3327. 被引量：1
7魏海涛,童世明.二维图形的集合运算[J].空军预警学院学报,1999,26(2):38-42.
8张嵩,景华炯.基于Log-Gabor特征的非局部均值去噪算法及其加速方案研究[J].模式识别与人工智能,2015,28(3):266-274. 被引量：2
9程国达,邹亚会,朱静.一种自适应信息集成方法[J].计算机应用,2005,25(3):666-669. 被引量：2
10王洪江,张文强,任娜.P2P系统中的哈希索引结构的研究与应用[J].沈阳工程学院学报（自然科学版）,2008,4(2):168-170.

计算机工程与设计

2005年第10期

浏览历史

内容加载中请稍等...

中文Web检索中聚类算法的改进被引量：9

参考文献9

同被引文献65

引证文献9

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

中文Web检索中聚类算法的改进 被引量：9

参考文献9

同被引文献65

引证文献9

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

中文Web检索中聚类算法的改进被引量：9