基于样本加权的文本聚类算法研究被引量：10

Document Clustering Algorithm Based on Sample Weighting

下载PDF

导出

摘要样本加权聚类算法是一种最近才引起人们注意的算法，还存在一些需要解决的问题，例如，聚类对象之间的结构信息对样本加权聚类是否有帮助，如何将结构信息自动转换为样本或对象的权重？针对该问题，本文以学术论文为聚类对象，以K-Means算法为聚类算法基础，利用论文之间的引用关系计算每篇论文的PageRank值，并将其作为权重，提出一种基于样本加权的新的文本聚类算法。实验结果表明，基于论文PageRank值加权的聚类算法能改善文本聚类效果。该算法可推广到网页的聚类中，利用网页的PageRank进行加权聚类，来改善网页的聚类效果。 Sample weighting clustering algorithm has been noticed only recently. There are some unsolved problems, for example, whether the structure information among the clustering objects is helpful to sample weighting clustering？ How to transform structure information into the weight of samples or not？ To solve these problems, a novel sample weighting clustering algorithm is presented based on K-Means algorithm. The algorithm uses academic documents as the clustering objects. The PageRank value of each document is calculated according to the cited relationship among them, and it is used as the weight in the algorithm. Experiments show that the proposed algorithm is an effective solution to improve the performance of document clustering, and it can be extended to Web pages clustering based on PageRank value of each Web page.

作者章成志师庆辉薛德军

机构地区南京大学信息管理系中国学术期刊光盘版电子杂志社

出处《情报学报》 CSSCI 北大核心 2008年第1期42-48,共7页 Journal of the China Society for Scientific and Technical Information

基金本研究受“十一五”国家科技支撑计划重点项目（2006BAH03804）子课题“科技热点动态监测技术研究与应用”、2006年江苏省研究生培养创新工程项目资助.

关键词文本聚类样本加权聚类 PAGERANK 被引频次 document clustering, sample weighted clustering, PageRank, citied frequency

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] O178 [理学—基础数学]

引文网络
相关文献

参考文献16

1Hatzivassiloglou V,Klavans J L,Holcombe M L,et al.Simfinder:A flexible clustering tool for summarization[C]∥Proceedings of the NAACL 2001 Workshop on Automatic Summarization,2001:41-49.
2Cutting D R,Karger D R,Pedersen J O,Tukey J W.Scatter/Gather:A cluster-based approach to browsing large document collections[C]∥Proceedings of the 15th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'92),1992:318-329.
3Hearst M,Pedersen P.Reexamining the cluster hypothesis:Scatter/gather on retrieval results[C]∥Proceedings of the 19th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'96),1996:76-84.
4Han J,Kamber M.Data Mining:Concepts and Techniques[M].Morgan Kaufmann,2000.
5MacQueen J.Some methods for classification and analysis of multivariate observations[C]∥Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability,Berkeley,USA,1967:281-297.
6Bezdek J C.Pattern Recognition with Fuzzy Objective Function Algorithms[M].New York:Plenum Press,1981.
7Dempster A P,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of Royal Statistical Society:Series B,1977,39:1-38.
8Pedrycz W.Conditional fuzzy c-means[J].Pattern Recognition Letters,1996,17:625-632.
9Rose K.Deterministic annealing for clustering,compression,classification,regression,and related optimization problems[C]∥Proceedings of the IEEE,1998,86(11):2210-2239.
10Jian Yu.Sample weighting clustering.Technical Report of Institute of Computer Science (TR 002),Beijing Jiaotong University,2006.

同被引文献150

1邱均平.论“引文耦合”与“同被引”[J].图书馆,1987(3):13-19. 被引量：24
2张晗,崔雷.运用共词聚类分析法研究生物信息学的学科热点[J].医学情报工作,2004,25(5):327-330. 被引量：46
3宋玲丽,成颖,单启成.信息检索系统中的相关反馈技术[J].情报学报,2005,24(1):34-41. 被引量：7
4周江华.搜救船舶优选和排序的评判方法研究[J].中国航海,2005,28(1):68-73. 被引量：9
5赵悦阳 ,崔雷 .专题文献的同被引聚类分析在表现学科专业发展历史的可靠性评价[J].情报学报,2005,24(4):414-421. 被引量：15
6黄小燕.情报领域研究热点透视——情报领域论文关键词词频分析(1999—2003)[J].图书与情报,2005(6):82-84. 被引量：48
7马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171. 被引量：515
8翟久刚.信息融合理论在搜救决策中的运用[J].中国水运,2006(5):6-8. 被引量：2
9马费成,宋恩梅.我国情报学研究分析：以ACA为方法[J].情报学报,2006,25(3):259-268. 被引量：59
10张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17

引证文献10

1章成志,张庆国,师庆辉.基于主题聚类的主题数字图书馆构建[J].中国图书馆学报,2008(6):64-69. 被引量：5
2黄鹏飞,张道强.拉普拉斯加权聚类算法[J].电子学报,2008,36(B12):50-54. 被引量：5
3章成志,梁勇.基于主题聚类的学科研究热点及其趋势监测方法[J].情报学报,2010,29(2):342-349. 被引量：20
4游晓霞,王剑.长江三峡库区水上交通应急预案辅助决策算法[J].四川兵工学报,2011,32(8):149-152. 被引量：2
5吴夙慧,成颖,郑彦宁,潘云涛.基于学术文献同被引分析的K-means算法改进研究[J].情报学报,2012,31(1):82-94. 被引量：4
6吴夙慧,成颖,郑彦宁,潘云涛.一种基于引用上下文和引文网络的相关反馈算法[J].情报学报,2012,31(10):1052-1061. 被引量：3
7董丽,安璐.新兴主题探测方法及实证研究综述[J].科技创新导报,2013,10(9):23-24. 被引量：2
8肖雪,王钊伟,陈云伟,邓勇.基于样本加权的引文网络的社团划分[J].图书情报工作,2016,60(20):86-93. 被引量：5
9肖雪,陈云伟,邓勇.基于节点内容及拓扑结构的引文网络社团划分[J].图书情报知识,2017,34(1):89-97. 被引量：6
10刘璐,蔡永明.基于语义加权的引文网络社区划分研究[J].新世纪图书馆,2021(1):50-56. 被引量：5

二级引证文献54

1贺德方.基于多视角的情报分析方法研究进展[J].情报学进展,2014(1):154-197. 被引量：2
2洪娜,张智雄,乐小虬.基于能量演化线索的潜在爆发词探测方法[J].现代图书情报技术,2010(11):45-52. 被引量：18
3吴夙慧,成颖,郑彦宁,潘云涛.基于学术文献同被引分析的K-means算法改进研究[J].情报学报,2012,31(1):82-94. 被引量：4
4洪娜,张智雄,乐小虬.基于决策树的潜在爆发词探测方法[J].情报学报,2012,31(3):228-241. 被引量：12
5周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
6范静涛,韩成,张超,李明勋,白宝兴,杨华民.一种新的De Bruijn彩色结构光解码技术研究[J].电子学报,2012,40(3):483-488. 被引量：9
7蔡建东,马婧,袁媛.国外CSCL理论的演进与前沿热点问题——基于Citespace的可视化分析[J].现代教育技术,2012,22(5):10-16. 被引量：50
8宋双永,李秋丹,路冬媛.面向微博客的热点事件情感分析方法[J].计算机科学,2012,39(B06):226-228. 被引量：19
9汤丽娟,章成志.基于微博挖掘技术的企业产品信息监测研究[J].图书情报工作,2012,56(16):37-41. 被引量：4
10吴夙慧,成颖,郑彦宁,潘云涛.一种基于引用上下文和引文网络的相关反馈算法[J].情报学报,2012,31(10):1052-1061. 被引量：3

1杜建强,卢炎生.一种彩色图像快速分割方法[J].小型微型计算机系统,2009,30(7):1412-1416. 被引量：6
2蒋昊天,孙玉泉.数学分析中的距离与应用[J].兰州文理学院学报（自然科学版）,2015,29(1):97-100.
3摘要撰写要点及注意事项[J].太原理工大学学报,2013,44(6):802-802.
4谢岳山,樊晓平,廖志芳,尹红练,罗浩.一种基于图论的加权聚类融合算法[J].计算机应用研究,2013,30(4):1015-1016. 被引量：3
5本刊加入有关数据库的特别声明[J].大麦与谷类科学,2013(1):45-45.
6尚海昆,孟建良.基于k-means的加权聚类算法研究[J].中国电力教育,2008(S3):390-392. 被引量：2
7刘佳,杨焕玲.SCI被引频次检索技巧谈[J].黑龙江科技信息,2014(1):168-168. 被引量：1
8《应用化工》论文全文下载排行（中国知网）[J].应用化工,2013,42(7):1244-1244.
9凌云.基于多层加权聚类的网络攻击检测方法研究[J].苏州大学学报（工科版）,2011,31(6):65-69. 被引量：1
10本刊编辑部.提高科技论文引用率的题目写作技巧[J].成都工业学院学报,2015,18(4):56-56.

情报学报

2008年第1期

浏览历史

内容加载中请稍等...

基于样本加权的文本聚类算法研究被引量：10

参考文献16

同被引文献150

引证文献10

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于样本加权的文本聚类算法研究 被引量：10

参考文献16

同被引文献150

引证文献10

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于样本加权的文本聚类算法研究被引量：10