一种基于密度的文本聚类挖掘算法被引量：4

Text cluster mining algorithm based on density

下载PDF

导出

摘要针对DBSCAN算法需用户设置参数值、易产生挖掘结果偏差等不足,提出改进算法DBTC(density-basedtext clustering),该算法不仅能够发现任意形状的簇,还有效地解决了基于密度的DBSCAN聚类算法在文本挖掘中参数设置困难和高密度的簇被相连的低密度簇包含的问题。理论分析和实验结果表明,算法是有效可行的。 Focusing on the problem that the DBSCAN algorithm needs to set parameters by users and lends to warp the mining result, proposed an improved text clustering algorithms DBTC （density-based text clustering）. The algorithm not only could find arbitrary shaped clusters, but also efficiently solved these problems which were it was too difficult for users to determine the parameters and the high-density cluster was completely contained to the linked low-density cluster. Theoretic analysis and experimental results indicate that the algorithm is effective and efficient.

作者赵康陆介平倪巍伟王桂平

机构地区江苏科技大学电子信息学院东南大学计算机科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2009年第1期124-126,共3页 Application Research of Computers

基金江苏省自然科学基金资助项目(BK2006095)

关键词分词文本聚类向量空间模型核心对象 words segmentation text clustering vector space model core-object

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1CHEN Ming-shan, HAN Jia-wei, PHILP S Y. Datamining: an overview from a database perceptive [ J]. IEEE Trans on Knowledge and Data Engineering,1996,8(6) :866-882.
2HAN Jia-wei,KAMBER M.数据挖掘:概念与技术[M].范明,孟小峰,等译.北京:机械工业出版社.2004.
3YANG Yi-ming, PEDERSON J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1997:412- 420.
4易高翔,程耕国.Web文本挖掘研究[J].武汉科技大学学报,2005,28(1):72-74. 被引量：5
5ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [ C]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining. [ S. l. ] :AAAI Press, 1996:226-231.
6刘青宝,邓苏,张维明.基于相对密度的聚类算法[J].计算机科学,2007,34(2):192-195. 被引量：13
7HOTHO A, STAAB S, STUMME G. Wordnet improves text document clustering [ C ]//Proc of SIGIR Semantic Web Workshop. 2003 : 541-544.
8石陆魁,何丕廉.一种基于密度的高效聚类算法[J].计算机应用,2005,25(8):1824-1826. 被引量：21
9鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120

二级参考文献26

1HanJiawei Kamber M 范明等译.数据挖掘:概念与技术[M].北京:机械工业出版社,2001..
2Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
3JiaweiHah MichelineKamber 范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2001.8.
4KAUFMAN L, ROUSSEEUW PJ. Finding groups in data: An introduction to cluster analysis[ M]. New York: John Wiley & Sons,1990.
5RAYMOND T NG, HAN JW. CLARANS: A method for clustering objects for spatial data mining[J]. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2002, 14(5): 1003 -1016.
6ZHANGT, RAMAKRISHNAN R, LIVNY M. BIRCH: An efficient data clustering method for very large databases[ A]. Proceedings of the ACM SIGMOD internatioal conference on Management of data[C]. New York: ACM Press, 1996. 103 - 114.
7GUHA S, RASTOGI R, SHIM K. CURE: An efficient clustering algorithm for large databases[ A]. Proceedings of the ACM SIGMOD internatioal conference on Management of data[ C]. New York: ACM Press, 1998.73 - 84.
8ESTER M, HANS-PETER KRIEGEL, SANDER J, et al. A densitybased algorithm for discovering clusters in large spatial databases with noise[A]. Proceeding the 2nd international conference on Knowledge discovery and data mining(KDD) [ C]. Portland, 1996.226 - 231.
9ANKERST M, BREUNIG M, HANS-PETER KRIEGEL, et al. OPTICS: Ordering points to identify the clustering structure[ A]. Proceedings of the ACM SIGMOD internatioal conference on Management of data[ C]. New York: ACM Press, 1999.49 -60.
10WANG W, YANG J, MUNTZ R. STING: A statistical information grid approach to spatial data mining[ A]. Proceedings of the 23rd IEEE international conference on very large data bases[ C]. Athens,1997. 186 - 195.

共引文献155

1何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2
2周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
3许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
4胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
5王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量：4
8王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
9朱征宇,裴仰军,陈华月,付关友.个性化服务中用户近期兴趣视图的生成[J].计算机工程与设计,2005,26(4):951-954. 被引量：5
10谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13

同被引文献33

1刁柏青,步万峰.构建集中统一的电网集团数据中心[J].电力信息化,2004,2(10):57-59. 被引量：4
2岳士弘,李平,郭继东,周水庚.A statistical information-based clustering approach in distance space[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):71-78. 被引量：8
3郭岩,白硕,杨志峰,张凯.网络日志规模分析和用户兴趣挖掘[J].计算机学报,2005,28(9):1483-1496. 被引量：62
4彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
5CHAU M, XU J. Mining communities and their relationships in blogs= a study of online groups [J]. Int of Human-Computer Studies, 2007, 65(1): 57-70.
6BRIN S, PAGE L. The anatomy of a large-scale hypertextual web search engine [J]. Comput Networks 5- ISDN Syst, 1998, 30(1/7): 107-117.
7CHIRITA P A, OLMEDILLA D, NEJDL W. Finding related pages using the link structure of the WWW [C]// Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. Washington, DC: IEEE Computer Society, 2004: 632-635.
8WOOD L. Programming the web: the W3C DOM specification[J]. Int Comput, 1999, 3(1): 48-54.
9CHEN Yun, TSAI F S, CHAN K L. Machine learning techniques for business blog search and mining [J]. Expert Syst Appl, 2008, 35(3): 581-590.
10傅怀慧林共进白峰杉等.阻尼因子对网页排名之敏感度分析.中国统计学报,2005,43(2):145-164.

引证文献4

1孙多.一个基于用户兴趣的blog推荐系统的设计[J].扬州大学学报（自然科学版）,2011,14(1):61-64. 被引量：2
2陈刚,刘秉权,吴岩.一种基于高斯分布的自适应DBSCAN算法[J].微电子学与计算机,2013,30(3):27-30. 被引量：24
3符保龙,张爱科.基于均值密度中心估计的k-means聚类文本挖掘方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):111-116. 被引量：13
4李雅洁,明涛,胡新苗.基于数据中台的智能视图探索的应用与研究[J].通信电源技术,2021,38(24):20-23.

二级引证文献39

1张耕畅,黄晓禹,卢世尧,王晓萍,侯超钧.基于云计算的大学生兴趣社交平台[J].仲恺农业工程学院学报,2013,26(4):38-42. 被引量：1
2张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
3张新华.智能化游戏治疗项目推荐系统设计[J].重庆科技学院学报（自然科学版）,2014,16(3):112-114.
4张丽杰.具有稳定饱和度的DBSCAN算法[J].计算机应用研究,2014,31(7):1972-1975. 被引量：14
5朱俚治.一种基于计算机病毒行为权值的检测算法[J].信息技术与标准化,2018(12):69-72.
6杨亚军,张坤龙,杨晓科.基于变化密度的自适应空间聚类方法研究[J].计算机工程,2014,40(8):58-63. 被引量：2
7谢练,吴超仲,吕能超,高岩.基于改进聚类算法的道路交通事故多发路段鉴别方法研究[J].武汉理工大学学报（交通科学与工程版）,2014,38(4):904-908. 被引量：11
8申玫,徐宁,周明顺,赵晓玲,李先强.数据挖掘技术在中高职课程衔接中的应用[J].现代教育科学（高教研究）,2014(4):70-73. 被引量：2
9许芳芳.一种结合蚁群聚类算法的DBSCAN算法[J].池州学院学报,2014,28(6):33-36. 被引量：2
10孙菲,张健沛,董野,任福栋,于涛,郭春平.基于标准偏移量的学生成绩K-means聚类分析算法研究[J].齐齐哈尔大学学报（自然科学版）,2015,31(2):57-64. 被引量：6

1李向军,徐国华,刘立平.一种文本聚类算法[J].西北大学学报（自然科学版）,2005,35(2):155-158. 被引量：3
2曹奇敏,郭巧,吴向华.Similarity matrix-based K-means algorithm for text clustering[J].Journal of Beijing Institute of Technology,2015,24(4):566-572.
3王刚,钟国祥.一种基于本体相似度计算的文本聚类算法研究[J].计算机科学,2010,37(9):222-224. 被引量：10
4《啊!我想到了》专栏参考答案[J].信息技术教育,2007(2):33-33.
5XU Junling,XU Baowen,ZHANG Weifeng,CUI Zifeng,ZHANG Wei.A New Feature Selection Method for Text Clustering[J].Wuhan University Journal of Natural Sciences,2007,12(5):912-916. 被引量：3
6蒋菱,王旭东,于建成,袁晓冬.基于分布式计算的海量用电数据分析技术研究[J].计算机技术与发展,2016,26(12):176-181. 被引量：4
7SU Ya-ru,WANG Ru-jing,CHEN Peng,WEI Yuan-yuan,LI Chuan-xi,HU Yi-min.Agricultural Ontology Based Feature Optimization for Agricultural Text Clustering[J].Journal of Integrative Agriculture,2012,11(5):752-759. 被引量：4
8CHENJian-bin,DONGXiang-jun,SONGHan-tao.The Refinement Algorithm Consideration in Text Clustering Scheme Based on Multilevel Graph[J].Wuhan University Journal of Natural Sciences,2004,9(5):671-675.
9龚伟志,徐建宏,刘增良.大数据环境下网络稳定性测试模型研究[J].现代电子技术,2015,38(6):1-3. 被引量：2
10白秋产,金春霞.概念属性扩展的短文本聚类算法[J].长春师范学院学报（自然科学版）,2011,30(5):29-33. 被引量：4

计算机应用研究

2009年第1期

浏览历史

内容加载中请稍等...

一种基于密度的文本聚类挖掘算法被引量：4

参考文献9

二级参考文献26

共引文献155

同被引文献33

引证文献4

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

一种基于密度的文本聚类挖掘算法 被引量：4

参考文献9

二级参考文献26

共引文献155

同被引文献33

引证文献4

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

一种基于密度的文本聚类挖掘算法被引量：4