-
题名基于改进DBSCAN算法的文本聚类
被引量:20
- 1
-
-
作者
蔡岳
袁津生
-
机构
北京林业大学信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第12期50-52,55,共4页
-
文摘
目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此,论述DBSCAN算法的基本原理和实现过程,提出一种基于改进DBSCAN算法的文本聚类算法,利用最小二乘法降低文本向量的维度,并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明,该算法能自适应地进行文本聚类,且与DBSCAN相比,准确率较高。
-
关键词
DBSCAN算法
文本聚类
最小二乘法
簇关系树
-
Keywords
DBSCAN algorithm
text clustering
least square method
cluster-tree
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DBSCAN的最优密度文本聚类算法
被引量:14
- 2
-
-
作者
李群
袁津生
-
机构
北京林业大学信息学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2012年第4期1409-1413,共5页
-
文摘
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现。该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优。与其它文本聚类算法相比,该算法的查询结果与用户感兴趣的主题相关度较大,对具有二义性的关键词有较高的查准率,能有效提升搜索引擎的查询效率,加快用户搜索信息的速度。
-
关键词
搜索引擎
文本聚类
密度聚类
簇关系树
动态聚类
-
Keywords
search engine
text clustering
DBSCAN
cluster relation tree
dynamic clustering
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-