期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于熵特征优选分组聚类的相似重复记录检测 被引量:4
1
作者 张平 党选举 +1 位作者 陈皓 杨文雷 《传感器与微系统》 CSCD 北大核心 2011年第11期135-137,141,共4页
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为... 针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测。理论分析和实验结果表明:该方法识别精度和检测效率较高。 展开更多
关键词 相似重复记录 特征优选分组聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部