期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于熵特征优选分组聚类的相似重复记录检测
被引量:
4
1
作者
张平
党选举
+1 位作者
陈皓
杨文雷
《传感器与微系统》
CSCD
北大核心
2011年第11期135-137,141,共4页
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为...
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测。理论分析和实验结果表明:该方法识别精度和检测效率较高。
展开更多
关键词
相似重复记录
熵
特征优选分组聚类
下载PDF
职称材料
题名
基于熵特征优选分组聚类的相似重复记录检测
被引量:
4
1
作者
张平
党选举
陈皓
杨文雷
机构
桂林电子科技大学电子工程与自动化学院
桂林电子科技大学计算机科学与工程学院
出处
《传感器与微系统》
CSCD
北大核心
2011年第11期135-137,141,共4页
基金
国家自然科学基金资助项目(60964001)
广西自然科学基金资助项目(09910192)
广西信息与通讯实验室主任基金资助项目(01902)
文摘
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测。理论分析和实验结果表明:该方法识别精度和检测效率较高。
关键词
相似重复记录
熵
特征优选分组聚类
Keywords
approximately duplicated records
entropy
feature selection grouping clutering(FSGC)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于熵特征优选分组聚类的相似重复记录检测
张平
党选举
陈皓
杨文雷
《传感器与微系统》
CSCD
北大核心
2011
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部