-
题名基于内码序值聚类的相似重复记录检测方法
被引量:8
- 1
-
-
作者
鲁均云
李星毅
施化吉
马素琴
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第3期874-878,共5页
-
基金
国家火炬计划资助项目(2004EB33006[0])
江苏省高校自然科学指导性计划资助项目(05JKD520050)
-
文摘
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题。
-
关键词
相似重复记录
内码序值
聚类
等级法
-
Keywords
approximately duplicate records
inner code's sequence value
cluster
rank method
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名5kN标准测力仪的测量示值不确定度分析
- 2
-
-
作者
桑干
李建
马旭江
-
机构
无锡市计量测试院
-
出处
《中文科技期刊数据库(文摘版)工程技术》
2016年第12期302-302,共1页
-
文摘
本文依据《JJG144-2007标准测力仪检定规程》,在使用力标准机检测内码值显示的5kN标准测力仪时,对其测量结果中5kN点进行不确定度分析。
-
关键词
标准测力仪
内码值
力值
-
分类号
TH823
[机械工程—精密仪器及机械]
-
-
题名衡器传感器状态监控系统的开发与应用
- 3
-
-
作者
容东阳
-
机构
湖南华菱涟源钢铁有限公司
-
出处
《南方金属》
CAS
2023年第6期39-43,共5页
-
基金
娄底市哲学社会科学成果课题《娄底钢铁工业高端化、智能化、绿色化融合发展研究》(202353B)。
-
文摘
传感器和仪表是衡器实现重量计量的核心部件,运行状态的好坏与衡器计量准确性息息相关。目前,传感器的好坏的标准主要依靠人工定期巡检和过秤后的火车动静差比,具有滞后性,容易产生计量异议,且事后进行计量处理的成本比较高。文章设计并搭建了一个衡器传感器的监控系统的方案,能够实时获取传感器的内码值,并对其进行异常状态的判断,还能够根据设计的异常处理流程,对每一个产生异常的传感器进行处理并反馈实时状态,实现完善的传感器异常处理流程,提高了传感器的维护效率,满足了任务设计目标。
-
关键词
传感器内码值
数据库
数据采集
异常处理
异常预警
-
Keywords
sensor internal code value
database
data collection
exception handling
exception warning
-
分类号
TH715.12
[机械工程—测试计量技术及仪器]
-