-
题名基于真值发现的加油站车辆号牌缺损数据填充方法
- 1
-
-
作者
彭新亮
程力
王轶
马博
赵凡
周喜
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆理化技术研究所新疆民族语音语言信息处理实验室
-
出处
《计算机应用与软件》
北大核心
2019年第8期41-46,74,共7页
-
基金
2017“天山雪松计划”项目(2017XS05)
新疆维吾尔自治区十三五重大专项(2016A03007-2)
-
文摘
由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因,致使加油站车辆加油数据中经常会产生数据的丢失和错误,降低了车辆加油数据的完整性,严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺损问题,但是它们并不适用于车辆号牌这种离散型分类数据。提出一种基于改进TruthFinder算法的缺损值填充框架。基于真值发现算法,考虑到离散数据相似度的计算方式,改进原算法对数据值支持度的计算模型。通过在真实加油站车辆数据集上的实验,相较于原算法及更加通用的Voting算法,正确率分别提升了7%和23%。该方法能部分解决类似加油站车辆加油数据这种多源离散型数据的缺损值填充问题,大大提高了此数据的可用性。
-
关键词
数据清洗
车辆加油数据
缺失数据填充
真值发现
-
Keywords
Data cleaning
Gas station data
Defect data filling
Truth discovery
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-