-
题名基于声学指纹的海量MP3文件近似去重方法
被引量:2
- 1
-
-
作者
赵晓永
杨扬
王宁
-
机构
北京科技大学计算机与通信工程学院
-
出处
《计算机工程》
CAS
CSCD
2013年第7期73-75,82,共4页
-
基金
国家自然科学基金资助项目(61070182
61170209)
-
文摘
在互联网中重复上传他人已经分享的歌曲会消耗网络带宽,浪费存储空间,但目前的重复数据删除方法主要基于文件的二进制特征,无法识别经过信号处理或压缩后的歌曲。针对该问题,提出一种基于声学指纹的海量MP3文件近似去重方法。结合文件消息摘要的确定性与声学指纹的鲁棒性,在采用布隆过滤器对文件消息摘要一次去重的基础上,根据降维后的声学指纹值进行二次近似去重,保证高效的同时提高去重率。实验结果表明,与可变分块检测方法相比,该方法的去重率可提高1倍以上,扩展性较好。
-
关键词
声学指纹
重复数据删除
近似去重
布隆过滤器
海量数据
-
Keywords
acoustic fingerprint
data de-duplication
near de-duplication
Bloom Filter(BF)
massive data
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向云平台的二代测序数据近似去重方法研究
被引量:4
- 2
-
-
作者
赵晓永
陈晨
-
机构
北京信息科技大学信息管理学院
首都医科大学附属北京地坛医院传染病研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第23期1-5,共5页
-
基金
国家自然科学基金(No.61572079)
北京市教育委员会科技计划一般项目(No.KM201711232018)
-
文摘
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理。然而,云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别。目前已有的去重方法无法有效识别出这样的"重复"测序文件和测序结果中的"重复"内容。重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间。针对现存的重复数据删除方法仅仅基于文件的二进制特征,并未有效利用测序结果数据相似性特点的问题,提出一种面向云平台的海量高通量测序数据近似去重方法NPD(Near Probability Deduplication)。该方法对Fast Q中的序列和质量信息,使用Sim Hash计算分块指纹,采用客户端与云平台双布谷过滤器(Cukoo Filter)对指纹值进行快速存在性检测,最后由云平台使用近似算法对指纹值近似去重。实验结果表明,NPD方法在保证高效的同时,大幅提升了去重率,进而减少了网络流量,缩短了数据上传时间,能够支撑海量数据处理,具有良好的实用价值。
-
关键词
高通量测序
重复数据删除
近似去重
布谷过滤器
-
Keywords
high-throughput sequence data
data de-duplication
near de-duplication
cuckoo filter
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-