-
题名基于后缀结构进行数据块优化的重复数据删除系统
被引量:1
- 1
-
-
作者
黄晨晖
林泳琴
-
机构
广东女子职业技术学院网络中心
广州大学网络中心项目部
-
出处
《计算机系统应用》
2010年第11期75-78,70,共5页
-
文摘
为进一步提高重复数据删除系统的性能,提出基于数据分块的后缀数组SA和最长公共前缀LCP进行数据块优化的重复数据删除系统。系统首先将输入的数据流进行第一次分块,识别出相同的分块并给分块编号,创建分块编号序列的SA和LCP表,识别出最大重复队列和非重复数据块,进一步得出优化的超级块大小,然后以超级块为单元进行第二次数据分块并保存数据压缩结果。实验表明,相比于固定分块,该系统能实现给定输入流较好的压缩性和数据重构性。
-
关键词
重复数据删除
后缀数组
最长公共前缀
块优化
-
Keywords
de-duplication
suffix array(SA)
longest common prefix(LCP)
block size optimization
-
分类号
TP309.3
[自动化与计算机技术—计算机系统结构]
-
-
题名一种有效的后缀树建立方法
- 2
-
-
作者
黄影
-
机构
西安文理学院数学与计算机工程学院
-
出处
《电子科技》
2013年第10期73-75,共3页
-
文摘
基于自顶向下的后缀树建立思想,提出一种分步建立后缀树的方法。首先对字符串中所有后缀按照字母表顺序进行排序,然后求出有序相邻后缀之间的最长公共前缀,并根据后缀顺序和最长公共前缀建立后缀树。该方法无需使用后缀链,并且可以在线性时间建立后缀树。
-
关键词
后缀树
后缀排序
最长公共前缀
自顶向下
-
Keywords
suffix tree
suffix sorting
longest common prefix
top-down
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DC3算法的非编码区序列最大串联重复识别
被引量:1
- 3
-
-
作者
周文鹃
刘自伟
陈昌平
-
机构
西南科技大学计算机应用与技术学院
-
出处
《兵工自动化》
2009年第3期42-44,共3页
-
基金
国家自然科学基金(10676029)
-
文摘
非编码区信息结构分析是目前生物信息学研究的热点之一。运用DC3算法构建的后缀数组以及最长公共前缀(LCP)作为辅助工具构造一个算法,用于对非编码区中存在的重复序列进行搜索,进而研究可能与其相关的功能元件,从而揭示出非编码区的结构信息。通过实验证明其实用性。
-
关键词
非编码区
重复序列
后缀数组
最长公共前缀
-
Keywords
Non-coding region
Repeat sequence
Suffix array
LCP
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-