基于替换错误的相似片段查找

Similar Fragment Queries Based on Substitution Errors

下载PDF

导出

摘要破译未知语言的关键是寻找相似的字母片段序列。本文针对相似片段的查找,编写了一种新的算法。首先建立索引结构,多次间隔划分得到片段。然后基于海明距离建立相似公式和相似矩阵用于表示两个片段之间的相似度。结合实际,在大量文本记录时发生替换错误的基础下建立相似阈值公式,并通过该公式判断是否为要求查找的相似片段。最后获得了多段文本的相似片段以及其对应的位置。此外使用平均准确率评价算法,经分析和实验表明,该算法有较高的准确率和查找效率。 The key to deciphering an unknown language is to look for similar sequences of letter fragments. In this paper, a new algorithm for finding similar fragments is developed. First, the index structure is built and the fragments are divided at intervals. Then the similarity formula and the similarity matrix are established based on the hamming distance to represent the similarity between the two fragments. In combination with practice, the similarity threshold formula is established on the basis of substitution errors in a large number of text records, and the formula is used to judge whether it is the similar fragment to be searched. Finally, the similar fragments of multiple text and their corresponding positions are obtained. In addition, the average accuracy evaluation algorithm is used, and the analysis and experiments show that the algorithm has good accuracy and search efficiency.

作者张帆谢宇奇饶晨王明春

机构地区湖南农业大学信息与智能科学技术学院

出处《计算机科学与应用》 2020年第5期971-977,共7页 Computer Science and Application

关键词相似片段海明距离阈值查找定位

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1王镝,赵毅,陈白尘,王国仁.DNA序列中基于后继数组索引的SATR查找算法[J].东北大学学报（自然科学版）,2007,28(2):184-188. 被引量：2
2朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37

二级参考文献6

1王镝,王国仁,陈白尘,吴青泉,王斌,韩冬红.一种可用于生物序列分析的轻量级索引结构[J].华中科技大学学报（自然科学版）,2005,33(z1):209-212. 被引量：1
2邓绪斌,朱扬勇.L-Tree Match： A New Data Extraction Model and Algorithm for Huge Text Stream with Noises[J].Journal of Computer Science & Technology,2005,20(6):763-773. 被引量：4
3李冬冬,王正志,倪青山.一种有效的重复序列识别算法[J].生物信息学,2005,3(4):163-166. 被引量：2
4邓绪斌,朱扬勇.ReDE:一个基于正则表达式的生物数据抽取方法[J].计算机研究与发展,2005,42(12):2184-2191. 被引量：8
5王国仁,葛健,徐恒宇,郑若石.基于二分频率变换的序列相似性查询处理技术[J].软件学报,2006,17(2):232-241. 被引量：8
6LI Rong,CAO Shunliang,LI Yuanyuan,TAN Hao,ZHU Yangyong,ZHONG Yang,LI Yixue.A measure of semantic similarity between gene ontology terms based on semantic pathway covering[J].Progress in Natural Science:Materials International,2006,16(7):721-726. 被引量：1

共引文献37

1岳晓宁,井元伟.基于DNA序列数据挖掘算法研究[J].生物数学学报,2009,24(2):363-368. 被引量：7
2冯玉才,蒋涛,李国徽,朱虹.高效时序相似搜索技术[J].计算机学报,2009,32(11):2107-2122. 被引量：10
3何宏,谭永红.基于计算智能的基因表达数据聚类分析研究进展[J].信息与控制,2009,38(6):743-751. 被引量：2
4朱扬勇,戴东波,熊赟.序列数据相似性查询技术研究综述[J].计算机研究与发展,2010,47(2):264-276. 被引量：13
5戴东波,汤春蕾,熊赟.基于整体和局部相似性的序列聚类算法[J].软件学报,2010,21(4):702-717. 被引量：18
6戴东波,熊赟,朱扬勇.基于参考集索引的高效序列相似性查找算法[J].软件学报,2010,21(4):718-731. 被引量：7
7梁冰,陈德运.基于蚁群优化聚类算法的DNA序列分类方法[J].计算机工程与应用,2010,46(25):124-126. 被引量：2
8孙汉顺,马文丽,高静宇,孙立哲,郑文岭.HIV整合位点的生物信息学分析[J].生物信息学,2010,8(3):194-197. 被引量：1
9戴东波,汤春蕾,邱伯仁,熊赟,朱扬勇.一种优化多重过滤的序列查询算法[J].计算机研究与发展,2010,47(10):1785-1796. 被引量：2
10凌绪雄,王社国,李洋,苗再良.无项头表的FP-Growth算法[J].计算机应用,2011,31(5):1391-1394. 被引量：8

1李宇,刘波.文档检索中文本片段化机制的研究[J].计算机科学与探索,2020,14(4):578-589. 被引量：4
2钱程.新时期民生档案服务民生的策略探讨[J].品位·经典,2020,0(1):85-87. 被引量：1
3毕雪超.基于哈希学习的舞蹈视频中特定动作编码与检索[J].电子设计工程,2020,28(9):171-175.
4姜芳燕,韩冰冰,李语,王辉芳,杨宁,黄海.长尾大眼鲷COI基因序列的遗传多样性分析[J].海南热带海洋学院学报,2020,27(2):6-10. 被引量：1
5周云喜,胡亚磊,杨胜梅,谢安,赵李剑,黄胜,童春义.基于测序技术探究卡介菌生物制剂核酸物质基础[J].湖南中医药大学学报,2020,40(4):423-428. 被引量：1
6孙苗,兰晓红,贺转玲,魏延.基于蓝牙的语音控制书架机器人设计与实现[J].现代电子技术,2020,43(10):179-183. 被引量：5
7黄光豪.酶联免疫吸附试验和电化学发光免疫法检测孕妇乙型肝炎表面抗原结果的比较[J].医学食疗与健康,2020,18(6):162-162. 被引量：3
8罗辉.输电线路智能巡检系统的应用研究[J].今日自动化,2019,0(12):2-3.
9李楠,何于雯,孟锦昕,王静林.广东蚊东南亚十二节段病毒属芒市病毒的分离与鉴定[J].中国兽医科学,2020,50(5):582-588. 被引量：7
10刘开华,闫柳,李卓,宫霄霖,彭鹏,王彬志.基于神经网络的命名数据网学习型FIB研究[J].天津大学学报（自然科学与工程技术版）,2020,53(8):825-832. 被引量：1

计算机科学与应用

2020年第5期

浏览历史

内容加载中请稍等...

基于替换错误的相似片段查找

参考文献2

二级参考文献6

共引文献37

相关作者

相关机构

相关主题

浏览历史