期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
一个新的强化学习多序列对比工具CDRL
1
作者 王韦添 江育娥 《福建师范大学学报(自然科学版)》 CAS 2023年第6期40-51,共12页
多序列比对(multiple sequence alignment, MSA)在生物信息学中是一项重要的研究领域,常被用于描述物种之间的进化关系、药物设计和药物开发.MSA是一个NP完全问题,因计算过于复杂,无法获得最优解.强化学习方法在MSA中表现出了优异的性能... 多序列比对(multiple sequence alignment, MSA)在生物信息学中是一项重要的研究领域,常被用于描述物种之间的进化关系、药物设计和药物开发.MSA是一个NP完全问题,因计算过于复杂,无法获得最优解.强化学习方法在MSA中表现出了优异的性能,但其计算复杂度与空间复杂度都很高,因此无法应用于大规模数据集.提出一种新的强化学习模型CDRL(contextual deep reinforcement learning)来解决多序列比对问题,该模型采用上下文关系,将网络输入维度从O(n2)降为O(n),其中n是输入的序列数量.该模型建立的网络收敛速度快于当前其他模型.实验结果表明,CDRL的性能优于业内其他强化学习MSA.相较于其他方法目前只能运行在12条序列数据上,CDRL成功地在100条序列上取得较快速度和较好性能.这提高了强化学习MSA应用在较大规模数据集上的可能性. 展开更多
关键词 多序列比对 强化学习 较大规模数据集 空间复杂度 上下文关系
下载PDF
基于KMP算法的改进算法KMPP 被引量:14
2
作者 李莉 江育娥 +1 位作者 林劼 江秉华 《计算机工程与应用》 CSCD 北大核心 2016年第8期33-37,共5页
KMP算法和BM算法是经典的单模式匹配算法,但KMP算法中文本指针i每次只能移动一个字符,整体的匹配效率并不高,结合KMP算法和BM算法的优点提出一种改进算法(KMPP)。算法的思想是模式串与文本在j处不匹配时,预算出模式串移动next[j]后末字... KMP算法和BM算法是经典的单模式匹配算法,但KMP算法中文本指针i每次只能移动一个字符,整体的匹配效率并不高,结合KMP算法和BM算法的优点提出一种改进算法(KMPP)。算法的思想是模式串与文本在j处不匹配时,预算出模式串移动next[j]后末字符在文本中的位置,当该位置的文本字符与末字符不匹配时,则用该字符进行坏字符匹配,这两步的跳跃距离就是文本指针i移动的距离,从而使指针i每次移动的距离达到最大。实验结果表明,该算法匹配次数远低于KMP算法的匹配次数,提高了模式匹配的效率。 展开更多
关键词 模式匹配 KMP算法 BM算法 KMPP算法
下载PDF
下一代测序纠错方法综述 被引量:1
3
作者 江育娥 黄伟 林劼 《北京工业大学学报》 CAS CSCD 北大核心 2016年第3期377-386,共10页
在面向下一代的测序技术中,前期纠错方法决定着测序的最终序列质量,因此成为当前研究热点,很多不同的纠错方法被提出,对于这些方法的优缺点以及它们适合的应用,应该有清晰的认识和公正的评估.介绍了现存的各种下一代测序的纠错技术.首先... 在面向下一代的测序技术中,前期纠错方法决定着测序的最终序列质量,因此成为当前研究热点,很多不同的纠错方法被提出,对于这些方法的优缺点以及它们适合的应用,应该有清晰的认识和公正的评估.介绍了现存的各种下一代测序的纠错技术.首先,从各种不同工具所基于的底层算法进行分析;接着,从测序不同平台来看读段错误形成的特点;然后,从各种不同的测序应用角度来观察读段序列错误特征;最后,总结并阐述读段序列纠错工具存在的问题和发展趋势. 展开更多
关键词 下一代测序 序列分析 纠错方法 平台错误特征
下载PDF
针对QSP算法的研究与分析 被引量:1
4
作者 李莉 江育娥 林劼 《计算机系统应用》 2016年第3期28-33,共6页
BM算法是经典的单模式匹配算法,QS算法是基于BM算法的改进算法,由于QS算法仅仅分析下一字符T[j+m]计算右移量,整体的匹配效率并不高,因此在QS算法的基础上提出一种改进算法(QSP).QSP算法在预处理阶段从左向右找出模式串中出现1次以上的... BM算法是经典的单模式匹配算法,QS算法是基于BM算法的改进算法,由于QS算法仅仅分析下一字符T[j+m]计算右移量,整体的匹配效率并不高,因此在QS算法的基础上提出一种改进算法(QSP).QSP算法在预处理阶段从左向右找出模式串中出现1次以上的单字符,计算出这些字符的跳转期望值差,得到最大差值和相对应的字符位置max Pos,并修改skipp2数组的值;在匹配阶段,首先比较P[max Pos]与T[j+max Pos]是否相等,然后再利用两个数组skipp1和skipp2进行右移,保证每次右移的距离达到最大.通过实验证明,该算法总的比较次数和运行时间都低于QS算法,匹配效率得到明显的提高. 展开更多
关键词 模式匹配 QS算法 QSP算法 跳转期望值差
下载PDF
基于多因素加法模型的中期电力负荷预测 被引量:5
5
作者 翁金芳 黄伟 +1 位作者 江育娥 林劼 《计算机系统应用》 2016年第3期14-20,共7页
提前准确预测所需电力负荷,做好电力规划是电力部门保证电力供应稳定不可或缺的重要环节.基于欧洲智能网络(EUNITE)竞赛电力数据和北美电力数据,提出一种多因素加法模型,进行中期电力预测.考虑到温度、假期、星期等因素对电力负荷产生... 提前准确预测所需电力负荷,做好电力规划是电力部门保证电力供应稳定不可或缺的重要环节.基于欧洲智能网络(EUNITE)竞赛电力数据和北美电力数据,提出一种多因素加法模型,进行中期电力预测.考虑到温度、假期、星期等因素对电力负荷产生不同的影响,拟合出这些因素与电力负荷之间的映射关系,相加得到电力负荷预测的函数.还比较了业界常用的7种不同的算法模型,使用6种不同指标对这些模型和多因素加法模型进行评估,实验结果发现,在这8种不同算法模型中,多因素加法模型有着更加精确的预测性能,运算速度比其他模型快,并且模型更加容易理解和解释. 展开更多
关键词 负荷预测 多因素加法模型 中期电力预测 人工智能算法 数据挖掘
下载PDF
基于改进的Jaccard系数文档相似度计算方法 被引量:26
6
作者 俞婷婷 徐彭娜 +1 位作者 江育娥 林劼 《计算机系统应用》 2017年第12期137-142,共6页
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文... 文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度.实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题. 展开更多
关键词 文本相似度 Jaccard系数 文本分析 文本查重 文本检索
下载PDF
基于马尔科夫模型的就餐人数预测 被引量:3
7
作者 徐彭娜 林志兴 +1 位作者 林劼 江育娥 《计算机系统应用》 2017年第4期212-217,共6页
准确预测就餐人数能够降低学校食堂的运行成本,提高学生对食堂的满意度.根据校园一卡通的消费情况,提出一种基于马尔科夫模型的就餐人数预测研究方法.首先,通过计算早餐就餐行为得到初始概率;其次,分别通过计算早、午餐和午、晚餐就餐... 准确预测就餐人数能够降低学校食堂的运行成本,提高学生对食堂的满意度.根据校园一卡通的消费情况,提出一种基于马尔科夫模型的就餐人数预测研究方法.首先,通过计算早餐就餐行为得到初始概率;其次,分别通过计算早、午餐和午、晚餐就餐行为得到早餐午餐概率转移矩阵和午餐晚餐概率转移矩阵;最后,根据初始概率和概率转移矩阵构建的模型预测三餐的就餐人数.该方法的就餐人数预测的平均预测误差率为1.31%,具有良好的预测效果.实验结果表明,该方法能够反映学生的就餐行为,从而可以为学校后勤部门提供一些参考意见,有助于学校的建设和管理也有助于满足学生的需要. 展开更多
关键词 数据挖掘 马尔科夫模型 就餐人数 预测 概率转移矩阵
下载PDF
基于分布式架构的时间序列局部相似检测算法 被引量:1
8
作者 林炀 江育娥 林劼 《计算机应用》 CSCD 北大核心 2016年第12期3285-3291,共7页
基于动态时间规整算法思想的CrossMatch算法可以用来解决序列间的部分相似问题,但是由于算法时间空间复杂度过高,需要消耗大量的计算资源,因此无法应用于长序列之间的计算。针对以上问题,提出了一个基于分布式平台上的时间序列局部相似... 基于动态时间规整算法思想的CrossMatch算法可以用来解决序列间的部分相似问题,但是由于算法时间空间复杂度过高,需要消耗大量的计算资源,因此无法应用于长序列之间的计算。针对以上问题,提出了一个基于分布式平台上的时间序列局部相似性检测算法。将CrossMatch算法实现在了分布式框架上,解决了计算资源不足的问题。首先需要对序列进行切分,分别放置在不同的节点上;其次,各节点分别处理各自序列的相似部分;最后,通过对结果进行汇总并拼接,找出序列间的局部相似。实验结果表明,该算法在准确性上和CrossMatch相近,在时间上也有提升。改进后的分布式算法不仅解决了单机无法处理的长序列计算问题,而且可以通过增加并行计算节点数提高运行速度。 展开更多
关键词 动态时间规整 MAPREDUCE 时间序列 局部相似性 并行化
下载PDF
改进的软件错误报告自动分类算法
9
作者 黄伟 林劼 +1 位作者 江育娥 江秉华 《计算机工程》 CAS CSCD 北大核心 2015年第6期183-187,共5页
软件错误报告的自动分类能够节省大量人力和时间,然而用户提交的错误报告主观性较强,对错误报告的描述较随意,造成自动分类的效率低下。为此,基于传统的词频-逆向文件频率(TF-IDF)算法,结合文档内词条频度与词条在同类别及不同类别文档... 软件错误报告的自动分类能够节省大量人力和时间,然而用户提交的错误报告主观性较强,对错误报告的描述较随意,造成自动分类的效率低下。为此,基于传统的词频-逆向文件频率(TF-IDF)算法,结合文档内词条频度与词条在同类别及不同类别文档中的分布情况,提出2种特征降维的改进算法,降维后再对词条进行权值处理,进一步提高特征降维的效果。实验结果表明,应用该算法得到的错误报告自动分类在精确率、召回率、F1值和准确度等指标上比现有算法都有明显提高。 展开更多
关键词 特征降维 错误报告 文本自动分类 词频-逆向文件频率 特征权重 频率
下载PDF
云环境下软件错误报告自动分类算法改进
10
作者 黄伟 林劼 江育娥 《计算机应用》 CSCD 北大核心 2016年第5期1212-1215,1221,共5页
用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频... 用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频-逆文档频率(TF-IDF),考虑到词条在类间和类内出现情况对文本分类的影响,提出一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法,同时在Hadoop平台下使用MapReduce计算模型实现该算法的分布式版本。实验结果表明,改进的多项式朴素贝叶斯算法将F1值提高到71%,比原算法提高了27个百分点,同时在海量数据下可以通过拓展节点的方式缩短运行时间,有较好的执行效率。 展开更多
关键词 多项式朴素贝叶斯 错误报告 文本自动分类 词频-逆文档频率 云计算
下载PDF
深度学习哈希综述 被引量:2
11
作者 沈琳 林劼 江育娥 《小型微型计算机系统》 CSCD 北大核心 2020年第10期2082-2091,共10页
深度学习哈希技术将哈希方法与深度学习技术相结合,获得原始数据的特征表示以及语义信息,进而得到数据的二进制哈希码.深度学习哈希方法被广泛应用于图像检索、文本检索以及视频检索等领域,并取得了瞩目成果.本文首先对深度学习哈希方... 深度学习哈希技术将哈希方法与深度学习技术相结合,获得原始数据的特征表示以及语义信息,进而得到数据的二进制哈希码.深度学习哈希方法被广泛应用于图像检索、文本检索以及视频检索等领域,并取得了瞩目成果.本文首先对深度学习哈希方法的研究进展以及方法的基本框架进行了介绍;然后详细阐述了深度学习哈希方法的多种目标函数项,包括重构误差、位平衡、位独立、哈希约束、参数正则化和稀疏性限制等;并根据样本标签的个数(无标签/单标签/多标签)以及输入形式(单样本/二元组/多元组)对该方法进行分类;最后总结了现有深度学习哈希方法的不足以及未来的发展方向. 展开更多
关键词 近似最近邻搜索 深度学习哈希 深度学习 哈希方法 目标函数
下载PDF
基于位置信息的非比对序列聚类方法
12
作者 魏静 徐彭娜 +1 位作者 江育娥 林劼 《计算机应用与软件》 2017年第12期42-46,共5页
非比对序列相似性模型直接采用序列自身的统计信息来计算序列之间的相似度,具有运算速度快、聚类结果准确等优点。提出一种基于位置信息的非比对序列相似性模型,通过提取K词模型中每个词的Local Frequency(LF),计算对应K词的LF熵,并结合... 非比对序列相似性模型直接采用序列自身的统计信息来计算序列之间的相似度,具有运算速度快、聚类结果准确等优点。提出一种基于位置信息的非比对序列相似性模型,通过提取K词模型中每个词的Local Frequency(LF),计算对应K词的LF熵,并结合K词频率进行序列的特征提取,应用于蛋白质聚类。实验结果表明该方法能够有效地提取序列的信息,提高聚类的准确率。 展开更多
关键词 K-词 LF熵 K—means聚类 位置信息
下载PDF
基于Hadoop的重叠基因对数量的计算方法
13
作者 刘书田 江育娥 林劼 《福建师范大学学报(自然科学版)》 CAS 北大核心 2019年第6期29-39,共11页
基因组间的相似性可以通过重叠基因对的数量进行度量,基因组数据量的指数增长对重叠基因对数量的计算方法提出了更高的要求,业界迫切需要一种能够处理各种数量级别的基因数据库和待查询基因组的计算工具.本文提出一种基于Hadoop的重叠... 基因组间的相似性可以通过重叠基因对的数量进行度量,基因组数据量的指数增长对重叠基因对数量的计算方法提出了更高的要求,业界迫切需要一种能够处理各种数量级别的基因数据库和待查询基因组的计算工具.本文提出一种基于Hadoop的重叠基因对数量的计算方法--DBits.在较小的数据集上,DBits的计算时间少于业界最常用的方法BITS,而在BITS无法处理的海量数据集上,DBits可以进行有效计算.DBits充分发挥分布式计算在大数据处理中的优势,可用于对数据量较大的基因组进行分析,有效地解决了现有技术中存在的重叠基因对数量计算难的问题. 展开更多
关键词 生物信息学 基因组 重叠基因对 大数据 HADOOP
下载PDF
基于位置信息熵的局部敏感哈希聚类方法
14
作者 徐彭娜 魏静 +1 位作者 林劼 江育娥 《计算机应用与软件》 北大核心 2018年第3期230-235,252,共7页
在分析海量生物序列时,现有的聚类算法存在着时间效率不高、准确率较低,以及聚类结果的生物意义不足等问题。针对这些问题,提出一种基于位置信息熵的局部敏感哈希聚类方法。通过对生物序列使用K词计算其标准熵,将标准熵作为局部敏感哈... 在分析海量生物序列时,现有的聚类算法存在着时间效率不高、准确率较低,以及聚类结果的生物意义不足等问题。针对这些问题,提出一种基于位置信息熵的局部敏感哈希聚类方法。通过对生物序列使用K词计算其标准熵,将标准熵作为局部敏感哈希函数簇的特征向量,计算特征矩阵并应用于生物序列聚类。实验结果表明,该算法能够有效地提高时间效率和聚类的准确率。随着数据集的增大,也同样取得很好的效果,实验结果更具有生物解释性和实际意义。 展开更多
关键词 位置信息 标准熵 局部敏感哈希 生物序列聚类 编辑距离
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部