期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
基于相似日聚类及模态分解的短期光伏发电功率组合预测研究
1
作者 龙小慧 秦际赟 +1 位作者 张青雷 段建国 《电网技术》 EI CSCD 北大核心 2024年第7期2948-2957,I0087-I0088,共12页
短期光伏发电功率预测是电站制定发电计划并进行调度的重要组成部分,有助于电力系统的动态稳定。针对光伏时序预测中存在的噪声干扰及单一模型预测效果不稳定等问题,该文提出一种基于改进型自适应白噪声的完全集合经验模态分解(improved... 短期光伏发电功率预测是电站制定发电计划并进行调度的重要组成部分,有助于电力系统的动态稳定。针对光伏时序预测中存在的噪声干扰及单一模型预测效果不稳定等问题,该文提出一种基于改进型自适应白噪声的完全集合经验模态分解(improved complete ensemble empirical mode decomposition with adaptive noise,ICEEMDAN)的组合预测模型。首先,利用相关系数提取重要气象特征,并采用模糊C均值聚类(fuzzy C-means clustering,FCM)将原始数据集划分为晴天、晴转多云和雨天。其次,每种相似日以最后一天为待预测日,其余为历史训练集;利用ICEEMDAN将历史训练集分解成若干个较为规律的子序列,并用排列熵(permutation entropy,PE)对各子序列进行重构。最后,高频项采用由卷积神经网络(convolutional neural network,CNN)、(bidirectional gated recurrent unit,Bi GRU)双向门控循环单元与注意力机制组合而成的CNN-BiGRU-ATTENTION神经网络预测,低频项和趋势项采用最小二乘支持向量回归机(least squares support vector regression,LSSVR)进行预测,将预测结果叠加得到最终光伏发电功率预测值。通过实例验证:该文组合模型在不同天气条件下,可以解决单一模型预测精度低、预测效果不稳定等问题;相比其他模态分解,能够更精确地预测波动较大的局部特征。 展开更多
关键词 光伏发电 模态分解 相似 卷积神经网络 最小二乘支持向量回归机 注意力机制
下载PDF
基于相似度聚类的可信联邦安全聚合算法
2
作者 蔡红云 张宇 +2 位作者 王诗云 赵傲 张美玲 《电子与信息学报》 EI CSCD 北大核心 2023年第3期894-904,共11页
联邦学习能够有效地规避参与方数据隐私问题,但模型训练中传递的参数或者梯度仍有可能泄露参与方的隐私数据,而恶意参与方的存在则会严重影响聚合过程和模型质量。基于此,该文提出一种基于相似度聚类的可信联邦安全聚合方法(FSA-SC)。... 联邦学习能够有效地规避参与方数据隐私问题,但模型训练中传递的参数或者梯度仍有可能泄露参与方的隐私数据,而恶意参与方的存在则会严重影响聚合过程和模型质量。基于此,该文提出一种基于相似度聚类的可信联邦安全聚合方法(FSA-SC)。首先基于客户端训练数据集规模及其与服务器间的通信距离综合评估选出拟参与模型聚合的候选客户端;然后根据候选客户端间的相似度,利用聚类将候选客户端划分为良性客户端和异常客户端;最后,对异常客户端类中的成员利用类内广播和二次协商进行参数替换和记录,检测识别恶意客户端。为了验证FSA-SC的有效性,以联邦推荐为应用场景,选取MovieLens 1M,Netflix数据集和Amazon抽样数据集为实验数据集,实验结果表明,所提方法能够实现高效的安全聚合,且相较对比方法有更高的鲁棒性。 展开更多
关键词 隐私保护 联邦学习 模型攻击 安全 相似
下载PDF
基于稀疏Parzen窗密度估计的快速自适应相似度聚类方法 被引量:6
3
作者 钱鹏江 王士同 邓赵红 《自动化学报》 EI CSCD 北大核心 2011年第2期179-187,共9页
相似度聚类方法(Similarity-based clustering method,SCM)因其简单易实现和具有鲁棒性而广受关注.但由于内含相似度聚类算法(Similarity clustering algorithm,SCA)的高时间复杂度和凝聚型层次聚类(Agglomerative hierarchicalclusteri... 相似度聚类方法(Similarity-based clustering method,SCM)因其简单易实现和具有鲁棒性而广受关注.但由于内含相似度聚类算法(Similarity clustering algorithm,SCA)的高时间复杂度和凝聚型层次聚类(Agglomerative hierarchicalclustering,AHC)的高空间复杂度,SCM不适用大数据集场合.本文首先发现了SCM和核密度估计问题的本质联系,并以此入手,通过快速压缩集密度估计器(Fast reduced set density estimator,FRSDE)和基于图的松弛聚类(Graph-based relaxedclustering,GRC)算法提出了快速自适应相似度聚类方法(Fast adaptive similarity-based clustering method,FASCM).相比于原SCM,该方法的主要优点是:1)其总体渐近时间复杂度与样本容量呈线性关系;2)不依赖于人工经验的干预,具有了自适应性.由此,FASCM适用于大数据集环境.该方法的有效性在图像分割应用中进行了验证. 展开更多
关键词 相似 密度估计 时间复杂度 图像分割
下载PDF
基于相似性传播聚类与主成分分析的断层识别方法 被引量:9
4
作者 陈雷 肖创柏 +2 位作者 禹晶 王真理 李学良 《石油地球物理勘探》 EI CSCD 北大核心 2017年第4期826-833,共8页
针对现有自动地震断层识别方法所存在的精度低、耗时较长及不能获得量化的断层识别结果等问题,提出了一种基于相似性传播聚类与主成分分析(Principal Component Analysis,PCA)的地震断层识别方法。首先,采用连通区域标注方法确定地震层... 针对现有自动地震断层识别方法所存在的精度低、耗时较长及不能获得量化的断层识别结果等问题,提出了一种基于相似性传播聚类与主成分分析(Principal Component Analysis,PCA)的地震断层识别方法。首先,采用连通区域标注方法确定地震层位的不连续点。然后,利用相似性传播聚类算法对层位不连续点进行聚类,每一类不连续点可以确定一条断层,以此可获得断层的数量和每个类别的聚类中心。最后,基于PCA方法计算出每一类层位不连续点的主方向,将沿着主方向且经过相应聚类中心的线段作为断层。基于模型数据和实际地震数据将文中方法与现有方法进行了对比,在峰值信噪比、均方误差、时间消耗和断层条数符合率等方面彰显了文中方法的合理性,并可对断层进行"量化"解释,在地震勘探等领域具有较高的实际意义。 展开更多
关键词 断层识别方法 连通区域 不连续点 相似性传播 主成分分析
下载PDF
基于相似性传播聚类的灰度图像分割 被引量:4
5
作者 张仁彦 赵洪亮 +1 位作者 卢晓 曹茂永 《海军工程大学学报》 CAS 北大核心 2009年第3期33-37,共5页
基于k-Means等聚类算法的图像分割对聚类中心的初始选择敏感,可靠性差。为避免初始聚类中心选择的影响,将相似性传播聚类用于灰度图像分割。另外,为降低该聚类算法输入相似度矩阵的计算时间复杂度,提出用待分割图像中出现过的灰度值代... 基于k-Means等聚类算法的图像分割对聚类中心的初始选择敏感,可靠性差。为避免初始聚类中心选择的影响,将相似性传播聚类用于灰度图像分割。另外,为降低该聚类算法输入相似度矩阵的计算时间复杂度,提出用待分割图像中出现过的灰度值代替像素点作为数据点进行聚类。实验结果表明,与基于k-Means聚类的分割算法相比,该算法不需要预设聚类中心,可靠性更高。 展开更多
关键词 相似性传播 图像分割 中心 灰度值 时间复杂度
下载PDF
基于相似性传播聚类的航空发动机突发故障诊断 被引量:7
6
作者 李丽敏 王仲生 姜洪开 《振动与冲击》 EI CSCD 北大核心 2014年第1期51-55,共5页
针对航空发动机突发故障,构建了一种基于相似性传播聚类的突发故障诊断方法。首先利用突发故障历史监测数据建立突发故障数据库,通过相似性传播聚类找到数据库中所有突发故障数据的中心,当诊断新采集数据的突发故障类型时,通过相似性传... 针对航空发动机突发故障,构建了一种基于相似性传播聚类的突发故障诊断方法。首先利用突发故障历史监测数据建立突发故障数据库,通过相似性传播聚类找到数据库中所有突发故障数据的中心,当诊断新采集数据的突发故障类型时,通过相似性传播聚类找到当前新采集数据的中心,经过与突发故障数据库中的数据中心进行匹配判断该新采集数据所对应的突发故障类型。将该突发故障诊断方法应用到发动机转子实验台的突发故障诊断中,仿真和实验结果表明该方法的可行性,并通过与其他方法比较,表明该方法具有诊断时间短和误差小的优点。 展开更多
关键词 相似性传播 突发故障诊断 突发故障数据库 中心匹配 航空发动机
下载PDF
一种基于语义相似度的文本聚类算法 被引量:18
7
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本 语义相似 文本表示 语义相似度的文本算法
下载PDF
基于相似模式聚类的电子商务网站个性化推荐系统研究 被引量:6
8
作者 王太雷 《计算机工程与应用》 CSCD 北大核心 2005年第6期152-157,共6页
保证个性化推荐系统产生高质量的推荐结果的重要因素是:系统必须要确定访问者在访问行为的相似程度,从而能预测访问者的访问和购买兴趣。实现此功能的关键技术是计算访问者对象在整个或者部分属性空间的相似距离,从而得到访问行为的相... 保证个性化推荐系统产生高质量的推荐结果的重要因素是:系统必须要确定访问者在访问行为的相似程度,从而能预测访问者的访问和购买兴趣。实现此功能的关键技术是计算访问者对象在整个或者部分属性空间的相似距离,从而得到访问行为的相似程度。该文首先分析了目前在推荐系统中常用的用于计算访问行为相似程度的距离函数,发现它们是测定访问者对象在所有测试属性空间上的平均测定,而在属性集的子维空间上的相似模式并没有有效地挖掘出来。然后提出一种新的基于相似模式聚类算法的电子商务个性化推荐系统,综合考虑可供挖掘的数据源(如:网站内容,网站的超链接结构,顾客访问网站的行为,以及商业的实际购买情况,顾客的身份数据等)获取用户访问电子商务网站的访问页面序列,构建较高购买者的顾客行为的矩阵模型,高效地得到访问者对象在整个或者部分属性空间的相似访问行为,然后通过挖掘潜在购买者与较高购买者的相似模式特征,帮助顾客发现他所希望购买的产品信息,用于提高实际购买量,实验数据表明,该系统高效并可广泛使用。 展开更多
关键词 个性化推荐系统 相似模式 电子商务
下载PDF
字面相似聚类法辅助构造词族表、分面类表和自动标引 被引量:8
9
作者 张琪玉 《图书馆论坛》 CSSCI 北大核心 2002年第5期95-96,共2页
文章论述了字面相似聚类法的原理、实现方法、应用 ,并对该法作了评价。
关键词 字面相似 分面 自动标引 计算机 词族表 情报检索
下载PDF
相似聚类的二级索引重复数据删除算法 被引量:2
10
作者 王青松 葛慧 《小型微型计算机系统》 CSCD 北大核心 2017年第12期2797-2801,共5页
针对重复数据删除算法指纹对比I/O瓶颈问题,提出一种基于相似聚类的二级索引重复数据删除算法.首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中.... 针对重复数据删除算法指纹对比I/O瓶颈问题,提出一种基于相似聚类的二级索引重复数据删除算法.首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中.然后计算每个类中数据块的MD5值,将其信息形成二级索引存放在聚类中心.当需要进行重复数据块检测时,计算待检测数据块Simhash值到一级索引中所有聚类中心Simhash值的海明距离,并将海明距离最小的类的二级索引调入内存中进行MD5指纹对比.实验结果表明,算法没有误判率,在较大提高了指纹对比速度的同时,每次检测只产生一次I/O操作,具有更高效的性能. 展开更多
关键词 重复数据删除 二级索引 相似 Simhash 海明距离
下载PDF
基于co-occurrence相似度的聚类集成方法 被引量:3
11
作者 凌光 王明春 冯嘉毅 《计算机应用》 CSCD 北大核心 2011年第2期441-445,461,共6页
首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用... 首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用co-occurrence相似度在计算某个初始聚类结果中数据对象之间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果之间的相互影响和联系。实验表明,基于co-occurrence相似度的聚类集成(CSCE)方法能有效识别数据之间的细微结构,有助于提高聚类集成的效果。 展开更多
关键词 集成 binary相似 co-occurrence相似 基于簇相似的划分算法 基于co-occurrence相似度的集成
下载PDF
基于相似聚类分析的毕业设计成绩评价体系研究 被引量:1
12
作者 王雅 杨启耀 《黄石理工学院学报》 2010年第3期4-5,17,共3页
文章以理工科专业本科生毕业设计为例提出了基于相似聚类分析的成绩综合评价系统。运用相似聚类法设计了毕业论文成绩综合评价的指标体系,确定了指标权重,并最终客观高效地得出毕业设计的等级。
关键词 毕业设计 成绩综合评价体系 相似
下载PDF
基于相似性传播聚类算法的机会信号选择
13
作者 郑磊 张军 薛瑞 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2012年第9期1230-1234,1266,共6页
介绍了复杂低空环境下的机会信号导航方法,并提出了一种机会信号选择方法,解决了机会导航信号源类型多、数量多难以选择的问题.由于信号源的几何精度因子(GDOP,Geometry Dilution of Precision)越小则定位精度越高,同一区域信号对GDOP... 介绍了复杂低空环境下的机会信号导航方法,并提出了一种机会信号选择方法,解决了机会导航信号源类型多、数量多难以选择的问题.由于信号源的几何精度因子(GDOP,Geometry Dilution of Precision)越小则定位精度越高,同一区域信号对GDOP影响相似,因此采用聚类的方法选择信号.首先,将各信号间的距离作为相似度测量参数,通过相似性传播聚类算法获得相似类组;然后,依据类组的中心点确定所选类组;最后,从中选择组内的机会信号.经仿真,分析了不同分布的机会信号聚类特点,通过对汶川震区机会信号选择的仿真,验证了相似性传播聚类算法的有效性.另外,该方法在复杂低空飞行应用中将大大提高信号选择的效率. 展开更多
关键词 复杂低空飞行 机会信号导航 相似性传播 信号选择
下载PDF
水系划分的剖面相似系数聚类法
14
作者 潘长明 高飞 +1 位作者 袁延茂 王本洪 《海洋测绘》 2014年第1期43-46,共4页
提出一种基于温度剖面相似系数的水系划分方法。基本思想是:将各温度剖面视为独立样本,各深度数据为样本变量,先基于划分区域水文特征选取合理数量的水系中心剖面,再利用各样本与各中心剖面相似系数大小进行聚类,得到各水系划分数据集合... 提出一种基于温度剖面相似系数的水系划分方法。基本思想是:将各温度剖面视为独立样本,各深度数据为样本变量,先基于划分区域水文特征选取合理数量的水系中心剖面,再利用各样本与各中心剖面相似系数大小进行聚类,得到各水系划分数据集合;利用几何平均求得各水系集合新的中心剖面,重复剖面相似系数聚类过程,直至中心剖面不再变化为止。最后利用国家海洋信息中心发布的中国近海CTD温、盐产品对该方法进行试验,并对聚类得到的各类温度剖面展开讨论。结果较好的反应出各区域温度剖面特征,综合体现出东海各区域温度大小、海流、水团和水深特性。 展开更多
关键词 温度剖面 剖面相似系数 东海 水系划分
下载PDF
基于能量约束与结构相似聚类的图像篡改检测
15
作者 王晓雨 《太赫兹科学与电子信息学报》 2021年第3期478-484,共7页
借助能量约束与结构相似聚类机制,设计了一种新的图像内容伪造检测算法。首先,借助Hessian算子,利用盒式滤波器来生成Hessian行列式,以准确检测图像特征。然后,通过计算图像的Haar小波值,求取图像的方向信息,以构建图像特征的邻域窗口... 借助能量约束与结构相似聚类机制,设计了一种新的图像内容伪造检测算法。首先,借助Hessian算子,利用盒式滤波器来生成Hessian行列式,以准确检测图像特征。然后,通过计算图像的Haar小波值,求取图像的方向信息,以构建图像特征的邻域窗口。再计算该邻域窗口内像素点的曲率信息,构成鲁棒性较好的特征向量。最后,对图像特征进行欧氏距离度量,并联合图像的区域能量特征,完成度量结果的约束,以实现图像特征的精确匹配。采用结构相似度(SSIM)函数,聚类匹配结果识别伪造区域,实现准确的检测。仿真数据表明,较当前内容检测技术而言,在多种几何变换干扰下,本文算法具有更高的检测准确性与鲁棒性。 展开更多
关键词 图像复制-粘贴篡改检测 Hessian算子 曲率信息 能量约束 结构相似
下载PDF
基于PCA的关键帧相似度核聚类检索算法 被引量:5
16
作者 张杰 齐官红 +1 位作者 叶蓬 陈益 《控制工程》 CSCD 北大核心 2017年第4期728-735,共8页
针对基于内容的视频检索领域中,关键帧特征矩阵维度不同时的相似度计算问题,提出一种基于主成分分析的关键帧相似度核聚类检索算法。首先,针对任意具有不同数量关键帧的视频片段,提取特征向量并构造不同维度的特征矩阵。其次,基于PCA计... 针对基于内容的视频检索领域中,关键帧特征矩阵维度不同时的相似度计算问题,提出一种基于主成分分析的关键帧相似度核聚类检索算法。首先,针对任意具有不同数量关键帧的视频片段,提取特征向量并构造不同维度的特征矩阵。其次,基于PCA计算对特征矩阵进行SVD计算降维矩阵后,结合矩阵运算方法及核方法设计出一种视频关键帧相似度核聚类检索算法,并给出其加权改进形式。最后,通过测试视频标准库和人工视频片段的实验表明,该算法能更好地提视频高视频检索的效率。 展开更多
关键词 基于内容 视频检索 关键帧 特征矩阵 PCA 相似度核
下载PDF
基于相似度聚类的网络异常快速识别方法研究
17
作者 李伟民 《信息与电脑》 2019年第9期117-118,共2页
传统网络异常识别方法速度慢、准确率低。为此,笔者提出基于相似度聚类的网络异常快速识别方法,经过详细分析相似度聚类算法,提出网络异常快速识别五步流程;并对网络安全权限机制识别和签名机制进行强化设计。实验对比表明,提出的识别... 传统网络异常识别方法速度慢、准确率低。为此,笔者提出基于相似度聚类的网络异常快速识别方法,经过详细分析相似度聚类算法,提出网络异常快速识别五步流程;并对网络安全权限机制识别和签名机制进行强化设计。实验对比表明,提出的识别方法能在短时间内识别网络异常,准确率高,对于保证网络安全有重要意义。 展开更多
关键词 相似 网络异常 异常识别 快速识别 识别方法
下载PDF
基于相似聚类的雷达信号跟踪方法 被引量:1
18
作者 徐启凤 司伟建 曲志昱 《应用科技》 CAS 2016年第1期27-29,50,共4页
为了解决传统跟踪方法对于子周期随机变化的参差雷达信号跟踪效果不佳的问题,提出了利用相似聚类进行跟踪的方法。此方法利用信号的特征参数,能有效跟踪常规雷达信号和复杂雷达信号。本文介绍了相似聚类跟踪的基本原理和具体步骤,并进... 为了解决传统跟踪方法对于子周期随机变化的参差雷达信号跟踪效果不佳的问题,提出了利用相似聚类进行跟踪的方法。此方法利用信号的特征参数,能有效跟踪常规雷达信号和复杂雷达信号。本文介绍了相似聚类跟踪的基本原理和具体步骤,并进行了信号跟踪仿真实验。仿真数据验证了聚类跟踪的对于复杂的雷达信号跟踪有更好的效果,易于实现,适用于处理大量数据。 展开更多
关键词 雷达信号 信号分选 信号跟踪 算法 相似 参差信号
下载PDF
一种识别冰雹云的相似演变聚类方法研究 被引量:1
19
作者 周叶芳 朱拥军 《安徽农业科学》 CAS 北大核心 2007年第30期9637-9642,9750,共7页
利用天水市713CD多普勒天气雷达资料,将冰雹云生命周期按回波强度35、40、45、50、55、60 dbz划分为6个演变阶段,求出相应阶段的冰雹云三维参数值,经对比检验,选出6个最佳识别参数,即:回波(10 dbz)顶高度(H10)、回波(10 dbz)顶温度(T10... 利用天水市713CD多普勒天气雷达资料,将冰雹云生命周期按回波强度35、40、45、50、55、60 dbz划分为6个演变阶段,求出相应阶段的冰雹云三维参数值,经对比检验,选出6个最佳识别参数,即:回波(10 dbz)顶高度(H10)、回波(10 dbz)顶温度(T10)、最强回波顶高度(Hmax)、累积带顶高度(Ha)、H10-WBZ、(Hmax-WBZ).SSI。将冰雹云演变特征的相似转化为数学矩阵相似,然后用矩阵的相似程度(贴近度),进行冰雹云的提前识别及预警,这便是相似演变聚类方法。同时,在计算分析时首次采用移动方案和累积方案两种冰雹云识别方案。提出最佳识别阶段和最佳扫描模式,是对冰雹云的提前识别和预警关键。 展开更多
关键词 冰雹云 相似演变 移动方案 累积方案 多普勒雷达
下载PDF
eDNA监测测序数据分析注释中参考数据库选择、指标阈值选择、目标数据准备的影响——以长江中游鱼类为监测目标
20
作者 许兰馨 杨海乐 +1 位作者 刘志刚 杜浩 《湖泊科学》 EI CAS CSCD 北大核心 2024年第6期1843-1852,共10页
在基于宏条形码(meta-barcoding)的eDNA监测技术中,eDNA测序数据的分析和注释是决定监测结果判断和评估精准与否的基础,而参考数据库选择、指标阈值选择、目标数据准备是eDNA测序数据分析和注释中最为关键的3个技术环节。为厘清上述3个... 在基于宏条形码(meta-barcoding)的eDNA监测技术中,eDNA测序数据的分析和注释是决定监测结果判断和评估精准与否的基础,而参考数据库选择、指标阈值选择、目标数据准备是eDNA测序数据分析和注释中最为关键的3个技术环节。为厘清上述3个技术环节处理方案的影响,本研究以长江中游2组eDNA监测COI基因测序数据为分析对象,针对鱼类的检出进行3组实验来分别检验:1)不同参考数据库及物种注释算法对注释结果的影响;2)不同OTU聚类序列相似度和物种注释分类置信度(序列一致性和序列覆盖度)对注释结果的影响;3)目标数据中各物种不同序列丰富度对注释结果的影响。结果显示:1)Blast算法下,3个版本nt库注释出的物种基本一致(72%~78%),2个本地序列参考库注释出的物种也基本一致(91%~96%),这5个序列参考库注释出的物种52%~68%一致;nt库RDP Classifier算法注释出的物种覆盖95%以上Blast算法注释出的物种,并比Blast算法注释出的物种多151%~443%,多出的物种大都是错误注释,本地参考数据库RDP Classifier算法注释出的物种覆盖66%~85%的Blast算法注释出的物种,并存在数条只注释到科属的结果。2)OTU聚类序列相似度阈值,取值0.999比取值0.99获得的OTU多154%~209%,注释到鱼类的OTU多240%~490%;注释分类置信度阈值(Blast算法,序列一致性和序列覆盖度)从0.8到0.99注释获得的物种组成(94%以上)基本一致,OTU组成(83%以上)也基本一致,注释分类置信度阈值取0.7时注释获得的物种组成、OTU组成与取0.8及以上时注释获得的有较大差异。3)在OTU聚类序列相似度阈值为0.999、注释分类置信度阈值为0.9时,多序列数据注释所得鱼类物种数、OTU数最多,物种注释正确率最高(达81.49%),分别比单序列数据的多7%、215%和高5%。在具体eDNA测序数据的分析和注释中,可通过建立完善本地参考数据库、优化OTU聚类序列相似度和物种注释分类置信度(序列一致性和序列覆盖度)取值、增加目标数据的丰富度来提高注释结果的准确性,但受制于物种注释算法的局限性,物种注释错误和注释遗漏的问题可能将长期存在,物种注释正确率通常低于85%(基于COI基因的eDNA监测)。 展开更多
关键词 环境DNA 宏条形码 参考数据库 OTU序列相似 物种注释分置信度 长江中游
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部