期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
MMOS:支持超卖的多租户数据库内存资源共享方法
1
作者 徐海洋 刘海龙 +2 位作者 杨超云 王硕 李战怀 《计算机科学》 CSCD 北大核心 2024年第2期27-35,共9页
多租户数据库为每个租户分配固定的资源配额,而这些资源配额通常未全部得到有效利用,这种静态分配策略导致资源利用率不高。若在不影响租户性能的前提下将未利用的空闲资源共享给其他租户使用,即实现资源超卖,则可以提高资源利用率、提... 多租户数据库为每个租户分配固定的资源配额,而这些资源配额通常未全部得到有效利用,这种静态分配策略导致资源利用率不高。若在不影响租户性能的前提下将未利用的空闲资源共享给其他租户使用,即实现资源超卖,则可以提高资源利用率、提升平台收益。为了支持资源超卖,需要准确预测租户的资源需求,动态地按需为租户分配资源。已有的针对多租户数据库的资源共享方法的研究对象主要是CPU资源,鲜有支持超卖的内存资源共享方法。鉴于此,在联机分析处理场景下,提出了一种支持超卖的多租户数据库内存资源共享方法MMOS(Multi-tenant database Memory resource Overselling and Sharing)。该方法通过准确预测每个租户的内存需求区间,按照区间上限为租户动态调整内存配额,在不影响租户性能的前提下,统一管理空闲内存资源以支持更多租户,实现内存超卖。实验结果表明,MMOS在租户负载动态变化的场景下具有较好效果。在不同资源量的资源池下,支持的租户数可以增加2~2.6倍,资源利用率峰值提升175%~238%。同时,每个租户的业务与性能未受影响。 展开更多
关键词 多租户数据库 资源超卖 内存资源 资源预测 资源分配
下载PDF
Ceph分布式存储系统性能优化技术研究综述 被引量:22
2
作者 张晓 张思蒙 +2 位作者 石佳 董聪 李战怀 《计算机科学》 CSCD 北大核心 2021年第2期1-12,共12页
Ceph是一个统一的分布式存储系统,可同时提供块、文件和对象3种接口的存储服务。与传统的分布式存储系统不同,它采用了无中心节点的元数据管理方式,因此具有良好的扩展性和线性增长的性能。经过十余年的发展,Ceph已被广泛地应用于云计... Ceph是一个统一的分布式存储系统,可同时提供块、文件和对象3种接口的存储服务。与传统的分布式存储系统不同,它采用了无中心节点的元数据管理方式,因此具有良好的扩展性和线性增长的性能。经过十余年的发展,Ceph已被广泛地应用于云计算和大数据存储系统。作为云计算的底层平台,Ceph除了提供虚拟机的存储服务外,还可以直接提供对象存储服务和NAS文件服务。Ceph支撑着云计算系统中多种操作系统和应用的存储需求,它的性能对其上的虚拟机和应用有较大的影响,因此Ceph存储系统的性能优化一直是学术界和工业界的研究热点。文中首先介绍了Ceph的架构和特性;然后针对现有的性能优化技术,从对内部机制进行改进、面向新型硬件和基于应用的优化这3个方面进行了归纳和总结,综述了近年来Ceph存储和优化的相关研究;最后对该领域未来的工作进行了展望,以期为分布式存储系统性能优化的研究者提供有价值的参考。 展开更多
关键词 Ceph分布式存储系统 性能优化 非易失内存 固态硬盘 统一存储
下载PDF
一种基于LSM树的键值存储系统性能优化方法 被引量:6
3
作者 王海涛 李战怀 +1 位作者 张晓 赵晓南 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1792-1802,共11页
目前,键值(key-value, KV)存储系统在众多数据密集型的应用系统中发挥着关键作用,例如页面索引、电子商务以及云存储系统等.在各种键值存储系统中,基于日志结构合并(log-structured merge, LSM)树的KV存储系统获得了广泛的应用.主要原... 目前,键值(key-value, KV)存储系统在众多数据密集型的应用系统中发挥着关键作用,例如页面索引、电子商务以及云存储系统等.在各种键值存储系统中,基于日志结构合并(log-structured merge, LSM)树的KV存储系统获得了广泛的应用.主要原因是基于LSM树的KV存储系统能够将随机写操作转化为顺序写操作,从而提升数据写性能.然而,这些存储系统也存在一些严重的性能问题.一方面,KV存储系统利用预写日志机制来保证写入数据的原子性和安全性,以便在系统发生故障时进行恢复,造成了数据的写放大.同时,日志的频繁更新也引入了严重的元数据负载,导致了额外的性能开销.另一方面,KV存储系统通常利用通用文件系统存储数据,而通用文件系统中许多KV存储系统不需要的功能和属性也会造成一定的性能开销.为了减小这些开销、提升KV存储系统写入性能,提出了RocksFS,一个针对基于LSM树的KV存储系统优化的文件系统.针对KV存储系统的负载模式简化文件系统结构,去除通用文件系统引入的负载,同时优化预写日志的存储结构和更新流程以减小其更新负载,提升写入性能.最后在普通硬盘和固态硬盘上,基于流行的KV存储系统RocksDB验证了该方法的有效性,结果显示相对于通用文件系统,RocksFS能够将小块KV数据写入和更新性能提高约8倍. 展开更多
关键词 LSM树 键值存储 文件系统 预写日志 写性能
下载PDF
基于新型存储器件的分布式文件系统性能优化 被引量:6
4
作者 董聪 张晓 +1 位作者 程文迪 石佳 《计算机应用》 CSCD 北大核心 2020年第12期3594-3603,共10页
新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题... 新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题,对Hadoop分布式文件系统(HDFS)的数据写入流程及传输过程进行了量化分析。通过量化分析HDFS数据写入过程各阶段的时间开销,发现在写入数据的各个阶段中,节点间数据传输的时间占比较大。因此提出了对应的优化方案,通过异步写入的方式并行化数据传输与处理过程,使得不同数据包的处理阶段叠加起来,减少了数据包整体的处理时间,从而提升了HDFS的写入性能。实验结果表明,所提方案将HDFS的写入吞吐量提升了15%~24%,总体的写入执行时间降低了28%~36%。 展开更多
关键词 分布式文件系统 HADOOP分布式文件系统 非易失性存储器 性能优化 异步写入
下载PDF
基于非易失性存储器的存储引擎性能优化 被引量:1
5
作者 王海涛 李战怀 +1 位作者 张晓 赵晓南 《集成技术》 2022年第3期56-70,共15页
非易失性存储器具有接近内存的读写速度,可利用其替换传统的存储设备,从而提升存储引擎的性能。但是,传统的存储引擎通常使用通用块接口读写数据,导致了较长的I/O软件栈,增加了软件层的读写延迟,进而限制了非易失性存储器的性能优势。... 非易失性存储器具有接近内存的读写速度,可利用其替换传统的存储设备,从而提升存储引擎的性能。但是,传统的存储引擎通常使用通用块接口读写数据,导致了较长的I/O软件栈,增加了软件层的读写延迟,进而限制了非易失性存储器的性能优势。针对这一问题,该文以Ceph大数据存储系统为基础,研究设计了基于非易失性存储器的新型存储引擎NVMStore,通过内存映射的方式访问存储设备,根据非易失性存储器的字节可寻址和数据持久化特性,优化数据读写流程,从而减小数据写放大以及软件栈的开销。实验结果表明,与使用非易失性存储器的传统存储引擎相比,NVMStore能够显著提升Ceph的小块数据读写性能。 展开更多
关键词 非易失性存储器 存储引擎 软件栈 性能优化
下载PDF
一种基于综合调优的数据库性能趋势预测方法 被引量:2
6
作者 王小玲 张小芳 +3 位作者 李宁 韩承枫 袁祝平 高环宇 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第5期1030-1037,共8页
云数据库智能运维中的重要应用场景之一是对监控采集的大量性能时序数据进行趋势预测。提出一种基于Prophet模型和ARIMA模型的综合调优智能趋势预测方法AutoPA4DB(auto prophet and ARIMA for database)。该方法根据数据库性能监控数据... 云数据库智能运维中的重要应用场景之一是对监控采集的大量性能时序数据进行趋势预测。提出一种基于Prophet模型和ARIMA模型的综合调优智能趋势预测方法AutoPA4DB(auto prophet and ARIMA for database)。该方法根据数据库性能监控数据的特征,进行了原始监控数据的预处理、预测模型自动调参和模型优化。采用加权的时序预测准确性度量WMC(weighted MAPE coverage),基于多个企业级数据库实例(包含10种性能指标)进行了实验验证。实验对比了5种不同时序模型的预测效果,结果表明在单调变化模式(如磁盘使用量)的数据中,文中提出的AutoPA4DB方法时序预测准确性最高;然而在震荡模式的数据中,预测效果不太稳定,例如内存使用率趋势预测效果较好,但数据库连接数趋势预测效果不理想。 展开更多
关键词 智能运维 时序数据 Prophet模型 ARIMA模型 数据库性能监控
下载PDF
基于增量局部加权学习的查询模板自适应基数估计
7
作者 冯杰明 李战怀 +1 位作者 陈群 陈肇强 《计算机学报》 EI CAS CSCD 北大核心 2022年第1期17-34,共18页
基数估计是基于代价查询优化的关键步骤,已经被研究了近40年.传统方法如基于直方图的方法在一些假设如属性相互独立、相交的表满足包含原则等成立时能基本满足准确性要求.然而,在真实运行环境中这些假设往往不再成立,可能导致基数估计... 基数估计是基于代价查询优化的关键步骤,已经被研究了近40年.传统方法如基于直方图的方法在一些假设如属性相互独立、相交的表满足包含原则等成立时能基本满足准确性要求.然而,在真实运行环境中这些假设往往不再成立,可能导致基数估计严重错误进而造成查询延迟.近年来,随着数据的增多和新硬件的发展,使用机器学习方法来提高基数估计的质量成为了可能.由于基于代价的查询优化主要根据查询中子执行计划的估计代价来选择最优的查询执行计划,因此,有一些最近的工作针对一些关键的子执行计划模板建立相应的局部学习模型,取得了不错的进展.但是,这些局部模型主要用于查询(查询空间)分布和数据(数据库数据)分布不变的场景,而在真实运行环境中,它们往往不断地发生变化,限制了这些估计技术的有效性.在本文中,我们针对子执行计划模板在查询分布和数据分布不断变化的环境下提出了一种使用增量的局部加权学习进行自适应基数估计的方法.具体地说,首先抽取子执行计划的语义和统计特征使之能代表当前查询和数据的特性,然后使用增量的局部加权学习模型根据查询分布和数据分布的变化进行自适应的学习,实现基数估计.最后,通过对比实验验证了本文方法的有效性. 展开更多
关键词 基数估计 查询优化 执行计划 自适应学习 增量学习 局部加权学习
下载PDF
基于知识图谱的跨项目安全缺陷报告预测方法 被引量:1
8
作者 郑炜 刘程远 +4 位作者 吴潇雪 陈翔 成婧源 孙小兵 孙瑞阳 《软件学报》 EI CSCD 北大核心 2024年第3期1257-1279,共23页
安全缺陷报告可以描述软件产品中的安全关键漏洞.为了消除软件产品的安全攻击风险,安全缺陷报告(security bug report,SBR)预测越来越受到研究人员的关注.但在实际软件开发场景中,需要进行软件安全漏洞预测的项目可能是来自新公司或属... 安全缺陷报告可以描述软件产品中的安全关键漏洞.为了消除软件产品的安全攻击风险,安全缺陷报告(security bug report,SBR)预测越来越受到研究人员的关注.但在实际软件开发场景中,需要进行软件安全漏洞预测的项目可能是来自新公司或属于新启动的项目,没有足够的已标记安全缺陷报告供在实践中构建此软件安全漏洞预测模型.一种简单的解决方案就是使用迁移模型,即利用其他项目已经标记过的数据来构建预测模型.受到该领域最近的两项研究工作的启发,以安全关键字过滤为思路提出一种融合知识图谱的跨项目安全缺陷报告预测方法KG-SBRP(knowledge graph of security bug report prediction).使用安全缺陷报告中的文本信息域结合CWE(common weakness enumeration)与CVE Details(common vulnerabilities and exposures)共同构建三元组规则实体,以三元组规则实体构建安全漏洞知识图谱,在图谱中结合实体及其关系识别安全缺陷报告.将数据分为训练集和测试集进行模型拟合和性能评估.所构建的模型在7个不同规模的安全缺陷报告数据集上展开实证研究,研究结果表明,所提方法与当前主流方法FARSEC和Keyword matrix相比,在跨项目安全缺陷报告预测场景下,性能指标F1-score值可以平均提高11%,除此之外,在项目内安全缺陷报告预测场景下,F1-score值同样可以平均提高30%. 展开更多
关键词 软件安全 安全缺陷报告预测 跨项目 知识图谱 领域知识
下载PDF
基于深度学习的函数名一致性检查及推荐方法
9
作者 郑炜 唐辉 +1 位作者 陈翔 张永杰 《软件学报》 EI CSCD 北大核心 2024年第10期4604-4622,共19页
函数是大多数传统编程语言中聚合行为的最小命名单元,函数名的可读性对于程序员理解程序功能及不同模块之间的交互有着至关重要的作用,低质量的函数名会使开发人员感到困惑,增加代码中的坏味道,进而引发由API误用而导致的软件缺陷.为此... 函数是大多数传统编程语言中聚合行为的最小命名单元,函数名的可读性对于程序员理解程序功能及不同模块之间的交互有着至关重要的作用,低质量的函数名会使开发人员感到困惑,增加代码中的坏味道,进而引发由API误用而导致的软件缺陷.为此,提出一种基于深度学习的函数名一致性检查及推荐方法,该方法被命名为DMName.首先,对于给定的目标函数源码,分别构建其内部上下文、交互上下文、兄弟上下文和封闭上下文,合并后得到上下文信息标记序列,然后利用FastText词嵌入技术将标记序列转换为上下文表示向量序列,输入到seq2seq模型编码器中,引入Copy机制和Coverage机制分别解决OOV问题和重复解码问题,输出目标函数名预测结果的向量序列,借助双通道CNN分类器进行函数名的一致性判断,若不一致则根据向量空间相似度匹配直接映射获得推荐的函数名.实验结果表明,DMName方法在函数名一致性检查任务和函数名推荐任务中的F1值分别达到82.65%和73.31%,比目前最优的DeepName方法分别提高2.01%和2.96%.最后,在GitHub大规模开源项目lancia中对DMName方法进行验证,挖掘得到16个函数名不一致问题并进行合理的名称推荐,进一步证实DMName方法的有效性. 展开更多
关键词 函数名 一致性检查 名称推荐 深度学习 seq2seq模型
下载PDF
基于注意力和双向LSTM的评价对象类别判定 被引量:3
10
作者 周陈超 陈群 +3 位作者 李战怀 赵波 胥勇军 秦阳 《西北工业大学学报》 EI CAS CSCD 北大核心 2019年第3期558-564,共7页
在线评论在用户的购买决策中起到日益重要的作用,电商网站提供海量的用户评论,但是个体很难充分利用所有信息。因此,对这些评论进行分类、分析和汇总是很迫切的任务。首次提出一个基于注意力机制和双向LSTM(bi-directional long short-t... 在线评论在用户的购买决策中起到日益重要的作用,电商网站提供海量的用户评论,但是个体很难充分利用所有信息。因此,对这些评论进行分类、分析和汇总是很迫切的任务。首次提出一个基于注意力机制和双向LSTM(bi-directional long short-term memory,BLSTM)的模型来判定评论对象的类别,用于评论的分类。模型首先使用BLSTM对词向量形式的评论进行训练;然后根据词性为BLSTM的输出向量赋予相应权重,权重作为先验知识能指导注意力机制的学习;最后使用注意力机制捕捉与类别相关的重要信息用于类别判定。在SemEval数据集上进行了实验,结果表明,模型能有效提高评论对象类别判定的效果,优于其他算法。 展开更多
关键词 用户评论 评论对象类别判定 注意力机制 BLSTM
下载PDF
基于深度学习的安全缺陷报告预测方法实证研究 被引量:10
11
作者 郑炜 陈军正 +2 位作者 吴潇雪 陈翔 夏鑫 《软件学报》 EI CSCD 北大核心 2020年第5期1294-1313,共20页
软件安全问题的发生在大多数情况下会造成非常严重的后果,及早发现安全问题,是预防安全事故的关键手段之一.安全缺陷报告预测可以辅助开发人员及早发现被测软件中潜藏的安全缺陷,从而尽早得以修复.然而,由于安全缺陷在实际项目中的数量... 软件安全问题的发生在大多数情况下会造成非常严重的后果,及早发现安全问题,是预防安全事故的关键手段之一.安全缺陷报告预测可以辅助开发人员及早发现被测软件中潜藏的安全缺陷,从而尽早得以修复.然而,由于安全缺陷在实际项目中的数量较少,而且特征复杂(即安全缺陷类型繁多,不同类型安全缺陷特征差异性较大),这使得手工提取特征相对困难,并随后造成传统机器学习分类算法在安全缺陷报告预测性能方面存在一定的瓶颈.针对该问题,提出基于深度学习的安全缺陷报告预测方法,采用深度文本挖掘模型TextCNN和TextRNN构建安全缺陷报告预测模型;针对安全缺陷报告文本特征,使用Skip-Gram方式构建词嵌入矩阵,并借助注意力机制对TextRNN模型进行优化.所构建的模型在5个不同规模的安全缺陷报告数据集上展开了大规模实证研究,实证结果表明,深度学习模型在80%的实验案例中都优于传统机器学习分类算法,性能指标F1-score平均可提升0.258,在最好的情况下甚至可以提升0.535.此外,针对安全缺陷报告数据集存在的类不均衡问题,对不同采样方法进行了实证研究,并对结果进行了分析. 展开更多
关键词 安全缺陷 安全缺陷报告预测 深度学习 文本挖掘
下载PDF
人工智能风险分析技术研究进展 被引量:8
12
作者 陈群 陈肇强 +3 位作者 侯博议 王丽娟 罗雨晨 李战怀 《大数据》 2020年第1期47-59,共13页
目前基于深度学习模型的预测在真实场景中具有不确定性和不可解释性,给人工智能应用的落地带来了不可避免的风险。首先阐述了风险分析的必要性以及其需要具备的3个基本特征:可量化、可解释、可学习。接着,分析了风险分析的研究现状,并... 目前基于深度学习模型的预测在真实场景中具有不确定性和不可解释性,给人工智能应用的落地带来了不可避免的风险。首先阐述了风险分析的必要性以及其需要具备的3个基本特征:可量化、可解释、可学习。接着,分析了风险分析的研究现状,并重点介绍了笔者最近提出的一个可量化、可解释和可学习的风险分析技术框架。最后,讨论风险分析的现有以及潜在的应用,并展望其未来的研究方向。 展开更多
关键词 人工智能 风险分析 不确定性 可解释性
下载PDF
安卓移动应用兼容性测试综述 被引量:7
13
作者 郑炜 唐辉 +2 位作者 陈翔 张满青 夏鑫 《计算机研究与发展》 EI CSCD 北大核心 2022年第6期1370-1387,共18页
安卓移动应用兼容性故障是指应用程序在不同的环境或内部状态发生变化时,实际结果与预期结果不相符合而导致的一类软件缺陷.安卓平台的高度开源的特性,使得安卓平台下移动应用的兼容性故障频繁发生.这类软件故障在最严重的时候,甚至可... 安卓移动应用兼容性故障是指应用程序在不同的环境或内部状态发生变化时,实际结果与预期结果不相符合而导致的一类软件缺陷.安卓平台的高度开源的特性,使得安卓平台下移动应用的兼容性故障频繁发生.这类软件故障在最严重的时候,甚至可以导致程序崩溃,程序崩溃一方面会影响到用户体验,另一方面因其突发性也会对用户带来难以估量的损失.因不同设备型号和安卓操作系统版本所组成的大量组合,使得开发人员无法对其应用程序进行充分的测试.在安卓生态系统碎片化异常严重的开发背景下,如何有效地应对兼容性问题成为当前软件质量保障领域的一个热门研究问题.从安卓移动应用兼容性故障的分析、检测、定位和修复3个方面出发,简要介绍了安卓移动应用兼容性故障的发展历程及该领域所面临的主要挑战,并回顾和总结了近些年来该综述主题的实践探索和理论成果.最后,对该领域的未来工作进行了展望,以期为兼容性测试研究人员提供有价值的参考. 展开更多
关键词 安卓移动应用 兼容性测试 碎片化 软件故障 故障定位 故障检测 故障修复
下载PDF
基于因子图的不一致记录对消歧方法 被引量:2
14
作者 徐耀丽 李战怀 +2 位作者 陈群 王艳艳 樊峰峰 《计算机研究与发展》 EI CSCD 北大核心 2020年第1期175-187,共13页
实体解析(entity resolution,ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对... 实体解析(entity resolution,ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对.在没有给定标记数据的情况下,进行这类记录对的消歧处理具有很大的挑战:一方面当标签数据缺失时,评估现存方法的解析效果并选出最优的不可行,另一方面尽管可选的方法是协调这些冲突结果以得到一致的标记方案,但有效且融合所有提示信息的消歧策略还有待研究.为此,提出了一种基于因子图的不一致记录对消歧方法.该方法首先对某给定的实体解析任务使用现存的实体解析技术进行实体解析,得到一致或不一致的记录对;接着,用核密度估计、匹配信息传递等方法输出与不一致记录对是否匹配相关的特征,并把这些建模为因子图的因子函数,该因子图是一个带因子权重的联合概率分布;最后基于最大似然估计方法估计出各因子的权重,并基于该分布对不一致记录对进行消歧处理.实验结果表明:在真实的数据集合,该方法有效且优于现存最好的方法. 展开更多
关键词 数据集成 实体解析 最大似然估计 不一致记录对 核密度估计 因子图
下载PDF
重复软件缺陷报告检测方法综述 被引量:2
15
作者 郑炜 王晓龙 +4 位作者 陈翔 夏鑫 廖慧玲 刘程远 孙瑞阳 《软件学报》 EI CSCD 北大核心 2022年第6期2288-2311,共24页
软件缺陷在软件的开发和维护过程中是不可避免的,软件缺陷报告是软件维护过程中重要的缺陷描述文档,高质量的软件缺陷报告可以有效提高软件缺陷修复的效率.然而,由于存在许多开发人员、测试人员和用户与缺陷跟踪系统交互并提交软件缺陷... 软件缺陷在软件的开发和维护过程中是不可避免的,软件缺陷报告是软件维护过程中重要的缺陷描述文档,高质量的软件缺陷报告可以有效提高软件缺陷修复的效率.然而,由于存在许多开发人员、测试人员和用户与缺陷跟踪系统交互并提交软件缺陷报告,同一个软件缺陷可能被不同的人员报告,导致了大量重复的软件缺陷报告.重复的软件缺陷报告势必加重人工检测重复缺陷报告的工作量,并造成人力物力的浪费,降低了软件缺陷修复的效率.以系统文献调研的方式,对近年来国内外学者在重复软件缺陷报告检测领域的研究工作进行了系统的分析.主要从研究方法、数据集的选取、性能评价等方面具体分析总结,并提出该领域在后续研究中存在的问题、挑战以及建议. 展开更多
关键词 缺陷报告 重复检测 深度学习 自然语言处理 信息检索
下载PDF
基于概率推断的质量控制智能体
16
作者 徐耀丽 李战怀 《计算机科学》 CSCD 北大核心 2019年第4期8-13,共6页
实体解析(Entity Resolution,ER)是数据集成和清洗领域的基础问题,而不一致性消歧(Inconsistency Reconciliation,IR)通过对现存的不同ER算法产生的不一致记录对进行消歧,进一步提升解析效果。但是现有的IR方法有一个局限,即消歧结果没... 实体解析(Entity Resolution,ER)是数据集成和清洗领域的基础问题,而不一致性消歧(Inconsistency Reconciliation,IR)通过对现存的不同ER算法产生的不一致记录对进行消歧,进一步提升解析效果。但是现有的IR方法有一个局限,即消歧结果没有质量保障。对此,首次提出了一个基于概率推断的质量控制智能体,记为QCAgent。该智能体不需要训练数据集,能够在满足给定查准率的约束条件下输出查全率最大的消歧结果。它的核心思想是:首先,使用异常点检测模型来估算不一致记录对匹配的概率,并依据这些概率估算查准率和查全率,再将计算出的查准率和查全率作为环境端的反馈;其次,使用二分搜索算法,选择满足查准率要求且查全率最大的翻转方案,作为QCAgent的下一次行动;然后,用更新后的一致结果训练异常点模型,并估算查准率和查全率。按此循环,当新估计的查准率满足约束条件时,该迭代过程停止。在真实的数据集上,实验结果表明:QCAgent能够有效解决消歧结果的质量控制问题。 展开更多
关键词 质量控制 实体解析 不一致性消歧 智能体 查准率
下载PDF
一种基于近似因子的在线概率知识库推理方法
17
作者 王艳艳 陈群 +1 位作者 钟评 李战怀 《软件学报》 EI CSCD 北大核心 2018年第2期383-395,共13页
概率知识库中的推理技术是近年来的研究热点.目前,大多数系统的推理主要基于批处理的方式实现,并不适用于在线查询场景.对此,提出了一种基于近似因子的在线概率知识库推理方法.它可以重复利用已推断结果计算查询变量的边缘概率.该算法... 概率知识库中的推理技术是近年来的研究热点.目前,大多数系统的推理主要基于批处理的方式实现,并不适用于在线查询场景.对此,提出了一种基于近似因子的在线概率知识库推理方法.它可以重复利用已推断结果计算查询变量的边缘概率.该算法首先提取查询变量的子图(含已推断变量);然后,在此子图上添加近似因子,以模拟子图外其余变量的影响;最后,采用团树算法推断查询变量的边缘概率.实验结果表明:相对于已有算法,该算法可在时间和精度上取得较好的权衡. 展开更多
关键词 概率知识库 在线推理 近似因子 马尔可夫逻辑网
下载PDF
基于图注意力网络的环状RNA与疾病关联关系预测
18
作者 张瀚元 赵博伟 +2 位作者 胡伦 王磊 尤著宏 《计算机技术与发展》 2023年第11期126-134,共9页
环状RNA是一种具有环状结构并且表达水平与多种疾病有关的非编码RNA分子,挖掘环状RNA与疾病之间的内在关联关系在生命医学研究中具有重要意义。基于图注意力机制,该文提出了一种由图注意力网络(GAT)、编码器-解码器(AE)和全连接神经网络... 环状RNA是一种具有环状结构并且表达水平与多种疾病有关的非编码RNA分子,挖掘环状RNA与疾病之间的内在关联关系在生命医学研究中具有重要意义。基于图注意力机制,该文提出了一种由图注意力网络(GAT)、编码器-解码器(AE)和全连接神经网络(DNN)结构组合的端到端深度学习模型GATECDA来预测潜在的环状RNA与疾病的关联关系。在包含739个关系的CircR2Disease数据集上,GATECDA模型五折交叉验证实验取得了ROC曲线下面积AUC为0.9618,AUPR为0.9032,衡量在非平衡数据上性能MCC指标达到了0.7576的优异结果,综合性能在同领域预测模型中表现出色。表明基于深度学习图表示学习的策略有助于提升环状RNA与疾病关联关系预测模型的综合性能,同时端到端的学习模型更易于训练与泛化到其他问题中。在预测的结果得到的前30个环状RNA与疾病的关联关系中,有25个在最近医学文献中有支持。表明人工智能方法可以为医学研究筛选与疾病相关的标志物提供新的角度。 展开更多
关键词 环状RNA/CircRNA 疾病 关联关系预测 图注意力网络 深度学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部