期刊文献+
共找到311篇文章
< 1 2 16 >
每页显示 20 50 100
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
1
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
一种可重构异构内存架构和控制器
2
作者 靳晓忠 刘海坤 +4 位作者 赖皓 毛伏兵 张宇 廖小飞 金海 《电子学报》 EI CAS CSCD 北大核心 2024年第9期3038-3051,共14页
融合传统动态随机访问存储器(Dynamic Random Access Memory,DRAM)与新型非易失性内存(NonVolatile Memory,NVM)可构建平行架构或层次架构的异构内存系统.平行架构的异构内存系统往往需要通过页迁移技术把热点数据从NVM迁移到DRAM以提... 融合传统动态随机访问存储器(Dynamic Random Access Memory,DRAM)与新型非易失性内存(NonVolatile Memory,NVM)可构建平行架构或层次架构的异构内存系统.平行架构的异构内存系统往往需要通过页迁移技术把热点数据从NVM迁移到DRAM以提高访存性能,然而在操作系统中实现热页监测和迁移会带来巨大的软件性能开销.硬件实现的层次架构由于增加了访存层次,对于访存局部性差的大数据应用反而增加了访存延迟.为此,本文提出可重构的异构内存架构,可以运行时在平行和层次架构间进行转换以动态适配不同应用的访存特性.设计了基于新型指令集架构RISC-V(Reduced Instruction Set Computing-V)的DRAM/NVM异构内存控制器,利用少量硬件计数器实现了访存踪迹统计和分析,并实现了DRAM和NVM物理页间的动态映射和高效迁移机制.实验表明,DRAM/NVM异构内存控制器可提高43%的应用性能. 展开更多
关键词 非易失性内存 异构内存系统 异构内存控制器 内存访问监测 页迁移
下载PDF
一种基于风险代码抽取的控制流保护方法
3
作者 李勇钢 钟叶青 +2 位作者 郑伊健 林果园 鲍宇 《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1372-1392,共21页
代码复用攻击是控制流安全面临的主要威胁之一.虽然地址分布随机化能够缓解该攻击,但它们很容易被代码探测技术绕过.相比之下,控制流完整性方法具有更好的保护效果.但是,现有的方法要么依赖于源码分析,要么采用无差别跟踪的方式追踪所... 代码复用攻击是控制流安全面临的主要威胁之一.虽然地址分布随机化能够缓解该攻击,但它们很容易被代码探测技术绕过.相比之下,控制流完整性方法具有更好的保护效果.但是,现有的方法要么依赖于源码分析,要么采用无差别跟踪的方式追踪所有的控制流转移.前者无法摆脱对源码的依赖性,后者则会引入巨大的运行时开销.针对上述问题,本文提出一种新的控制流保护方法MCE(Micro Code Extraction).MCE的保护目标是源码不可用的闭源对象.与现有的方法相比,MCE并不会盲目地追踪所有的控制流转移活动.它实时地检测代码探测活动,并仅将被探测的代码作为保护目标.之后,MCE抽取具有潜在风险的代码片段,以进一步缩小目标对象的大小.最后,所有跳转到风险代码中的控制流都会被追踪和检测,以保护它的合法性.实验和分析表明,MCE对代码探测和代码复用攻击具有良好的保护效果,并在一般场景下仅对CPU引入2%的开销. 展开更多
关键词 代码探测 代码复用攻击 控制流劫持 代码抽取 内存访问控制
下载PDF
基于AHB总线的双通道DMA控制器的系统设计
4
作者 蓝倩婷 杨尊先 王法翔 《集成电路与嵌入式系统》 2024年第4期47-50,共4页
直接存储存取是一种在各个模块间进行大量数据传输的高速度、高效率的传输方式。在CPU对DMA进行初始化配置后,允许DMA作为主机占用总线,直接对外围设备和存储器的数据进行读写,实现外设和存储器、存储器和存储器之间的数据传输,不再需要... 直接存储存取是一种在各个模块间进行大量数据传输的高速度、高效率的传输方式。在CPU对DMA进行初始化配置后,允许DMA作为主机占用总线,直接对外围设备和存储器的数据进行读写,实现外设和存储器、存储器和存储器之间的数据传输,不再需要CPU的干预,可以解放CPU,极大提高数据传输效率。本文旨在基于AHB总线协议的双通道DMA控制器实现外设与存储器之间的数据传输。 展开更多
关键词 直接存储存取 AHB SOC Vivado2018 FPGA
下载PDF
RDMA协议应用及安全防护技术综述
5
作者 刘雨蒙 唐正梁 +2 位作者 路松峰 朱建新 刘运渠 《网络与信息安全学报》 2024年第2期22-46,共25页
远程直接内容读写技术是一种有效提升数据传输速率、降低CPU占用率的通信方式,在跨区域数据中心之间的转存、高性能计算、快速数据读写等领域起着重要的作用。然而,作为新兴技术,RDMA缺少得到业界广泛认同的安全方案,目前,随着大量RDMA... 远程直接内容读写技术是一种有效提升数据传输速率、降低CPU占用率的通信方式,在跨区域数据中心之间的转存、高性能计算、快速数据读写等领域起着重要的作用。然而,作为新兴技术,RDMA缺少得到业界广泛认同的安全方案,目前,随着大量RDMA应用逐渐从专用网络环境向一般以太网拓展,关注其安全风险、为其设置一套在不影响传输效率的前提下保障安全性的防护措施是很有必要的;此外,由于采用了特殊的底层实现和协议设计,RDMA技术不仅无法兼容现有的成熟安全方案,还面临其他特殊安全风险的挑战。为梳理RDMA攻防技术的发展,向即将到来的RDMA技术的大规模应用提供安全保障:以无线带宽协议和基于以太网的RDMA协议第2版为例介绍了RDMA技术及其实现原理,调查了在相关场景下RDMA应用面临的安全风险,总结了近年来RDMA安全领域的攻防研究进展,汇总了能够应对这些安全风险的有效安全方案;在证明其有效防御能力的基础上,结合理论分析和实验数据,对比了这些方案的优劣;提出了RDMA攻防领域后续的改进方案和技术优化前景。 展开更多
关键词 远程直接内容读写 无限带宽协议 基于以太网的RDMA协议 协议漏洞 协议防护
下载PDF
基于DRL的定向网络时隙复用和功率控制协议
6
作者 梁仕杰 赵海涛 +3 位作者 张姣 王海军 魏急波 王俊芳 《信号处理》 CSCD 北大核心 2024年第7期1341-1353,共13页
近年来,无人机网络逐渐地广泛应用于各行各业,对无人机网络能提供的网络容量提出了更高的要求。定向天线结合无人机网络构成定向无人机网络以增加网络资源应对无人机网络中各个节点对网络有限通信资源的竞争造成网络容量低的问题。定向... 近年来,无人机网络逐渐地广泛应用于各行各业,对无人机网络能提供的网络容量提出了更高的要求。定向天线结合无人机网络构成定向无人机网络以增加网络资源应对无人机网络中各个节点对网络有限通信资源的竞争造成网络容量低的问题。定向无人机网络通过定向天线的空间复用能力可以提高网络的时隙利用效率。针对TDMA协议在定向组网中时隙利用率过低导致网络容量受限的问题,该文提出了一种基于深度Q网络(DQN)的定向无人机网络时隙复用和功率控制协议。为了提高时隙利用率,考虑在单位时隙进行多个链路通信以实现时隙资源的复用。然而多个链路在同一个时隙通信会产生链路间的干扰,如何在考虑链路间相互干扰的情况下控制功率提高网络的容量是时隙复用研究的重点问题。为了解决该问题,首先考虑以功率要求和每条链路最小信道容量为约束,考虑相较于其他研究更为复杂更符合实际的链路互干扰模型,建模问题为最大全网容量问题。然后为了构建链路间的更复杂的互干扰环境,将多个链路的瞬时信道信息、定向增益状态融入到DQN框架的状态中,DQN的奖励为高于最小信道容量的链路信道容量的和。最后,将每个时隙的优化问题扩展到每一帧的优化问题,并利用多个DQN进行求解。仿真结果表明,在保证每个被分配时隙的最小信道容量前提下,相较于对比方法网络容量有了很大的提升。 展开更多
关键词 时分多址协议 定向无人机网络 深度Q网络 时隙复用 功率控制
下载PDF
多靶区经颅直流电刺激对健康成年人工作记忆-姿势控制双任务表现的影响
7
作者 周治宁 周容 +3 位作者 肖燕文 王博文 吕娇娇 刘宇 《中国康复理论与实践》 CSCD 北大核心 2024年第1期21-28,共8页
目的探究多靶区经颅直流电刺激(tDCS)和单靶区tDCS对健康成年人工作记忆-姿势控制双任务表现的影响,并比较两种刺激方案的调控效果。方法2020年11月至2021年2月,招募上海体育大学19例健康成年人,随机接受多靶区tDCS、单靶区tDCS和假刺激... 目的探究多靶区经颅直流电刺激(tDCS)和单靶区tDCS对健康成年人工作记忆-姿势控制双任务表现的影响,并比较两种刺激方案的调控效果。方法2020年11月至2021年2月,招募上海体育大学19例健康成年人,随机接受多靶区tDCS、单靶区tDCS和假刺激,任意两种刺激之间至少间隔1周。其中,多靶区tDCS的目标靶区为左侧背外侧前额叶(LDLPFC)和双侧初级运动皮质(M1);单靶区tDCS仅刺激L-DLPFC。在每种刺激前后,所有受试者进行单任务和双任务条件下的步行和站立平衡测试,双任务中的第二任务为N-back任务。刺激前后观察双任务姿势控制表现、双任务消耗(DTC)和工作记忆表现。结果刺激后,3种刺激间双任务步行的步幅变异性(F=3.792,P=0.029)、步幅变异性_DTC(F=3.412,P=0.040)以及双任务站立平衡的压心摆动速度(Vcop)(F=3.815,P=0.029)有显著性差异。与假刺激相比,多靶区tDCS后,步幅变异性(P=0.047)和Vcop(P=0.015)降低,步幅变异性_DTC有降低趋势(P=0.073);单靶区tDCS后,步幅变异性(P=0.011)、步幅变异性_DTC(P=0.014)和Vcop(P=0.025)均降低。与单靶区tDCS相比,多靶区tDCS后,压心摆动面积的双任务消耗降低(P=0.035)。3种刺激后受试者工作记忆表现改变无显著性差异(P>0.05)。结论多靶区tDCS和单靶区tDCS均可调控健康成年人的工作记忆-姿势控制双任务表现;且与单靶区tDCS相比,多靶区tDCS在调控站立平衡双任务姿势控制效果上具有一定优势。 展开更多
关键词 双任务 姿势控制 工作记忆 背外侧前额叶 初级运动皮质 经颅直流电刺激
下载PDF
基于CAN通信和UART通信的ECU板卡程序升级方案设计 被引量:1
8
作者 王霖 崔冬冬 +2 位作者 杨帆 付波 高吉磊 《铁道机车车辆》 北大核心 2024年第3期105-112,共8页
为实现电子控制单元内的板卡程序可靠升级,将MCU的存储区进行分割,设置了程序备份区域。介绍了基于统一诊断服务UDS协议和CAN通信的启动加载程序Bootloader升级板卡程序的方案,并在此基础上设计了基于Ymodem协议UART通信的在线程序升级... 为实现电子控制单元内的板卡程序可靠升级,将MCU的存储区进行分割,设置了程序备份区域。介绍了基于统一诊断服务UDS协议和CAN通信的启动加载程序Bootloader升级板卡程序的方案,并在此基础上设计了基于Ymodem协议UART通信的在线程序升级方法。该方法利用MCU支持边读边写功能,通过在应用程序里增加程序下载任务,使用Ymodem协议接收程序,并将程序烧写至备份区内,待板卡再次上电后,利用Bootloader将备份区内的程序搬运至程序运行区内,实现程序的更新。为降低程序下载任务对其他任务的影响,减少CPU的占用时间,程序下载任务通过直接存储器访问DMA方式获取串口数据,同时通过在任务中增加延迟防止其他任务被长时间挂起。 展开更多
关键词 统一诊断协议 启动加载程序 Ymodem协议 直接存储器访问
下载PDF
磁随机存储器的电磁敏感度研究
9
作者 吴健煜 杜传报 +3 位作者 吴清川 吴建飞 刘斌 宋少兵 《现代应用物理》 2024年第1期158-165,共8页
采用直接功率注入法(direct power injection,DPI)对一款新型磁随机存储器(magneto resistive random access memory,MRAM)芯片进行了抗干扰测试。在存储数字“0”和“1”的情况下,对MRAM的电源引脚、数据引脚、控制引脚进行了干扰注入... 采用直接功率注入法(direct power injection,DPI)对一款新型磁随机存储器(magneto resistive random access memory,MRAM)芯片进行了抗干扰测试。在存储数字“0”和“1”的情况下,对MRAM的电源引脚、数据引脚、控制引脚进行了干扰注入,对比了各引脚的失效功率。测试结果表明:MRAM在存储数字“0”时的敏感度比数字“1”时的敏感度低;与干扰从地引脚注入相比,干扰从电源引脚注入时芯片的敏感度更高;读取电路电磁敏感度和输出引脚与电源引脚具有较大相关性。这一研究结果可为提升新型存储器MRAM的芯片抗扰度及电路优化提供理论参考。 展开更多
关键词 电磁兼容 失效机理 直接功率注入 磁随机存储器 电磁敏感度
下载PDF
支持属性立即撤销的可复用属性基签名及其密钥协商方案
10
作者 张智烁 杨会喜 +2 位作者 黄文 廖永建 周世杰 《网络与信息安全学报》 2024年第2期81-94,共14页
为了解决后台分布式微服务-前端反向代理网络架构中统一细粒度访问控制和数据安全通信的问题,提出了可撤销属性的认证方策略属性基签名,基于Type-3配对的属性基签名及其互认证密钥协商方案。在所提方案签名算法中,无须关联访问策略,生... 为了解决后台分布式微服务-前端反向代理网络架构中统一细粒度访问控制和数据安全通信的问题,提出了可撤销属性的认证方策略属性基签名,基于Type-3配对的属性基签名及其互认证密钥协商方案。在所提方案签名算法中,无须关联访问策略,生成的签名只和用户部分属性有关,访问策略在验证算法中输入,来校验与签名相关联的用户属性是否真实合法并满足访问策略,所以签名与访问策略实现了解耦,使得一个签名可复用于多个访问策略的认证过程。另外,提出了属性哈希过滤算法,并基于该算法实现了属性的立即撤销机制,使得签名者不能用过期无效的属性继续用于策略认证。并在选择策略模型下严格地验证了所提属性基签名方案的存在不可伪造性。进一步地,为了实现数据的安全通信,提出了与所提属性基签名方案配套的满足扩展Canetti-Krawczyk安全模型的认证密钥协商方案。最后,通过理论和实验对比分析得知,在安全级别为128 bit高级加密标准的要求下,所提方案中的微服务器端的认证算法比其他属性认证算法消耗更少的时间,因此所提方案更加适用于复合微服务请求的场景。 展开更多
关键词 细粒度访问控制 属性哈希过滤 属性撤销 解耦式属性基签名 互认证密钥协商 不可伪造性
下载PDF
行为异常检测技术在零信任访问控制中的应用
11
作者 金志刚 林亮成 陈旭阳 《信息安全研究》 CSCD 北大核心 2024年第10期921-927,共7页
零信任有效解决了网络边界模糊的问题,在多种访问控制方法中得到广泛应用.针对大部分零信任访问控制方法仅使用简单统计方法计算信任评分、防范未知风险能力较差、缺乏对不同用户的自适应能力的问题,提出了一种引入行为异常检测的零信... 零信任有效解决了网络边界模糊的问题,在多种访问控制方法中得到广泛应用.针对大部分零信任访问控制方法仅使用简单统计方法计算信任评分、防范未知风险能力较差、缺乏对不同用户的自适应能力的问题,提出了一种引入行为异常检测的零信任访问控制方法.该方法设计了一种结合行为异常检测策略的信任引擎,通过自编码器和双向长短期记忆神经网络的建模能力,表征用户的行为模式,利用均方误差损失函数计算异常行为表征值,同时融合其他要素计算信任评分.该方法利用异常行为表征值设定信任阈值,以自适应调整用户访问策略.实验结果表明,所提方法对用户行为间的关联敏感,能够识别用户的异常行为并阻止授权,实现持续评估、细粒度的访问控制. 展开更多
关键词 零信任 访问控制 信任评估 长短期记忆神经网络 异常检测
下载PDF
空基网络中定向自组网关键技术研究综述
12
作者 郗天玥 蔡爱华 翁丽娜 《电子技术应用》 2024年第4期1-10,共10页
基于定向天线的移动自组织网络被广泛应用于军事领域,尤其对于具有易实施、高隐蔽性、高保密性要求的空基网络,定向天线比全向天线更具有优势,它具有更远的传输范围,减小了节点间的相互干扰,能够实现空间复用能力的提升。但是定向天线... 基于定向天线的移动自组织网络被广泛应用于军事领域,尤其对于具有易实施、高隐蔽性、高保密性要求的空基网络,定向天线比全向天线更具有优势,它具有更远的传输范围,减小了节点间的相互干扰,能够实现空间复用能力的提升。但是定向天线的引入在增加通信距离的同时也会带来一些问题,给许多协议层带来破坏性的副作用。目前,国内外研究人员已提出多种算法来解决这些问题。结合空基网络的复杂性,研究了国内外提出的基于定向天线的移动自组网数据链路层和网络层的各类算法和协议,总结对比近年来定向邻居发现算法、媒体访问控制协议和定向路由协议三种关键技术,并提出更适合用于空基网络的技术与协议,最后对这些算法和协议的下一步研究提供了一些方向。 展开更多
关键词 定向自组网 邻居发现算法 媒体访问控制协议 路由协议
下载PDF
基于PCIeDMA缓冲池的流量控制协议
13
作者 黄双双 郝一太 罗伟杰 《通信电源技术》 2024年第3期16-18,共3页
随着航空电子的发展,机载计算机对通信性能提出了更高的要求。PCIe总线的直接存储器存取(Direct Memory Access,DMA)通信方式凭借高吞吐量、低时延及低中央处理器(Central Processing Unit,CPU)占用率等优势,广泛应用于嵌入式计算机通... 随着航空电子的发展,机载计算机对通信性能提出了更高的要求。PCIe总线的直接存储器存取(Direct Memory Access,DMA)通信方式凭借高吞吐量、低时延及低中央处理器(Central Processing Unit,CPU)占用率等优势,广泛应用于嵌入式计算机通信。在复杂网络拓扑的PCIe架构中,由于通信节点接收数据和发送数据的协议差异或中间介质差异,导致入向流量和出向流量速率不匹配,造成数据缺失。因此,文章设计了一种基于PCIeDMA缓冲池的流量控制协议,以控制模块间的通信流量。利用多级缓冲技术,在节点中配置环形缓冲池,可回收利用总线空间。利用同步互斥技术为高速数据转发争取时间,避免了多节点设备转发数据出现滞后性和数据缺失问题。 展开更多
关键词 PCIE 直接存储器存取(DMA) 多级缓冲 同步互斥
下载PDF
Security analysis of access control model in hybrid cloud based on security entropy 被引量:2
14
作者 车天伟 Ma Jianfeng +1 位作者 Li Na Wang Chao 《High Technology Letters》 EI CAS 2015年第2期200-204,共5页
To resolve the problem of quantitative analysis in hybrid cloud,a quantitative analysis method,which is based on the security entropy,is proposed.Firstly,according to the information theory,the security entropy is put... To resolve the problem of quantitative analysis in hybrid cloud,a quantitative analysis method,which is based on the security entropy,is proposed.Firstly,according to the information theory,the security entropy is put forward to calculate the uncertainty of the system' s determinations on the irregular access behaviors.Secondly,based on the security entropy,security theorems of hybrid cloud are defined.Finally,typical access control models are analyzed by the method,the method's practicability is validated,and security and applicability of these models are compared.Simulation results prove that the proposed method is suitable for the security quantitative analysis of the access control model and evaluation to access control capability in hybrid cloud. 展开更多
关键词 hybrid cloud security entropy classificatory access control model directly unauthorized access right about access indirectly unauthorized access
下载PDF
Combinatory Spread-Spectrum Multiple-Access Based on Residue Number System:System and Performance 被引量:1
15
作者 Yang Lieliang Li Chengshu(Northern Jiaotong University,Beijing 100044) 《通信学报》 EI CSCD 北大核心 1995年第4期79-88,共10页
CombinatorySpread-SpectrumMultiple-AccessBasedonResidueNumberSystem:SystemandPerformanceYangLieliang;LiCheng... CombinatorySpread-SpectrumMultiple-AccessBasedonResidueNumberSystem:SystemandPerformanceYangLieliang;LiChengshu(NorthernJiaot... 展开更多
关键词 扩频通信 多径访问 直接序列 余数数系
下载PDF
Collision Classification MAC Protocol for Underwater Acoustic Communication Networks Using Directional Antennas
16
作者 Jianmin Yang Gang Qiao +3 位作者 Qing Hu Lingji Xu Peng Xiao Jiarong Zhang 《China Communications》 SCIE CSCD 2022年第5期241-252,共12页
Traditional underwater acoustic communication networks(UACNs)generally use omnidirectional transmission technology that causes a large number of data-packet collisions,thus resulting in low network throughput and high... Traditional underwater acoustic communication networks(UACNs)generally use omnidirectional transmission technology that causes a large number of data-packet collisions,thus resulting in low network throughput and high end-to-end delays.Compared with omnidirectional transmission technology,directional technology only sends and receives data packets in a specified direction.This can significantly reduce the probability of collisions and improve network performance.However,it also causes a deafness problem,which occurs when the sending node sends a data packet to the receiving node but the receiving node is unable to reply to the sender,because its antenna beam is closed.To resolve this issue,this study proposes a collision classification media access control(CC-MAC)protocol for UACNs.With this protocol,the underwater acoustic channel is divided into two subchannels,and the nodes transmit corresponding data types on them.The sending node can estimate the current status of the receiving node(i.e.,no collision,normal collision,deafness)according to the type of the data packet received and the sub-channel it arrived on,and it can choose correct options to improve network efficiency.Finally,we verify the performance of CC-MAC via simulations,showing that the protocol achieved higher network throughput and lower end-toend delays. 展开更多
关键词 collision classification directional antennas dual channel media access control(MAC) underwater acoustic communication networks(UACNs)
下载PDF
面向低精度神经网络的数据流体系结构优化 被引量:1
17
作者 范志华 吴欣欣 +4 位作者 李文明 曹华伟 安学军 叶笑春 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期43-58,共16页
数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问... 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分别获得3.18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升. 展开更多
关键词 数据流架构 低精度神经网络 量化 可重构架构 直接内存访问
下载PDF
A Protective Mechanism for the Access Control System in the Virtual Domain 被引量:1
18
作者 Jinan Shen Deqing Zou +3 位作者 Hai Jin Kai Yang Bin Yuan Weiming Li 《China Communications》 SCIE CSCD 2016年第11期129-142,共14页
In traditional framework,mandatory access control(MAC) system and malicious software are run in kernel mode. Malicious software can stop MAC systems to be started and make it do invalid. This problem cannot be solved ... In traditional framework,mandatory access control(MAC) system and malicious software are run in kernel mode. Malicious software can stop MAC systems to be started and make it do invalid. This problem cannot be solved under the traditional framework if the operating system(OS) is comprised since malwares are running in ring 0 level. In this paper,we propose a novel way to use hypervisors to protect kernel integrity and the access control system in commodity operating systems. We separate the access control system into three parts: policy management(PM),security server(SS) and policy enforcement(PE). Policy management and the security server reside in the security domain to protect them against malware and the isolation feather of the hypervisor can protect them from attacks. We add an access vector cache(AVC) between SS and PE in the guest OS,in order to speed up communication between the guest OS and the security domain. The policy enforcement module is retained in the guest OS for performance. The security of AVC and PE can be ensured by using a memory protection mechanism. The goal of protecting the OS kernel is to ensure the security of the execution path. We implementthe system by a modified Xen hypervisor. The result shows that we can secure the security of the access control system in the guest OS with no overhead compared with modules in the latter. Our system offers a centralized security policy for virtual domains in virtual machine environments.Keywords: hypervisor; virtualization; memo- 展开更多
关键词 HYPERVISOR VIRTUALIZATION memory protection guest OS access control system
全文增补中
vsocket:一种基于RDMA的兼容标准套接字加速方法
19
作者 陈云芳 茆昊天 张伟 《计算机科学》 CSCD 北大核心 2023年第10期239-247,共9页
为了兼容Linux标准套接字,同时利用RDMA提高使用套接字的程序的性能,提出在上层应用与底层RDMA之间搭建一个中间件——Viscore Socket adaptor(简称vsocket);通过拦截socket API,将上层应用通过套接字收发的数据流无缝转接到RDMA承载上... 为了兼容Linux标准套接字,同时利用RDMA提高使用套接字的程序的性能,提出在上层应用与底层RDMA之间搭建一个中间件——Viscore Socket adaptor(简称vsocket);通过拦截socket API,将上层应用通过套接字收发的数据流无缝转接到RDMA承载上。vsocket绕过管理收发缓冲区的内核,针对TCP和UDP分别实现了用户空间的内存管理机制,使用RC类型的RDMA网络支持TCP加速,使用UD类型的RDMA网络支持UDP加速,并重用Linux UDP来辅助其路由。实验结果表明vsocket能够保证Linux标准套接字接口的兼容性,提升网络性能,摆脱Linux内核网络协议栈的限制,改善收发数据的延迟与带宽。 展开更多
关键词 套接字 远程内存直接访问 协议加速
下载PDF
适用于可重构网络安全处理器的链式多通道分组DMA 被引量:2
20
作者 苏会芳 周诚 +1 位作者 解思江 李晨 《云南师范大学学报(自然科学版)》 2023年第4期49-54,共6页
为了提高可重构网络安全处理器中CPU、密码模块和网卡等各功能部件之间的数据传输效率,提出了一种链式多通道分组直接存储器存取(direct memory access,DMA)传输方式,设计了链式多通道分组DMA的硬件架构,使用65 nm CMOS工艺标准单元库... 为了提高可重构网络安全处理器中CPU、密码模块和网卡等各功能部件之间的数据传输效率,提出了一种链式多通道分组直接存储器存取(direct memory access,DMA)传输方式,设计了链式多通道分组DMA的硬件架构,使用65 nm CMOS工艺标准单元库对链式多通道分组DMA进行了ASIC实现并搭建了仿真验证平台,结果表明使用链式多通道DMA的可重构网络安全处理器内部通信性能明显提升. 展开更多
关键词 数据传输方式 网络安全处理器 直接存储器存取
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部