期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
Advances of embedded resistive random access memory in industrial manufacturing and its potential applications
1
作者 Zijian Wang Yixian Song +7 位作者 Guobin Zhang Qi Luo Kai Xu Dawei Gao Bin Yu Desmond Loke Shuai Zhong Yishu Zhang 《International Journal of Extreme Manufacturing》 SCIE EI CAS CSCD 2024年第3期175-214,共40页
Embedded memory,which heavily relies on the manufacturing process,has been widely adopted in various industrial applications.As the field of embedded memory continues to evolve,innovative strategies are emerging to en... Embedded memory,which heavily relies on the manufacturing process,has been widely adopted in various industrial applications.As the field of embedded memory continues to evolve,innovative strategies are emerging to enhance performance.Among them,resistive random access memory(RRAM)has gained significant attention due to its numerousadvantages over traditional memory devices,including high speed(<1 ns),high density(4 F^(2)·n^(-1)),high scalability(~nm),and low power consumption(~pJ).This review focuses on the recent progress of embedded RRAM in industrial manufacturing and its potentialapplications.It provides a brief introduction to the concepts and advantages of RRAM,discusses the key factors that impact its industrial manufacturing,and presents the commercial progress driven by cutting-edge nanotechnology,which has been pursued by manysemiconductor giants.Additionally,it highlights the adoption of embedded RRAM in emerging applications within the realm of the Internet of Things and future intelligent computing,with a particular emphasis on its role in neuromorphic computing.Finally,the review discusses thecurrent challenges and provides insights into the prospects of embedded RRAM in the era of big data and artificial intelligence. 展开更多
关键词 embedded resistive random access memory industrial manufacturing intelligent computing advanced process node
下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
2
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares memory Throughput computational Throughput Contiguous memory access CUDA Optimization
下载PDF
Research on optimization of virtual machine memory access based on NUMA architecture 被引量:2
3
作者 He Mujun Zheng Linjiang +2 位作者 Yang Kai Liu Runfeng Liu Weining 《High Technology Letters》 EI CAS 2021年第4期347-356,共10页
With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-per... With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-performance computing,require enhanced computing power.To meet this requirement,a non-uniform memory access(NUMA)configuration method is proposed for the cloud computing system according to the affinity,adaptability,and availability of the NUMA architecture processor platform.The proposed method is verified based on the test environment of a domestic central processing unit(CPU). 展开更多
关键词 cloud computing VIRTUALIZATION non-uniform memory access(NUMA)virtual machine memory access optimization
下载PDF
Effects of Film Thickness and Ar/O2 Ratio on Resistive Switching Characteristics of HfOx-Based Resistive-Switching Random Access Memories
4
作者 郭婷婷 谭婷婷 刘正堂 《Chinese Physics Letters》 SCIE CAS CSCD 2015年第1期125-128,共4页
Cu/HfOx/n^+Si devices are fabricated to investigate the influence of technological parameters including film thickness and Ar/02 ratio on the resistive switching (RS) characteristics of HfOx films, in terms of swit... Cu/HfOx/n^+Si devices are fabricated to investigate the influence of technological parameters including film thickness and Ar/02 ratio on the resistive switching (RS) characteristics of HfOx films, in terms of switch ratio, endurance properties, retention time and multilevel storage. It is revealed that the RS characteristics show strong dependence on technological parameters mainly by altering the defects (oxygen vacancies) in the film. The sample with thickness of 2Onto and Ar/O2 ratio of 12:3 exhibits the best RS behavior with the potential of multilevel storage. The conduction mechanism of all the films is interpreted based on the filamentary model. 展开更多
关键词 Effects of Film Thickness and Ar/O2 ratio on Resistive Switching Characteristics of HfOx-Based Resistive-Switching Random access Memories
下载PDF
On the System Performance of Mobile Edge Computing in an Uplink NOMA WSN With a Multiantenna Access Point Over Nakagami-m Fading 被引量:1
5
作者 Van-Truong Truong Van Nhan Vo +1 位作者 Dac-Binh Ha Chakchai So-In 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2022年第4期668-685,共18页
In this paper,we study the system performance of mobile edge computing(MEC)wireless sensor networks(WSNs)using a multiantenna access point(AP)and two sensor clusters based on uplink nonorthogonal multiple access(NOMA)... In this paper,we study the system performance of mobile edge computing(MEC)wireless sensor networks(WSNs)using a multiantenna access point(AP)and two sensor clusters based on uplink nonorthogonal multiple access(NOMA).Due to limited computation and energy resources,the cluster heads(CHs)offload their tasks to a multiantenna AP over Nakagami-m fading.We proposed a combination protocol for NOMA-MEC-WSNs in which the AP selects either selection combining(SC)or maximal ratio combining(MRC)and each cluster selects a CH to participate in the communication process by employing the sensor node(SN)selection.We derive the closed-form exact expressions of the successful computation probability(SCP)to evaluate the system performance with the latency and energy consumption constraints of the considered WSN.Numerical results are provided to gain insight into the system performance in terms of the SCP based on system parameters such as the number of AP antennas,number of SNs in each cluster,task length,working frequency,offloading ratio,and transmit power allocation.Furthermore,to determine the optimal resource parameters,i.e.,the offloading ratio,power allocation of the two CHs,and MEC AP resources,we proposed two algorithms to achieve the best system performance.Our approach reveals that the optimal parameters with different schemes significantly improve SCP compared to other similar studies.We use Monte Carlo simulations to confirm the validity of our analysis. 展开更多
关键词 Mobile edge computing(MEC) Nakagami-m fading ofFLOADING selection combining(SC)/maximal ratio combining(MRC) successful computation probability(SCP) uplink nonortho-gonal multiple access(NOMA) wireless sensor networks(WSNs)
下载PDF
Towards Japanese corpus-based semantic accessibility scale
6
作者 D U Jia-li CAI Jing-chun YU Ping-fang 《通讯和计算机(中英文版)》 2009年第8期76-80,共5页
关键词 语料库 语义 日本 SAS 随机抽样 文学评论 采样率 偏差
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
7
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
基于原补码实现的位串行SRAM存内计算
8
作者 徐伟栋 娄冕 +2 位作者 李立 张凯 龚龙庆 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第10期1095-1104,共10页
针对目前大多数存内计算无法独立处理非卷积计算的问题,提出了一种将转置8T单元与基于向量的位串行存内运算相结合的通用混合型存内计算.采用原码一位乘、补码加法和溢出激活处理,可支持任意位宽的整数/小数及正/负数的乘累加操作,也可... 针对目前大多数存内计算无法独立处理非卷积计算的问题,提出了一种将转置8T单元与基于向量的位串行存内运算相结合的通用混合型存内计算.采用原码一位乘、补码加法和溢出激活处理,可支持任意位宽的整数/小数及正/负数的乘累加操作,也可单独完成池化和激活操作,为从神经网络到信号处理等软件算法的发展提供了必要的灵活性和可编程性,减少了数据在总线上的传输.提出的存内计算在1.2V和500MHz条件下对8位运算的吞吐量为71.3GOPs,能效为20.63TOPS/W,支持灵活位宽的卷积操作,同时减少了数据移动,提高了能效和整体性能. 展开更多
关键词 存内计算 深度神经网络 静态随机存取存储器 能效
下载PDF
面向DCU的LDS访存向量化优化 被引量:1
9
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
基于NUMA云计算架构的多资源分配可信拍卖机制
10
作者 徐嘉 张骥先 +1 位作者 王喆民 刘林杰 《计算机工程与科学》 CSCD 北大核心 2024年第5期761-775,共15页
随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内... 随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内存访问NUMA架构,其主要特征为,每台服务器可由多个计算节点构成,每个节点包含若干处理器和存储器,既可作为独立计算单元,也可以相互连通访问。但是,当前的研究主要着眼于传统的统一性内存访问架构,无法适应NUMA架构下的应用场景。因此,提出了一种适用于NUMA架构下的多资源可信拍卖机制,以虚拟机的形式进行多种资源的组合分配。具体而言,在资源分配问题中,提出一种单调启发式分配算法,考虑了NUMA架构下的部署约束和资源优势密度等因素,有效提升了社会福利。在价格支付问题中,使用二分法设计一种符合关键价格理论的定价支付算法,从而保证机制的可信特征。经过实验测试,该机制在社会福利、用户支付费用和资源利用率等方面,整体性能达到最优解的96%左右。 展开更多
关键词 云计算 资源分配 非统一性内存访问 拍卖机制 可信
下载PDF
cache profiling信息指导的软件流水 被引量:1
11
作者 周谦 冯晓兵 张兆庆 《计算机研究与发展》 EI CSCD 北大核心 2008年第5期834-840,共7页
软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的... 软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的,如何在软件流水中预测并掩盖这些访存指令的延迟是非常重要的.与前人预测访存延迟的方法不同,引入cache profiling技术,通过动态收集到profile信息来预测访存延迟,并进行适当的调度.当增加模调度循环中的访存指令的延迟时,启动间隔也会随之增大,导致性能不会随之上升.CSMS算法和FLMS算法在尽量不增大启动间隔的情况下,改变访存指令的延迟.改进了CSMS算法和FLMS算法,根据cache profiling的信息来改变访存延迟,所以比前人的方法更为准确.实验表明,新方法可以有效地提高程序性能,对SPEC2000测试程序平均性能提高1%左右,个别例子的性能改进高达11%. 展开更多
关键词 软件流水 模调度 CACHE PRofILING 访存延迟 高性能计算
下载PDF
Data Virtualization with SAP HANA Smart Data Access
12
作者 Abani Pattanayak 《Journal of Computer and Communications》 2017年第8期62-68,共7页
Digital transformation has been corner stone of business innovation in the last decade, and these innovations have dramatically changed the definition and boundaries of enterprise business applications. Introduction o... Digital transformation has been corner stone of business innovation in the last decade, and these innovations have dramatically changed the definition and boundaries of enterprise business applications. Introduction of new products/ services, version management of existing products/ services, management of customer/partner connections, management of multi-channel service delivery (web, social media, web etc.), merger/acquisitions of new businesses and adoption of new innovations/technologies will drive data growth in business applications. These datasets exist in different sharing nothing business applications at different locations and in various forms. So, to make sense of this information and derive insight, it is essential to break the data silos, streamline data retrieval and simplify information access across the entire organization. The information access framework must support just-in-time processing capabilities to bring data from multiple sources, be fast and powerful enough to transform and process huge amounts of data quickly, and be agile enough to accommodate new data sources per user needs. This paper discusses the SAP HANA Smart Data Access data-virtualization technology to enable unified access to heterogenous data across the organization and analysis of huge volume of data in real-time using SAP HANA in-memory platform. 展开更多
关键词 SAP HANA In-memory Computing SMART DATA access (SDA) DATA VIRTUALIZATION & DATA FEDEratioN Virtual DATA Model And Big DATA
下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
13
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
金属氧化物基阻变存储器的研究进展 被引量:3
14
作者 张娇娇 周龙 +2 位作者 王洪强 董广志 樊慧庆 《铸造技术》 CAS 2023年第1期23-31,I0005,共10页
随着集成电路技术的发展,半导体器件尺寸也逐渐趋于摩尔定律的极限。当前主流的非挥发性存储器件已经无法满足信息科技对于超高密度快速存储的需求。阻变存储器(RRAM)因其结构简单、工作速度快、可缩小性强且与CMOS工艺兼容等优点,被认... 随着集成电路技术的发展,半导体器件尺寸也逐渐趋于摩尔定律的极限。当前主流的非挥发性存储器件已经无法满足信息科技对于超高密度快速存储的需求。阻变存储器(RRAM)因其结构简单、工作速度快、可缩小性强且与CMOS工艺兼容等优点,被认为是下一代非易失性存储器的新星。氧化物基阻变存储器因其优异的器件性能和稳定性,在信息存储和类脑神经计算领域具有重要的应用价值。本文从阻变存储器存储机理、材料种类、器件结构和器件性能等方面系统地概述了氧化物基阻变存储器的研究进展,为氧化物基阻变存储器的发展提供新思路。 展开更多
关键词 氧化物半导体 阻变存储器 信息存储 类脑计算
下载PDF
USPS:面向算力资源高效协同的用户态跨协议代理系统
15
作者 夏景旋 申国伟 +1 位作者 郭春 崔允贺 《计算机科学》 CSCD 北大核心 2023年第11期348-355,共8页
随着算力网络的快速发展,通用算力、人工智能算力、超算等算力资源分布广泛。算力资源协同服务是算力网络研究的关键问题。在算力资源协同过程中,一方面,算力网络面临海量终端算力服务的高并发请求和低时延响应需求;另一方面,其难以充... 随着算力网络的快速发展,通用算力、人工智能算力、超算等算力资源分布广泛。算力资源协同服务是算力网络研究的关键问题。在算力资源协同过程中,一方面,算力网络面临海量终端算力服务的高并发请求和低时延响应需求;另一方面,其难以充分发挥数据中心算力资源的高吞吐和低时延优势,进而难以为用户提供高效的算力服务。针对上述挑战,提出一种基于用户态协议栈和远程直接内存访问(Remote Direct Memory Access,RDMA)的用户态代理系统(User-Space Proxy System,USPS),通过用户态协议栈响应客户高并发算力请求,在动态批处理策略协调下实现基于RDMA的数据中心算力高吞吐、低时延服务。在通信方面,USPS实现了一个高效的远程过程调用(Remote Procedure Call,RPC)通信机制,能够充分利用RDMA网卡带宽提供高速消息通信;在请求处理方面,提出了一个动态批处理调度方法,能够在满足用户时延要求的前提下最大化批处理效率。实验结果表明,USPS的服务响应时延仅是传统内核态Nginx代理系统的7.8%~23.1%,是其他用户态代理系统的17.3%~24.7%;吞吐量比传统内核态的Nginx代理系统提升了3.4~8.9倍,比其他用户态代理系统提升了3.2~4.2倍。 展开更多
关键词 算力资源高效协同 用户态代理 远程直接内存访问 数据中心 批处理调度
下载PDF
面向自旋存内计算架构的图算法优化设计
16
作者 王雪岩 陈序航 +3 位作者 贾小涛 杨建磊 屈钢 赵巍胜 《电子与信息学报》 EI CSCD 北大核心 2023年第9期3193-3199,共7页
图计算广泛应用于社交网络分析、推荐系统等诸多关键领域,然而,传统的大规模图计算系统面临冯诺依曼架构下访存带来的性能瓶颈。新型存内计算架构成为加速大规模图计算非常有前景的方案,尤其是非易失自旋磁存储器(MRAM)具备超高耐擦写... 图计算广泛应用于社交网络分析、推荐系统等诸多关键领域,然而,传统的大规模图计算系统面临冯诺依曼架构下访存带来的性能瓶颈。新型存内计算架构成为加速大规模图计算非常有前景的方案,尤其是非易失自旋磁存储器(MRAM)具备超高耐擦写性和超快写入等优点,可使图计算的存内实现更为高效。实现这种潜力的关键挑战之一是如何优化存内计算架构下的图算法设计。该文的前期工作表明,三角形计数算法和图连通分量计算算法可以通过按位运算实现,从而高效地部署在自旋存内处理核中加速。该文探索了更多图算法的优化实现,例如单源最短路径、K-core、链路预测,并提出了面向新型存内计算架构的图算法优化设计模型。该研究对于突破冯诺依曼架构下大规模图计算的内存访问瓶颈具有关键意义。 展开更多
关键词 图计算 存内计算架构 位逻辑运算 自旋磁存储器
下载PDF
基于NUMA延迟发送的时变图弱连通分量求解
17
作者 梁锐杰 程永利 《计算机系统应用》 2023年第3期322-329,共8页
时变图连通分量已经被广泛应用到不同场景,如交通路网建设、推荐系统的信息推送等.然而当前多数连通分量求解方法忽视了NUMA体系结构对计算效率产生的影响,即过高的远程内存访问延迟导致低下的算法执行效率.本文针对时变图的弱连通分量... 时变图连通分量已经被广泛应用到不同场景,如交通路网建设、推荐系统的信息推送等.然而当前多数连通分量求解方法忽视了NUMA体系结构对计算效率产生的影响,即过高的远程内存访问延迟导致低下的算法执行效率.本文针对时变图的弱连通分量求解问题,提出一种基于NUMA延迟发送的时变图弱连通分量求解方法,它通过合理的数据内存布局,合理控制NUMA节点间的信息交换次数,最大限度减少远程内存访问数量,显著提高了算法执行效率.实验结果表明,该方法的性能明显优于当前流行的图处理系统Ligra和Polymer提供的方法. 展开更多
关键词 弱连通分量 NUMA 延迟发送 时变图 图计算
下载PDF
GD-1高压共轨柴油机在线标定存储区的应用研究 被引量:3
18
作者 王俊席 杨林 +2 位作者 冯静 冒晓建 卓斌 《内燃机工程》 EI CAS CSCD 北大核心 2005年第3期43-45,共3页
在易失性存储器RAM中指定了特定的标定RAM(存放标定参数)区,将FLASH内保存的需要标定的参数(常数、脉谱和标志位)映射到标定RAM中,主程序应用标定RAM区的参数进行运算。通过对标定RAM区的标定参数进行在线标定,修改后的标定参数将直接... 在易失性存储器RAM中指定了特定的标定RAM(存放标定参数)区,将FLASH内保存的需要标定的参数(常数、脉谱和标志位)映射到标定RAM中,主程序应用标定RAM区的参数进行运算。通过对标定RAM区的标定参数进行在线标定,修改后的标定参数将直接应用于下一循环的控制策略计算,实现了真正意义上的在线标定。标定结束后,将标定RAM区的标定参数写入对应的FLASH存储区中,永久的保存标定后的参数。 展开更多
关键词 内燃机 高压共轨柴油机 在线标定 标定RAM 标定监测系统
下载PDF
多通道串行通信设备的Linux驱动程序实现 被引量:4
19
作者 邹荣士 郭立红 +1 位作者 司玉美 赵海波 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第1期164-167,共4页
以自行开发的PCI接口通信卡为例,简要介绍了PCI总线在光电测量数据通信系统中的应用,重点讨论了Linux设备驱动程序开发方法及虚拟文件层机制等相关概念。针对该通信设备,介绍其在Linux下采用内核模块编程方式,实现中断和DMA方式数据传... 以自行开发的PCI接口通信卡为例,简要介绍了PCI总线在光电测量数据通信系统中的应用,重点讨论了Linux设备驱动程序开发方法及虚拟文件层机制等相关概念。针对该通信设备,介绍其在Linux下采用内核模块编程方式,实现中断和DMA方式数据传送的方法。实验测得此传输方案的本地速率可达24.096 Mb/s,传输和响应速度较传统读写方式有了显著提高,数据可稳定传输在460 kb/s,满足系统传输需求。 展开更多
关键词 计算机应用 设备驱动 直接内存访问(DMA) PCI总线 内核
下载PDF
功耗受限情况下多核处理器能效优化方案 被引量:3
20
作者 邱晓杰 安虹 +2 位作者 陈俊仕 迟孟贤 金旭 《计算机工程》 CAS CSCD 北大核心 2017年第4期39-45,共7页
将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调... 将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调整(DVFS)技术控制CPU功耗在预算内以提高处理器能效。同时,将功耗控制和功耗分配解耦合以提高灵活性。采用动态调整的线性模型估计功耗,通过反馈控制技术对其进行调节。以计算访存比为指标在应用间分配功耗,并考虑多线程应用特征进行线程间功耗分配。实验结果表明,PPCM比Priority算法速度平均提高10.7%,能耗平均降低5.1%,能量-延迟积平均降低14.3%。与PCM CA算法相比,其速度平均提高4.5%,能量-延迟积平均降低5.0%。 展开更多
关键词 功耗控制 功耗分配 能效优化 动态电压频率调整 计算访存比 线程关键度
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部