期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
Advances of embedded resistive random access memory in industrial manufacturing and its potential applications
1
作者 Zijian Wang Yixian Song +7 位作者 Guobin Zhang Qi Luo Kai Xu Dawei Gao Bin Yu Desmond Loke Shuai Zhong Yishu Zhang 《International Journal of Extreme Manufacturing》 SCIE EI CAS CSCD 2024年第3期175-214,共40页
Embedded memory,which heavily relies on the manufacturing process,has been widely adopted in various industrial applications.As the field of embedded memory continues to evolve,innovative strategies are emerging to en... Embedded memory,which heavily relies on the manufacturing process,has been widely adopted in various industrial applications.As the field of embedded memory continues to evolve,innovative strategies are emerging to enhance performance.Among them,resistive random access memory(RRAM)has gained significant attention due to its numerousadvantages over traditional memory devices,including high speed(<1 ns),high density(4 F^(2)·n^(-1)),high scalability(~nm),and low power consumption(~pJ).This review focuses on the recent progress of embedded RRAM in industrial manufacturing and its potentialapplications.It provides a brief introduction to the concepts and advantages of RRAM,discusses the key factors that impact its industrial manufacturing,and presents the commercial progress driven by cutting-edge nanotechnology,which has been pursued by manysemiconductor giants.Additionally,it highlights the adoption of embedded RRAM in emerging applications within the realm of the Internet of Things and future intelligent computing,with a particular emphasis on its role in neuromorphic computing.Finally,the review discusses thecurrent challenges and provides insights into the prospects of embedded RRAM in the era of big data and artificial intelligence. 展开更多
关键词 embedded resistive random access memory industrial manufacturing intelligent computing advanced process node
下载PDF
Research on optimization of virtual machine memory access based on NUMA architecture 被引量:2
2
作者 He Mujun Zheng Linjiang +2 位作者 Yang Kai Liu Runfeng Liu Weining 《High Technology Letters》 EI CAS 2021年第4期347-356,共10页
With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-per... With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-performance computing,require enhanced computing power.To meet this requirement,a non-uniform memory access(NUMA)configuration method is proposed for the cloud computing system according to the affinity,adaptability,and availability of the NUMA architecture processor platform.The proposed method is verified based on the test environment of a domestic central processing unit(CPU). 展开更多
关键词 cloud computing VIRTUALIZATION non-uniform memory access(NUMA)virtual machine memory access optimization
下载PDF
Infiniband网络架构下RTI通信机制研究 被引量:4
3
作者 邢驰 李伯虎 《电子学报》 EI CAS CSCD 北大核心 2016年第2期327-333,共7页
复杂系统的协同仿真中需要运行支撑软件RTI(Run Time Infrastructure)来解决异构模型、异构仿真软件间的数据交互的问题.但RTI的TCP/IP通信机制却无法使得HPC(High Performance Computer)的高速网络Infiniband(IB)在仿真中发挥最大的优... 复杂系统的协同仿真中需要运行支撑软件RTI(Run Time Infrastructure)来解决异构模型、异构仿真软件间的数据交互的问题.但RTI的TCP/IP通信机制却无法使得HPC(High Performance Computer)的高速网络Infiniband(IB)在仿真中发挥最大的优势.针对这一问题,本文提出在IB网络架构下基于RDMA(Remote Direct Memory Access)通信机制对RTI进行优化,并以开源HLA项目CERTI软件为基础,研制运行在IB网络下的IB-CERTI软件,最后在不同网络环境下进行对比实验,实验结果证明了IB—CERTI软件在仿真通信中的高效性,特别是仿真邦员间的交互数据量越大,越能提高仿真数据传输效率. 展开更多
关键词 INFINIBand网络 RDMA CERTI 高层体系结构 高性能计算机
下载PDF
Data Virtualization with SAP HANA Smart Data Access
4
作者 Abani Pattanayak 《Journal of Computer and Communications》 2017年第8期62-68,共7页
Digital transformation has been corner stone of business innovation in the last decade, and these innovations have dramatically changed the definition and boundaries of enterprise business applications. Introduction o... Digital transformation has been corner stone of business innovation in the last decade, and these innovations have dramatically changed the definition and boundaries of enterprise business applications. Introduction of new products/ services, version management of existing products/ services, management of customer/partner connections, management of multi-channel service delivery (web, social media, web etc.), merger/acquisitions of new businesses and adoption of new innovations/technologies will drive data growth in business applications. These datasets exist in different sharing nothing business applications at different locations and in various forms. So, to make sense of this information and derive insight, it is essential to break the data silos, streamline data retrieval and simplify information access across the entire organization. The information access framework must support just-in-time processing capabilities to bring data from multiple sources, be fast and powerful enough to transform and process huge amounts of data quickly, and be agile enough to accommodate new data sources per user needs. This paper discusses the SAP HANA Smart Data Access data-virtualization technology to enable unified access to heterogenous data across the organization and analysis of huge volume of data in real-time using SAP HANA in-memory platform. 展开更多
关键词 SAP HANA In-memory Computing SMART DATA access (SDA) DATA VIRTUALIZATION & DATA FEDERATION Virtual DATA Model and Big DATA
下载PDF
Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用
5
作者 王强 孙彦洁 +1 位作者 齐星云 徐佳庆 《计算机工程与科学》 CSCD 北大核心 2024年第12期2117-2127,共11页
Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架... Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架构下内存访问拥塞和最后一级缓存命中率低的结构性瓶颈。然后,基于Bowtie 2在不同非一致性访存平台的表现特点,在复制索引、内存分配以及数据划分3个方面进行优化,提出了Bowtie 2-NUMA。最后,通过实验表明,Bowtie 2-NUMA面向不同计算平台,能够基于体系结构进行适应性优化,实现并行效率的提升。 展开更多
关键词 非一致性访存 Bowtie 2 适应性优化 体系结构 内存带宽 最后一级缓存
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
6
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
基于NUMA云计算架构的多资源分配可信拍卖机制 被引量:1
7
作者 徐嘉 张骥先 +1 位作者 王喆民 刘林杰 《计算机工程与科学》 CSCD 北大核心 2024年第5期761-775,共15页
随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内... 随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内存访问NUMA架构,其主要特征为,每台服务器可由多个计算节点构成,每个节点包含若干处理器和存储器,既可作为独立计算单元,也可以相互连通访问。但是,当前的研究主要着眼于传统的统一性内存访问架构,无法适应NUMA架构下的应用场景。因此,提出了一种适用于NUMA架构下的多资源可信拍卖机制,以虚拟机的形式进行多种资源的组合分配。具体而言,在资源分配问题中,提出一种单调启发式分配算法,考虑了NUMA架构下的部署约束和资源优势密度等因素,有效提升了社会福利。在价格支付问题中,使用二分法设计一种符合关键价格理论的定价支付算法,从而保证机制的可信特征。经过实验测试,该机制在社会福利、用户支付费用和资源利用率等方面,整体性能达到最优解的96%左右。 展开更多
关键词 云计算 资源分配 非统一性内存访问 拍卖机制 可信
下载PDF
基于原补码实现的位串行SRAM存内计算
8
作者 徐伟栋 娄冕 +2 位作者 李立 张凯 龚龙庆 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第10期1095-1104,共10页
针对目前大多数存内计算无法独立处理非卷积计算的问题,提出了一种将转置8T单元与基于向量的位串行存内运算相结合的通用混合型存内计算.采用原码一位乘、补码加法和溢出激活处理,可支持任意位宽的整数/小数及正/负数的乘累加操作,也可... 针对目前大多数存内计算无法独立处理非卷积计算的问题,提出了一种将转置8T单元与基于向量的位串行存内运算相结合的通用混合型存内计算.采用原码一位乘、补码加法和溢出激活处理,可支持任意位宽的整数/小数及正/负数的乘累加操作,也可单独完成池化和激活操作,为从神经网络到信号处理等软件算法的发展提供了必要的灵活性和可编程性,减少了数据在总线上的传输.提出的存内计算在1.2V和500MHz条件下对8位运算的吞吐量为71.3GOPs,能效为20.63TOPS/W,支持灵活位宽的卷积操作,同时减少了数据移动,提高了能效和整体性能. 展开更多
关键词 存内计算 深度神经网络 静态随机存取存储器 能效
下载PDF
面向DCU的LDS访存向量化优化 被引量:2
9
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
10
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares memory Throughput computational Throughput Contiguous memory access CUDA Optimization
下载PDF
GD-1高压共轨柴油机在线标定存储区的应用研究 被引量:3
11
作者 王俊席 杨林 +2 位作者 冯静 冒晓建 卓斌 《内燃机工程》 EI CAS CSCD 北大核心 2005年第3期43-45,共3页
在易失性存储器RAM中指定了特定的标定RAM(存放标定参数)区,将FLASH内保存的需要标定的参数(常数、脉谱和标志位)映射到标定RAM中,主程序应用标定RAM区的参数进行运算。通过对标定RAM区的标定参数进行在线标定,修改后的标定参数将直接... 在易失性存储器RAM中指定了特定的标定RAM(存放标定参数)区,将FLASH内保存的需要标定的参数(常数、脉谱和标志位)映射到标定RAM中,主程序应用标定RAM区的参数进行运算。通过对标定RAM区的标定参数进行在线标定,修改后的标定参数将直接应用于下一循环的控制策略计算,实现了真正意义上的在线标定。标定结束后,将标定RAM区的标定参数写入对应的FLASH存储区中,永久的保存标定后的参数。 展开更多
关键词 内燃机 高压共轨柴油机 在线标定 标定RAM 标定监测系统
下载PDF
多通道串行通信设备的Linux驱动程序实现 被引量:4
12
作者 邹荣士 郭立红 +1 位作者 司玉美 赵海波 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第1期164-167,共4页
以自行开发的PCI接口通信卡为例,简要介绍了PCI总线在光电测量数据通信系统中的应用,重点讨论了Linux设备驱动程序开发方法及虚拟文件层机制等相关概念。针对该通信设备,介绍其在Linux下采用内核模块编程方式,实现中断和DMA方式数据传... 以自行开发的PCI接口通信卡为例,简要介绍了PCI总线在光电测量数据通信系统中的应用,重点讨论了Linux设备驱动程序开发方法及虚拟文件层机制等相关概念。针对该通信设备,介绍其在Linux下采用内核模块编程方式,实现中断和DMA方式数据传送的方法。实验测得此传输方案的本地速率可达24.096 Mb/s,传输和响应速度较传统读写方式有了显著提高,数据可稳定传输在460 kb/s,满足系统传输需求。 展开更多
关键词 计算机应用 设备驱动 直接内存访问(DMA) PCI总线 内核
下载PDF
一种面向高性能计算机的超节点控制器的研究 被引量:4
13
作者 王凯 陈飞 +3 位作者 李强 李晓民 安学军 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2011年第1期1-8,共8页
传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高... 传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高的要求.超节点控制器能够同时连接多个处理单元构成一个超节点,这能够减小互连网络的规模,从而降低互连网络的设计难度,并保证互连网络的性能.用FPGA实现了超节点控制器的原型系统的测试结果表明,采用超节点设计的高性能计算机拥有非常低的通信延迟,同时其通信带宽也有非常好的扩展性. 展开更多
关键词 高性能计算机 超节点控制器 全局地址空间 直接内存访问 远程读写
下载PDF
基于TMS320C32的视觉图像处理系统 被引量:3
14
作者 吴小平 刘万春 +1 位作者 朱玉文 贾云得 《探测与控制学报》 CSCD 2000年第1期18-22,共5页
对 TMS3 2 0 C3 2数字信号处理芯片及系统整体结构进行了介绍 ,并详细阐述了 I2 C总线、图像获取控制电路以及 DMA图像存取等工作原理。
关键词 数字信号处理器DSP 计算机视觉 直接存储器存取DMA I2C总线
下载PDF
区域稳控装置内部数据传输体系的改进与实现 被引量:3
15
作者 余晓龙 丁仁杰 +1 位作者 胡炯 闵勇 《电力系统自动化》 EI CSCD 北大核心 2001年第24期41-44,共4页
介绍了区域稳定控制装置内部数据传输的体系结构 ,从提高数据传输可靠性的角度介绍了各环节采取的相应措施 ,主要包括 GPS接口板上双口 RAM相关程序的改进设计 ,模拟量数据采集板上 FIFO的应用 ,利用复杂可编程逻辑器件 (CPLD)实现的数... 介绍了区域稳定控制装置内部数据传输的体系结构 ,从提高数据传输可靠性的角度介绍了各环节采取的相应措施 ,主要包括 GPS接口板上双口 RAM相关程序的改进设计 ,模拟量数据采集板上 FIFO的应用 ,利用复杂可编程逻辑器件 (CPLD)实现的数据采集逻辑控制和循环冗余校验(CRC) ,以及 ARCnet网应用层网络通信协议的设计。这些措施原理简单 ,易于实现 ,理论分析和针对性试验表明它们可以有效地提高数据传输的可靠性。 展开更多
关键词 区域稳定控制装置 数据传输 可编程逻辑器件 ARCNET 电力系统
下载PDF
Canny边缘检测算法在飞腾平台上的实现与优化 被引量:6
16
作者 郭恒亮 柴晓楠 +2 位作者 韩林 赫晓慧 商建东 《计算机工程》 CAS CSCD 北大核心 2021年第7期37-43,共7页
为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能... 为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能力,根据FT-M7002平台向量存储器的层次结构特征,分析Canny梯度计算并行算法的访存模式,通过首地址偏移取址解决不连续访存问题,并结合双缓冲方式完成数据传输与数据计算。实验结果表明,在与原始Canny算法具有相同检测精度的情况下,该算法在卷积核大小为3×3、5×5、7×7时整体运行速度提升了1.490~2.112倍,缩小了与主流加速器件在数字图像处理领域的性能差距。 展开更多
关键词 FT-M7002处理器 CANNY边缘检测 梯度计算并行 访存优化 双缓冲方式
下载PDF
SMB协议在异构网络并行FDTD计算中的应用研究 被引量:1
17
作者 刘瑜 袁宏春 梁正 《计算机应用》 CSCD 北大核心 2008年第2期279-282,共4页
在多系统异构局域网中,由于不同操作环境的消息传递接口(MPI)程序缺乏互操作性,使得并行时域有限差分运算(FDTD)难以充分利用局域网内的计算资源。对此,提出利用应用层服务消息块(SMB)协议实现异构FDTD计算,并通过内存文件存取、内存映... 在多系统异构局域网中,由于不同操作环境的消息传递接口(MPI)程序缺乏互操作性,使得并行时域有限差分运算(FDTD)难以充分利用局域网内的计算资源。对此,提出利用应用层服务消息块(SMB)协议实现异构FDTD计算,并通过内存文件存取、内存映射数组以及引入冗余计算等方法来缓解与克服SMB通信延迟对并行性能的影响。数值模拟实例验证了新方法的可行性与正确性,所得加速比、并行效率等性能指标参数与常规同构MPI消息传递方法基本相当。 展开更多
关键词 异构并行计算 内存文件存取 内存映射数组 冗余计算 并行性能
下载PDF
基于GPU的K-近邻算法实现 被引量:3
18
作者 田盼 华蓓 陆李 《计算机工程》 CAS CSCD 北大核心 2015年第2期189-192,198,共5页
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用... K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在KDD,Poker,Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。 展开更多
关键词 K-近邻问题 图形处理器 并行计算 算法加速 合并访问 全局存储器
下载PDF
功耗受限情况下多核处理器能效优化方案 被引量:3
19
作者 邱晓杰 安虹 +2 位作者 陈俊仕 迟孟贤 金旭 《计算机工程》 CAS CSCD 北大核心 2017年第4期39-45,共7页
将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调... 将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调整(DVFS)技术控制CPU功耗在预算内以提高处理器能效。同时,将功耗控制和功耗分配解耦合以提高灵活性。采用动态调整的线性模型估计功耗,通过反馈控制技术对其进行调节。以计算访存比为指标在应用间分配功耗,并考虑多线程应用特征进行线程间功耗分配。实验结果表明,PPCM比Priority算法速度平均提高10.7%,能耗平均降低5.1%,能量-延迟积平均降低14.3%。与PCM CA算法相比,其速度平均提高4.5%,能量-延迟积平均降低5.0%。 展开更多
关键词 功耗控制 功耗分配 能效优化 动态电压频率调整 计算访存比 线程关键度
下载PDF
基于静态随机存取存储器的存内计算研究进展 被引量:1
20
作者 蔺智挺 徐田 +6 位作者 童忠瑱 吴秀龙 汪方铭 彭春雨 卢文娟 赵强 陈军宁 《电子与信息学报》 EI CSCD 北大核心 2022年第11期4041-4057,共17页
随着“算力时代”到来,大规模数据需要在存储器和处理器之间往返,然而传统冯·诺依曼架构中计算与存储分离,无法满足频繁访问的需求。存内计算(CIM)技术的诞生突破了冯·诺依曼瓶颈,打破了传统计算架构中的“存储墙”,因此对于... 随着“算力时代”到来,大规模数据需要在存储器和处理器之间往返,然而传统冯·诺依曼架构中计算与存储分离,无法满足频繁访问的需求。存内计算(CIM)技术的诞生突破了冯·诺依曼瓶颈,打破了传统计算架构中的“存储墙”,因此对于“算力时代”具有革命性意义。由于静态随机存取存储器(SRAM)读取数据的速度快且与先进逻辑工艺具有较好的兼容性,因此基于SRAM的存内计算技术受到国内外学者的关注。该文主要概述了基于SRAM的存内计算技术在机器学习、编码、加解密算法等方面的应用;回顾了实现运算功能的各种电路结构,比较了各类以模数转换器(ADC)为核心的量化技术;之后分析了现有存内计算架构面临的挑战并且给出了现有的解决策略,最后从不同方面展望存内计算技术。 展开更多
关键词 静态随机存取存储器 存内计算 人工智能 卷积神经网络 模数转换器
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部