期刊文献+
共找到105篇文章
< 1 2 6 >
每页显示 20 50 100
Design and Implementation of Memory Access Fast Switching Structure in Cluster-Based Reconfigurable Array Processor
1
作者 Rui Shan Lin Jiang +2 位作者 Junyong Deng Xueting Li Xubang Shen 《Journal of Beijing Institute of Technology》 EI CAS 2017年第4期494-504,共11页
Memory access fast switching structures in cluster are studied,and three kinds of fast switching structures( FS,LR2 SS,and LAPS) are proposed. A mixed simulation test bench is constructed and used for statistic of d... Memory access fast switching structures in cluster are studied,and three kinds of fast switching structures( FS,LR2 SS,and LAPS) are proposed. A mixed simulation test bench is constructed and used for statistic of data access delay among these three structures in various cases. Finally these structures are realized on Xilinx FPGA development board and DCT,FFT,SAD,IME,FME,and de-blocking filtering algorithms are mapped onto the structures. Compared with available architectures,our proposed structures have lower data access delay and lower area. 展开更多
关键词 array processor distributed memory memory access switching structure
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
2
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
超长指令字DSP标量访存单元的设计与优化 被引量:1
3
作者 郑康 李晨 +2 位作者 陈海燕 刘胜 方粮 《计算机工程与科学》 CSCD 北大核心 2023年第11期1929-1940,共12页
近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字... 近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字DSP在访存实时性、顺序与固定延迟、高效数据一致性方面的需求,设计了一种适用于DSP的标量访存单元,可配置的设计能够满足DSP的访存实时性;基于ID的顺序机制保证超长指令字架构对Load指令返回数据的顺序与固定延迟要求,存储开销为87.5 B;硬件查找“首1”加速了数据一致性所需的写回操作。当Cache中25%,50%和75%的行需要写回时,优化后的一致性写回开销为逐行扫描方法的26.4%,51.3%和76.2%,只与有效脏行数量成正比,与Cache容量无关。 展开更多
关键词 标量访存单元 DSP 超长指令字
下载PDF
适用于可重构网络安全处理器的链式多通道分组DMA 被引量:2
4
作者 苏会芳 周诚 +1 位作者 解思江 李晨 《云南师范大学学报(自然科学版)》 2023年第4期49-54,共6页
为了提高可重构网络安全处理器中CPU、密码模块和网卡等各功能部件之间的数据传输效率,提出了一种链式多通道分组直接存储器存取(direct memory access,DMA)传输方式,设计了链式多通道分组DMA的硬件架构,使用65 nm CMOS工艺标准单元库... 为了提高可重构网络安全处理器中CPU、密码模块和网卡等各功能部件之间的数据传输效率,提出了一种链式多通道分组直接存储器存取(direct memory access,DMA)传输方式,设计了链式多通道分组DMA的硬件架构,使用65 nm CMOS工艺标准单元库对链式多通道分组DMA进行了ASIC实现并搭建了仿真验证平台,结果表明使用链式多通道DMA的可重构网络安全处理器内部通信性能明显提升. 展开更多
关键词 数据传输方式 网络安全处理器 直接存储器存取
下载PDF
晶硅分子动力学模拟的GPU加速算法优化 被引量:2
5
作者 林琳 祝爱琦 +6 位作者 赵明璨 张帅 叶炎昊 徐骥 韩林 赵荣彩 侯超峰 《计算机工程》 CAS CSCD 北大核心 2023年第4期166-173,共8页
分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待... 分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合Nvidia Tesla V100 GPU硬件体系结构特点,对晶硅MD模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用GPU强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅MD模拟算法的计算速度相比于优化前提升了1.69~1.97倍,相比于国际上主流的GPU加速MD模拟软件HOOMDblue和LAMMPS分别提升了3.20~3.47倍和17.40~38.04倍,具有较好的模拟加速效果。 展开更多
关键词 分子动力学 图形处理器 合并访存 循环展开 原子操作 性能优化
下载PDF
一种自主可控ATCA平台的高速数据处理方案设计与实现 被引量:2
6
作者 高远 何赞园 李静岩 《电讯技术》 北大核心 2023年第5期688-694,共7页
随着国产处理器的不断成熟以及国家信息化建设的自主可控要求提高,基于国产处理器的先进通信计算机架构(Advanced Telecommunications Compute Architecture,ATCA)的产品平台设计成为潮流和趋势。FT-2000/4国产处理器凭借其稳定的性能... 随着国产处理器的不断成熟以及国家信息化建设的自主可控要求提高,基于国产处理器的先进通信计算机架构(Advanced Telecommunications Compute Architecture,ATCA)的产品平台设计成为潮流和趋势。FT-2000/4国产处理器凭借其稳定的性能表现被广泛应用于自主可控产品的设计中,但是ATCA平台下,FT-2000/4国产处理器由于传统网络I/O的过高开销,往往无法满足高速线路接入需求,极大限制了其应用场景。针对上述问题,提出了一种基于DPDK软件数据包加速处理技术的数据接入模块设计,并且改进了数据分发策略,提出了一种自适应流量控制算法。实验表明,该模块不仅极大提升了国产化ATCA单板的数据接入能力,自适应流量控制算法也能够通过动态调整数据匹配分发端口的方式,有效缓解流分发策略不合理带来的业务节点超负荷问题。 展开更多
关键词 先进通信计算机架构(ATCA) 国产处理器 高速接入 自适应流量控制
下载PDF
多级缓存数据预取处理器访存性能测试方法
7
作者 钟伟军 田晨燕 《信息技术与标准化》 2023年第6期25-29,共5页
针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓... 针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓存数据预取机制,并避免处理器核间资源竞争,实现访存性能提升。实验数据表明,采用该方法可以得到符合硬件实际访存性能的数据,为准确评估高性能处理器的访存能力提供支持。 展开更多
关键词 多级缓存 缓存数据预取 访存性能 处理器 访存带宽
下载PDF
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
8
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 BLAS 1级 BLAS 2级 访存带宽 SW26010-Pro众核处理器 RMA通信 点对点同步 自适应优化
下载PDF
一种电子货架标签系统(ESLS)的设计 被引量:6
9
作者 张帆 张海鹏 《电讯技术》 北大核心 2010年第12期95-100,共6页
针对目前商业领域纸质标签的信息更新滞后、手工更换效率低、易出错等缺点,采用自顶向下设计方法设计了一种基于有源远距离RFID技术的电子货架标签系统。该设计集计算机控制、远程收发、微功耗设计特性为一体,辅以完善的应用系统设计。... 针对目前商业领域纸质标签的信息更新滞后、手工更换效率低、易出错等缺点,采用自顶向下设计方法设计了一种基于有源远距离RFID技术的电子货架标签系统。该设计集计算机控制、远程收发、微功耗设计特性为一体,辅以完善的应用系统设计。该系统业务管理方便,信号覆盖范围可扩展,标签显示模块的电池寿命可达3~5年,具有普遍应用意义和广泛应用前景。 展开更多
关键词 无线传感器网络 电子货架标签系统 射频识别 射频收发器 POS通信模块 读写器
下载PDF
一种面向写穿透Cache的写合并设计及验证 被引量:2
10
作者 梅魁志 李国辉 张斌 《西安交通大学学报》 EI CAS CSCD 北大核心 2010年第4期1-4,共4页
为了利用片上缓冲技术来提高处理器应用性能,提出一种面向写穿透Cache的写合并设计方法.使用同步动态随机存储器(SDRAM)的单个写方式和片上写缓冲器,对SDRAM一行内的局部数据采用写合并策略,由此提高了外部存储的访问效率,同时给出了连... 为了利用片上缓冲技术来提高处理器应用性能,提出一种面向写穿透Cache的写合并设计方法.使用同步动态随机存储器(SDRAM)的单个写方式和片上写缓冲器,对SDRAM一行内的局部数据采用写合并策略,由此提高了外部存储的访问效率,同时给出了连续和单个Cache读写的缓存与内存的数据一致性策略.在寄存器传输语言(RTL)仿真环境下使用mp3解码对Leon2处理器进行数据测试,结果表明:在缓冲区优化为3行8列的参数下,SDRAM每次行开启平均进行7.8个字的写入操作,外存的读写效率由12%提高到19%;在TSMC0.18μm工艺下,综合后面积为0.263mm2,流片后工作主频为100MHz. 展开更多
关键词 写穿透 写合并 处理器 同步读写存储器 读写效率
下载PDF
光栅光谱仪中的高速数据采集系统 被引量:7
11
作者 徐丹阳 童建平 +1 位作者 隋成华 董少波 《浙江工业大学学报》 CAS 2014年第6期690-693,共4页
介绍了一种基于单片机的线阵CCD高速数据采集与实时处理系统.其由单片机系统、高速A/D转换模块、DMA控制电路和RAM存储器等构成.采用了DMA块传输方式,利用AD1674JN高速A/D转换实现了数据的高速采集.详细表述了系统的工作原理、硬... 介绍了一种基于单片机的线阵CCD高速数据采集与实时处理系统.其由单片机系统、高速A/D转换模块、DMA控制电路和RAM存储器等构成.采用了DMA块传输方式,利用AD1674JN高速A/D转换实现了数据的高速采集.详细表述了系统的工作原理、硬件电路及其控制逻辑.这款电路用在相应的光谱仪中可以测量的光谱范围为300~600nm,控制步进电机与减速系统配合,同时结合C-T型光学系统,理论上最小输出一个脉冲光谱移动0.01mm就可采样一次. 展开更多
关键词 线阵CCD 直接存储器 单片机系统 高速数据采集
下载PDF
基于网络处理器的防火墙优化设计与研究 被引量:10
12
作者 沈健 周兴社 +1 位作者 张凡 於志勇 《计算机工程》 CAS CSCD 北大核心 2007年第10期172-174,共3页
提出了基于网络处理器的状态检测型防火墙设计方案,并针对IXP2400的硬件结构,对访问控制列表和状态会话表的存储结构及表项查找等关键技术进行了优化,发挥了IXP2400内部各硬件单元的优点,系统达到线速处理的能力,使其性能得到了较大的... 提出了基于网络处理器的状态检测型防火墙设计方案,并针对IXP2400的硬件结构,对访问控制列表和状态会话表的存储结构及表项查找等关键技术进行了优化,发挥了IXP2400内部各硬件单元的优点,系统达到线速处理的能力,使其性能得到了较大的提交。 展开更多
关键词 网络处理器 防火墙 访问控制列表 状态会话表
下载PDF
网络处理器技术综述 被引量:8
13
作者 简贵胄 葛宁 冯重熙 《电讯技术》 北大核心 2003年第1期6-10,29,共6页
本文在归纳总结网络处理器所涉及的关键技术基础之上 ,介绍了网络处理器的主要体系结构及其在网络设备中的主要作用 ,并针对未来网络建设和网络设备发展的需要 。
关键词 网络设备 网络处理器 功能 快速表查找 结构 可编程性
下载PDF
众核处理器访存链路接口的FPGA验证 被引量:3
14
作者 周宏伟 徐实 +4 位作者 王忠奕 杨乾明 冯权友 邓让钰 窦强 《国防科技大学学报》 EI CAS CSCD 北大核心 2018年第3期176-182,共7页
面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User ... 面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User Datagram Protocol,UDP)协议栈和FPGA芯片间多通道并行链路三项关键技术并进行设计实现。实验结果表明提出的各项关键技术功能正确,不仅丰富了功能验证中随机激励产生及结果验证的手段,而且实现了对链路数据检错和多lane间延迟偏斜纠正逻辑的可靠性测试与评估。经过该平台验证的访存链路接口在实际芯片中通过了功能正确性测试,证明了验证的有效性。 展开更多
关键词 众核处理器 访存 链路 现场可编程门阵列 验证
下载PDF
网络隔离环境下多节点接入控制技术研究 被引量:2
15
作者 陈征 陈银慧 +3 位作者 于玉龙 陈鑫 王宇新 郭禾 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1528-1532,共5页
为了保护重要数据,人们常把服务器置于内部网络与外网隔离.但实际常存在合法的外网用户需要访问内网服务器的情况.为此,采用"客户机-前置机-服务器"架构,实现内外网的隔离访问.采用数据摆渡,解决内外网的隔离通信问题;协议转... 为了保护重要数据,人们常把服务器置于内部网络与外网隔离.但实际常存在合法的外网用户需要访问内网服务器的情况.为此,采用"客户机-前置机-服务器"架构,实现内外网的隔离访问.采用数据摆渡,解决内外网的隔离通信问题;协议转换,兼容不同远程控制协议,有利于系统扩展;多节点接入控制,处理单节点宕机或多客户机接入问题,有效提高系统可靠性与性能.经过案例分析,表明该架构既能保证系统扩展性,又能保障系统的安全性和可靠性. 展开更多
关键词 前置机 隔离访问 数据摆渡 协议转换 多节点接入
下载PDF
TH2100 SCADA系统中前置部分的研究 被引量:1
16
作者 徐春晖 张伯明 汤磊 《电力自动化设备》 EI CSCD 北大核心 2001年第3期11-14,共4页
数据采集与监控系统SCADA在电力系统调度自动化中具有重要的地位 ,而其中前置部分又是SCADA后台与远方变电站或发电厂进行通信的中枢环节。文中介绍了在TH2 10 0SCADA系统中所采取的提高性能的一些方法。包括通信服务器的引入 ,提高了... 数据采集与监控系统SCADA在电力系统调度自动化中具有重要的地位 ,而其中前置部分又是SCADA后台与远方变电站或发电厂进行通信的中枢环节。文中介绍了在TH2 10 0SCADA系统中所采取的提高性能的一些方法。包括通信服务器的引入 ,提高了可维护性、可扩展性和通信速率 ;PRG - 2CHF智能双路调制解调器的运用 ,使得双前置机平衡配置成为可能 ,而且提高了可靠性 ;平衡配置不分主备的双前置机的使用 ,减轻了前置机的负担 ,降低了前置机故障时下发报文丢失的概率 ;采用了多线程的方式进行实时数据处理 。 展开更多
关键词 电力系统调度自动化 SCADA系统 前置部分 TH2100
下载PDF
“银河飞腾”高性能数字信号处理器研究进展 被引量:29
17
作者 陈书明 李振涛 +5 位作者 万江华 胡定磊 郭阳 汪东 扈啸 孙书为 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期993-1000,共8页
YHFT-DSP/700是2004年研制成功的“银河飞腾”系列超长指令字结构高性能浮点DSP,其主频达238MHz,峰值性能为每秒14亿次浮点运算和19亿条指令·介绍了YHFT-DSP/700的体系结构、设计方法和编译器等关键技术;介绍了同时多线程YHFT-DSP/... YHFT-DSP/700是2004年研制成功的“银河飞腾”系列超长指令字结构高性能浮点DSP,其主频达238MHz,峰值性能为每秒14亿次浮点运算和19亿条指令·介绍了YHFT-DSP/700的体系结构、设计方法和编译器等关键技术;介绍了同时多线程YHFT-DSP/SMT的体系结构,它可以将DSP的性能提高40%;分析了国际主流高性能DSP的体系结构和发展趋势· 展开更多
关键词 数字信号处理器 超长指令字结构 直接存储通路 寄存器文件 同时多线程
下载PDF
高速串行数据处理模块的设计与实现 被引量:3
18
作者 徐健 侯振龙 +1 位作者 龚东磊 方明 《计算机工程》 CAS CSCD 北大核心 2016年第3期289-294,共6页
为提高现有密码模块中数据加解密算法的多样性和安全性,设计并实现一种基于双现场可编程门阵列(FPGA)与数字信号处理器(DSP)架构的数据处理模块。2片FPGA分别与DSP通过外部存储器接口(EMIF)总线进行互联。FPGA 1#利用PCIe,EMIF总线实现... 为提高现有密码模块中数据加解密算法的多样性和安全性,设计并实现一种基于双现场可编程门阵列(FPGA)与数字信号处理器(DSP)架构的数据处理模块。2片FPGA分别与DSP通过外部存储器接口(EMIF)总线进行互联。FPGA 1#利用PCIe,EMIF总线实现其与上位机和DSP的通信,并结合分散-收集型直接内存存取模块最大化PCIe链路带宽。FPGA 2#使用AURORA协议与FPGA 1#进行串行通信,实现多个加解密算法的并行工作,同时支持算法的全局和局部重构。DSP负责数据加解密算法的参数配置、密钥生成与安全管理。在中标麒麟操作系统下的板级功能与性能验证结果表明,该模块与主机的通信速率可达11.36 Gb/s,同时具有密码安全性高和算法可重构的特点,适用于高速数据协同处理领域。 展开更多
关键词 直接内存存取 数字信号处理器 PCIe总线 现场可编程门阵列 中标麒麟操作系统
下载PDF
基于Intel IXP425的家庭综合接入网关的设计 被引量:1
19
作者 赵胜颖 金心宇 《计算机工程》 CAS CSCD 北大核心 2007年第12期253-255,共3页
通过对家庭网络及家庭网关的研究和探讨以及对运营商需求的分析,设计了一种基于Intel网络处理器IXP425,适合目前运营商推广的家庭综合接入网关。介绍了系统的总体方案及软硬件架构,同时给出了关键模块的设计。
关键词 家庭网络 家庭网关 网络处理器 综合接入
下载PDF
线阵CCD数据的高速采集系统 被引量:32
20
作者 徐大诚 翁桂荣 《传感器技术》 CSCD 北大核心 2002年第9期45-47,50,共4页
介绍了一种基于单片机的CCD数据采集系统。采用了DMA块传输方式,利用MAX153高速A/D实现了数据的高速采集。结合在光谱测量系统中的应用,给出了测试结果。该系统具有一定的实用价值及应用前景。
关键词 单片机系统 直接存储器存取 线阵CCD
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部