期刊文献+
共找到193篇文章
< 1 2 10 >
每页显示 20 50 100
践行科教融合、贯穿产学研的创新人才培养——中国科学院计算技术研究所的实践
1
作者 董慧 李晓维 《软件工程》 2017年第7期1-4,共4页
世界已进入科教融合日趋紧密的大科学时代。本文在多年研究生教育管理实践的基础之上,通过研究借鉴国际先进科研机构和大学的成功经验,探索新的体制机制和管理模式,以计算机体系结构国家重点实验室为例,以建设国际一流的科研机构为目标... 世界已进入科教融合日趋紧密的大科学时代。本文在多年研究生教育管理实践的基础之上,通过研究借鉴国际先进科研机构和大学的成功经验,探索新的体制机制和管理模式,以计算机体系结构国家重点实验室为例,以建设国际一流的科研机构为目标,以科教融合、产学研结合为核心理念、提出人才培养的四项创新举措,并对两个案例分析展开论述,介绍了践行科教融合、贯穿产学研的创新人才培养实践。 展开更多
关键词 科教融合 产学研结合 创新人才培养
下载PDF
面向集成电路质量技术创新人才培养的探索与实践——计算机体系结构国家重点实验室的实践 被引量:3
2
作者 董慧 李晓维 《高教学刊》 2018年第1期18-20,共3页
文章通过以计算机体系结构国家重点实验室为例,介绍了面向计算机集成电路质量技术创新人才培养的课程体系建设及其特色,教材建设及教学成效,案例翔实。
关键词 集成电路 质量技术 创新人才培养
下载PDF
2018年中国高性能计算机发展现状分析 被引量:7
3
作者 袁国兴 张云泉 袁良 《计算机工程与科学》 CSCD 北大核心 2018年第12期2097-2102,共6页
本文根据2018年10月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
下载PDF
2019年中国高性能计算机发展现状分析 被引量:7
4
作者 袁国兴 张云泉 袁良 《计算机工程与科学》 CSCD 北大核心 2019年第12期2095-2100,共6页
根据2019年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
下载PDF
2021年中国高性能计算机发展现状分析 被引量:7
5
作者 袁国兴 张云泉 袁良 《计算机工程与科学》 CSCD 北大核心 2021年第12期2091-2097,共7页
根据2021年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域和部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
下载PDF
2020年中国高性能计算机发展现状分析 被引量:4
6
作者 袁国兴 张云泉 袁良 《计算机工程与科学》 CSCD 北大核心 2020年第12期2103-2108,共6页
根据2020年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
下载PDF
2018年中国高性能计算机发展现状分析与展望 被引量:13
7
作者 张云泉 《计算机科学》 CSCD 北大核心 2019年第1期1-5,共5页
根据2018年11月发布的中国高性能计算机TOP100排行榜的数据,文中从总体性能、制造商、行业领域等方面对国内高性能计算机的发展现状进行了深入分析。中国TOP100的平均Linpack性能继续保持高于国际TOP500平均Linpack性能的局面,且TOP100... 根据2018年11月发布的中国高性能计算机TOP100排行榜的数据,文中从总体性能、制造商、行业领域等方面对国内高性能计算机的发展现状进行了深入分析。中国TOP100的平均Linpack性能继续保持高于国际TOP500平均Linpack性能的局面,且TOP100的入门性能门槛仍然超过TOP500。中国TOP100上的超级计算系统均是国产超算系统,曙光和联想并列为数量冠军,曙光、联想和浪潮三强争霸的局面继续保持和加强。在此基础上,根据十七届排行榜的性能数据,对未来中国大陆高性能计算机的发展趋势进行了分析和预测。根据新的数据,笔者认为:峰值Exaflops的机器将在2019-2020年间出现;峰值10Exaflops的机器将在2022-2023年间出现;峰值100Exaflops的机器将在2024-2025年间出现。 展开更多
关键词 高性能计算机 TOP100 排行榜 性能 分析
下载PDF
一种结合轻量级注意力机制的人体姿态估计算法
8
作者 李文星 喻明毫 +2 位作者 王子牛 高建瓴 林宁 《计算机应用与软件》 北大核心 2024年第5期131-137,共7页
针对现有的人体姿态估计模型存在的模型参数量和计算量大、冗余度高、耗时长等问题,提出一种基于轻量级注意力机制的网络框架。使用轻量级网络MobilenetV3替代了原OpenPose的主干网络VGG-19;对OpenPose的二分支多阶段的卷积神经网络框... 针对现有的人体姿态估计模型存在的模型参数量和计算量大、冗余度高、耗时长等问题,提出一种基于轻量级注意力机制的网络框架。使用轻量级网络MobilenetV3替代了原OpenPose的主干网络VGG-19;对OpenPose的二分支多阶段的卷积神经网络框架进行压缩;引入空间和通道相结合的注意力机制模块CBAM对模型的速度和精度进行权衡。实验结果表明,该方法下的网络模型大小和浮点计算量分别为10.51 MB和22.65 GFlops,相对于原OpenPose减少了79.91%和83.35%;在COCO2017测试集下,能够在保持较高的检测精度和召回率的基础上显著提升检测速度。 展开更多
关键词 人体姿态估计 计算机视觉 OpenPose 轻量级网络注意力机制
下载PDF
计算机系统容错设计简述 被引量:1
9
作者 鄢贵海 李晓维 《集成技术》 2013年第6期82-88,共7页
高可靠计算机系统是是保证信息服务质量的基石。从第一台计算机ENIAC诞生起,可靠性就是计算机系统面临的主要挑战之一,容错设计是实现可靠性的有效途径,也是一项典型的跨计算机多个设计层次的系统科学。从底层的器件到顶层的应用程序,... 高可靠计算机系统是是保证信息服务质量的基石。从第一台计算机ENIAC诞生起,可靠性就是计算机系统面临的主要挑战之一,容错设计是实现可靠性的有效途径,也是一项典型的跨计算机多个设计层次的系统科学。从底层的器件到顶层的应用程序,都存在优化可靠性的设计空间,每个层次的设计面向特定的可靠性设计挑战。文章将遵循自底向上的逻辑层次简述这些经典的设计方法。 展开更多
关键词 计算机系统 可靠性 容错设计
下载PDF
计算与通信相结合的体系结构
10
作者 唐志敏 《集成技术》 2012年第1期89-92,共4页
本文从应用和技术两个方面,分析了通信与计算相结合的计算机体系结构的研究与开发现状,以及云、网、端方面的新兴应用对处理器结构的需求,提出了适合通信应用的众核处理器研究思路。
关键词 相结合 体系结构 可编程处理器 通信网络 计算机应用 通信系统 处理器阵列 研究思路 计算技术 服务器
下载PDF
一种面向科学计算的数据流优化方法 被引量:9
11
作者 申小伟 叶笑春 +7 位作者 王达 张浩 王飞 谭旭 张志敏 范东睿 唐志敏 孙凝晖 《计算机学报》 EI CSCD 北大核心 2017年第9期2181-2196,共16页
传统数据流结构通过多上下文来隐藏指令等待源操作数的延迟,然而这种隐藏方式只能部分提高数据流处理器执行单元的利用率.在面向例如Stencil、FFT和矩阵乘法等典型科学应用时,传统数据流结构的执行单元利用率仍然较低.科学计算中的核心... 传统数据流结构通过多上下文来隐藏指令等待源操作数的延迟,然而这种隐藏方式只能部分提高数据流处理器执行单元的利用率.在面向例如Stencil、FFT和矩阵乘法等典型科学应用时,传统数据流结构的执行单元利用率仍然较低.科学计算中的核心程序一般是对不同数据进行相同的操作,而且这些操作可以并行执行,数据之间没有直接依赖关系.传统数据流结构是面向通用计算的,通常采用循环来实现对不同数据的相同操作.在这些循环中,迭代是按照顺序依次执行的,这导致了传统数据流结构没有利用科学计算的并行性来提高性能.所以传统数据流结构在处理这些规则的科学应用时没有协调好数据流计算模式和科学计算特征,而数据流计算是非常适合科学计算这种类型的规则计算.基于科学计算的这些特征,该文提出了一种面向科学计算的数据流结构优化方法:循环流水优化方法.循环流水优化方法利用科学计算的分块和并行处理特征,对传统数据流结构中的上下文控制逻辑进行了改进,将科学计算中的循环采用硬件自迭代的方式实现,并将上下文切换逻辑进行了流水化,使数据流结构中的上下文以流水线方式进入执行单元阵列,从而提高计算单元的利用率.面对这种循环流水优化后的数据流结构,传统数据流结构上的指令映射算法不再适用.通过分析循环流水优化后的结构特征,该文进一步提出了一种改进的指令映射算法:LBC(Load Balance Centric)指令映射算法.LBC算法按照深度优先顺序依次映射数据流图中的所有指令,对每条指令分别计算执行单元阵列中所有位置的代价,取最小代价的位置作为最佳映射位置.LBC算法以执行单元负载均衡为核心,同时将定点指令和浮点指令分开处理,保证执行单元上的定点部件和浮点部件的负载均衡.每当映射一条指令时,LBC算法采用相邻节点传输延迟与已经映射的该类型指令数量的乘积作为负载代价,来实现计算部件的负载均衡.另外,LBC算法将网络拥堵也作为指令映射的影响因素.LBC算法将节点与所有父节点的距离之和作为传输代价,使指令间传输消息的路径最短,从而减小片上网络消息传递的跳数.实验结果表明,在处理典型科学应用时,相比于传统数据流结构,循环流水的优化方法将数据流结构的性能平均提高了4.6%.相比于传统指令映射算法SPDI和SPS,在循环流水优化后的数据流结构上,LBC指令映射算法将性能分别平均提升了182.6%和158.1%. 展开更多
关键词 指令映射 数据流 循环流水 科学计算处理器 高性能计算
下载PDF
高性能计算多层次不连续非线性可扩展现象研究 被引量:1
12
作者 张云泉 袁良 +2 位作者 陈一峯 冯晓兵 张贺 《计算机学报》 EI CSCD 北大核心 2020年第6期973-989,共17页
高性能计算是计算科学的具体实践,极大地促进了各领域的科学进展,也对国家的经济建设起到了无法替代的基础性作用.从几十年发展的时间尺度和十万至百万核量级并行规模尺度研究大规模并行软件的研制发展历史来看,发现大规模并行应用软件... 高性能计算是计算科学的具体实践,极大地促进了各领域的科学进展,也对国家的经济建设起到了无法替代的基础性作用.从几十年发展的时间尺度和十万至百万核量级并行规模尺度研究大规模并行软件的研制发展历史来看,发现大规模并行应用软件的开发中物理模型、并行算法、并行软件实现以及底层硬件多个层次中存在的可扩展性的两种有趣现象,即不连续性和非线性现象.本文总结分析这一普遍存在现象,系统梳理计算机软硬件发展,特别是高性能计算发展中的可扩展问题,为未来并行计算领域发展提供方法论层面的借鉴和指导. 展开更多
关键词 高性能计算 超级计算 可扩展性 多层次 不连续 非线性
下载PDF
YOLO检测网络的FPGA加速计算模型的研究 被引量:4
13
作者 裴颂文 汪显荣 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1681-1686,共6页
FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态... FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态定点量化方法降低了数据存储和传输量.然后针对YOLO模型中两类计算开销大的典型卷积层,采用了流水线,循环展开,模块融合等策略分别实现了基于Winograd和GEMM的快速卷积计算引擎,提高加速计算效率.实验结果表明,本文在PYNQ-Z1验证平台上获得的计算性能达到64.9 GOP/s,比基于典型滑动窗口卷积计算方法的性能提高了2.15倍. 展开更多
关键词 FPGA YOLO 快速卷积算法 并行计算 流水线
下载PDF
基于线程池的GPU任务并行计算模式研究 被引量:21
14
作者 李涛 董前琨 +3 位作者 张帅 孔令晏 康宏 杨愚鲁 《计算机学报》 EI CSCD 北大核心 2018年第10期2175-2192,共18页
GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU... GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU上的计算资源,难以有效地处理不规则的并行应用问题.为从体系结构角度探索GPU硬件支持的页锁定内存和统一虚拟地址空间等特征,该文提出了CPU辅助任务调度管理下的基于线程池技术的GPU任务并行计算模型CAGTP,实现了CPU-GPU异构计算系统上的共享内存式程序设计.提出并设计了CPU端的任务队列、计算线程块级任务调度器、任务槽和GPU端的任务复用kernel函数等机制,实现了CPU与GPU间的高效细粒度任务交互,避免了原生CUDA程序中多次启停kernel函数的开销,有效地支持了GPU上的细粒度不规则并行任务计算,而且利用模型API接口函数能够降低CPU-GPU异构计算系统的编程难度.实验结果表明,CAGTP模型中任务调度的开销是kernel函数调用的5%,有效提升了通用矩阵乘、乔列斯基分解和K均值、T近邻等典型线性代数和机器学习算法的计算性能;CAGTP模型易于扩展使用多块GPU,且在性能差异较大的多个GPU之间达到负载均衡,能够高效求解混合任务和具有不规则并行性的应用问题. 展开更多
关键词 异构计算系统 统一计算设备架构 线程池 任务并行 任务复用函数
下载PDF
面向FPGA的二值神经网络模型压缩方法研究
15
作者 陈胤杰 裴颂文 《小型微型计算机系统》 CSCD 北大核心 2024年第6期1356-1362,共7页
针对卷积神经网络在正向推理时的高计算复杂度与空间复杂度问题,提出了一种基于二值神经网络(Binary Neural Network,BNN)的过滤器剪枝算法(Binary Filter Pruning:BFP). BFP算法通过剪除L2范数较小的过滤器,构建剪枝压缩后的二值神经... 针对卷积神经网络在正向推理时的高计算复杂度与空间复杂度问题,提出了一种基于二值神经网络(Binary Neural Network,BNN)的过滤器剪枝算法(Binary Filter Pruning:BFP). BFP算法通过剪除L2范数较小的过滤器,构建剪枝压缩后的二值神经网络模型.进一步面向FPGA(Field Programmable Gate Array)平台,设计并实现了基于二值复值神经网络(Binary Complex Neural Network,BCNN)的ResNet-18加速计算模型.对二值复值卷积层与预处理过程中的卷积层,分别设计了数据预处理合并优化与数据重排序.实验结果显示,BFP算法在CIFAR-10数据集上的分类精度,比基于SLR(Surrogate Lagrangian Relaxation)的通道剪枝方法平均提高了1%.与CPU平台相比,设计的加速器在PYNQ-Z1平台上的计算性能提高了23倍. 展开更多
关键词 二值神经网络 过滤器剪枝 FPGA 模型压缩
下载PDF
边缘计算中面向多码率视频的缓存、转码和传输联合优化策略 被引量:2
16
作者 刘伟 陈振 《计算机应用研究》 CSCD 北大核心 2021年第9期2628-2634,共7页
结合边缘缓存技术与流媒体传输技术能有效提升视频服务质量,为降低视频内容提供商的边缘资源租赁成本,提出一种视频缓存、转码和传输联合优化策略。首先,综合考虑视频的缓存、转码、边缘传输和云端传输的成本,以最小总租赁成本为目标建... 结合边缘缓存技术与流媒体传输技术能有效提升视频服务质量,为降低视频内容提供商的边缘资源租赁成本,提出一种视频缓存、转码和传输联合优化策略。首先,综合考虑视频的缓存、转码、边缘传输和云端传输的成本,以最小总租赁成本为目标建立整数规划模型,并证明其NP-complete性质;其次,根据历史请求数估计视频流行度变化,并对流行视频进行缓存;最后,基于视频的缓存状态,为用户的请求选择成本最低的响应方式。仿真实验表明,所提策略与现有策略相比,可提升请求命中率并有效降低内容提供商的资源租赁成本。 展开更多
关键词 边缘计算 多码率视频 视频转码 协作缓存 协作传输
下载PDF
云基础设施下的体系结构、挑战与机遇 被引量:7
17
作者 邓玉辉 《小型微型计算机系统》 CSCD 北大核心 2012年第8期1715-1722,共8页
在工业界和学术界的大力推动下,云计算作为一种新的服务模式,大致可分为将软件作为服务(Software as a service),将平台作为服务(Platform as a service),和将基础设施作为服务(Infrastructure as a Service).现有的绝大部分关于云计算... 在工业界和学术界的大力推动下,云计算作为一种新的服务模式,大致可分为将软件作为服务(Software as a service),将平台作为服务(Platform as a service),和将基础设施作为服务(Infrastructure as a Service).现有的绝大部分关于云计算的研究和讨论都集中在前两种服务.本文试图探讨云基础设施的体系结构及其面临的挑战和机遇.从冯.诺伊曼体系结构开始,计算机系统结构的研究基本上就可简单归类于三个问题:计算、存储与传输,三者相互影响.我们认为云基础设施也不例外.本文探讨了云计算的特点和优势,并从云体系结构的角度,探讨了云基础设施下的云计算、云存储和云传输所面临的挑战及其带来的可能的各种技术革命. 展开更多
关键词 云计算 云存储 云传输 体系结构
下载PDF
基于ARM的图像几何变换算法库实现和优化技术研究 被引量:1
18
作者 王麓涵 贾海鹏 +1 位作者 张云泉 张广婷 《计算机科学》 CSCD 北大核心 2022年第10期10-17,共8页
高性能原语基础算法库(Intel■Integrated Performance Primitives, Intel IPP)是面向信号、图像处理领域的高性能多媒体加速库。然而,截至目前,暂时没有基于ARM架构的高性能IPP库。文中针对镜像变换、重映射、仿射、透视变换等基础图... 高性能原语基础算法库(Intel■Integrated Performance Primitives, Intel IPP)是面向信号、图像处理领域的高性能多媒体加速库。然而,截至目前,暂时没有基于ARM架构的高性能IPP库。文中针对镜像变换、重映射、仿射、透视变换等基础图像几何变换算法,实现了一个基于ARM计算平台的高性能算法库PerfIPP,并通过SIMD汇编优化、内存对齐、数据预计算、高性能矩阵转置等优化技术,显著提升了上述算法的性能。同时,通过对比不同指令组合、不同指令排列、不同取数存储方式等所带来的性能差异,总结图像几何变换算法在ARM计算平台上实现与优化的关键技术。实验结果表明,在华为鲲鹏920平台上,相比开源计算机视觉库OpenCV,PerfIPP在满足精度要求的同时,在上述基础图像几何变换上获得了108.08%~435.5%的性能提升,并达到了在英特尔至强E5-2640处理器上Intel IPP库平均性能的83.79%。 展开更多
关键词 IPP ARM NEON Intrinsic 几何变换 插值
下载PDF
量子计算模拟及优化方法综述 被引量:3
19
作者 喻志超 李扬中 +1 位作者 刘磊 冯圣中 《计算机工程》 CAS CSCD 北大核心 2022年第1期1-11,共11页
在处理某些大规模并行问题时,量子计算因量子位独特的叠加态和纠缠态特性,相比经典计算机在并行处理方面具有更明显的优势。现阶段,物理量子比特计算机受限于可扩展性、相干时间和量子门操作精度,在经典计算机上开展量子计算模拟成为研... 在处理某些大规模并行问题时,量子计算因量子位独特的叠加态和纠缠态特性,相比经典计算机在并行处理方面具有更明显的优势。现阶段,物理量子比特计算机受限于可扩展性、相干时间和量子门操作精度,在经典计算机上开展量子计算模拟成为研究量子优越性和量子算法的有效途径。然而,随着量子比特数的增加,模拟所需的计算机资源呈指数增长。因此,研究大规模量子计算模拟在保证计算准确度、精度及效率的情况下减少模拟所需资源具有重要意义。从量子比特、量子门、量子线路、量子操作系统等方面展开,阐述量子计算的基本原理和背景知识。同时总结基于经典计算机的量子计算模拟基本方法,分析不同方法的设计思路和优缺点,列举目前常见的量子计算模拟器。在此基础上,针对量子计算模拟的通信开销问题,从节点拆分和通信优化2个方面出发,讨论基于超级计算机集群的量子计算模拟优化方法。 展开更多
关键词 量子计算 量子线路 概率幅模拟 量子计算模拟器 超级计算机
下载PDF
高通量众核并行模拟加速技术研究
20
作者 方国庆 李文明 +3 位作者 余洋 张洋 叶笑春 安虹 《计算机工程》 CAS CSCD 北大核心 2017年第4期73-78,89,共7页
高通量应用的迅猛发展使得模拟速度成为大规模众核体系结构研究的瓶颈。为此,基于高通量众核结构模拟平台,提出一系列模拟加速技术。采用查找表方法加速指令译码,从事件调度算法、时间推进算法以及队列无锁化等角度优化并行离散事件模... 高通量应用的迅猛发展使得模拟速度成为大规模众核体系结构研究的瓶颈。为此,基于高通量众核结构模拟平台,提出一系列模拟加速技术。采用查找表方法加速指令译码,从事件调度算法、时间推进算法以及队列无锁化等角度优化并行离散事件模拟框架,以内存池管理方案提高内存管理效率。实验结果表明,与优化前方案相比,查找表、并行离散事件模拟和内存池3种加速方案在模拟速度上表现较优。 展开更多
关键词 高通量处理器 众核模拟器 查找表 离散事件 内存池
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部