期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
激励简化与模拟加速研究:Rasbora技术
1
作者 郝子宇 李宏亮 +2 位作者 谢向辉 钱磊 张昆 《计算机工程与科学》 CSCD 北大核心 2009年第11期4-8,49,共6页
模拟技术是进行计算机体系结构设计的重要方法。循环语句形成了SCMD的程序结构,使得少量源代码产生大量的Trace和超长的运行时间。本文从源程序的这一特征出发,构建基于循环缩减的Trace简化和模拟加速方法——Rasbora。Rasbora在程序源... 模拟技术是进行计算机体系结构设计的重要方法。循环语句形成了SCMD的程序结构,使得少量源代码产生大量的Trace和超长的运行时间。本文从源程序的这一特征出发,构建基于循环缩减的Trace简化和模拟加速方法——Rasbora。Rasbora在程序源代码中添加指令,有选择地记录循环过程中的Trace内容,从而有效地简化Trace;并且在模拟过程中,识别循环体表现的相似性,用少量的循环体模拟近似代替所有循环的运行。经过测试表明,Rasbora方法可以有效地减少Trace量,缩减模拟时间,同时保证了一定精度的要求。 展开更多
关键词 激励简化 模拟加速 Rasbora SCMD 模拟技术
下载PDF
表面活性剂在半导体硅材料加工技术中的应用 被引量:22
2
作者 刘玉岭 檀柏梅 +1 位作者 赵之雯 郝子宇 《河北工业大学学报》 CAS 2004年第2期72-76,共5页
表面活性剂以其特有的降低表面张力特性、分散悬浮及润湿渗透作用在微电子工业中应用越来越广泛,尤其是在硅材料的切片、磨片、抛光及清洗工艺中的应用已成为减少损伤、缺陷和污染的必不可少的辅助材料.本文主要对表面活性剂的作用机理... 表面活性剂以其特有的降低表面张力特性、分散悬浮及润湿渗透作用在微电子工业中应用越来越广泛,尤其是在硅材料的切片、磨片、抛光及清洗工艺中的应用已成为减少损伤、缺陷和污染的必不可少的辅助材料.本文主要对表面活性剂的作用机理及对硅表面性能的影响进行分析讨论. 展开更多
关键词 硅片 表面活性剂 渗透 分散 清洗
下载PDF
面向神威·太湖之光的PETSc可扩展异构并行算法及其性能优化 被引量:13
3
作者 洪文杰 李肯立 +4 位作者 全哲 阳王东 李克勤 郝子宇 谢向辉 《计算机学报》 EI CSCD 北大核心 2017年第9期2057-2069,共13页
共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之... 共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之光异构超级计算机,根据实际研究需要选取PETSc中两个典型用例ex5(单节点线性求解方程组问题)和ex19(多节点求解2D驱动腔问题)进行实验探究.对运行结果分析找到的热点函数主要为PETSc函数库中7个核心函数,针对这7个核心函数(主要包括向量运算与矩阵运算),提出和实现了其异构并行算法,并结合机器的异构体系结构提出了相应的性能优化方法.在超级计算机上的实验结果为:核心函数并行算法在4主核、256从核的单节点上加速比最大可达到16.4;多节点情况下,当输入规模为16 384时,8192个节点相对于256节点的加速比为32,且加速比随着异构处理器数目的增加接近线性增加,表明PETSc核心函数并行算法在神威·太湖之光超级计算机上具有良好的可扩展性. 展开更多
关键词 并行算法设计 PETSc数学库 可扩展性 神威·太湖之光
下载PDF
卷积神经网络训练访存优化 被引量:3
4
作者 王吉军 郝子宇 李宏亮 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2020年第2期98-107,共10页
虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通... 虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通过分析训练时批归一化层的数据依赖、访存特征及模型训练时的访存特征,分析访存瓶颈的关键因素;其次,使用“计算换访存”思想,提出融合“卷积层+批归一化层+激活层”结构的方法,并基于批归一化层的计算访存特征,将其重构为两个子层,分别与相邻层融合,进一步减少训练时对主存的读写,并构建了训练时的访存量模型与计算量模型。实验结果表明,使用NVIDIA TESLA V100 GPU训练ResNet-50、Inception V3及DenseNet模型时,同原始训练方法相比,其访存数据量分别降低了33%,22%及31%,V100的实际计算效率分别提升了20.5%,18.5%以及18.1%。这种优化方法利用了网络结构与模型训练时的访存特点,可与其他访存优化方法协同使用,进一步降低模型训练时的访存量。 展开更多
关键词 深度卷积神经网络 模型训练 多层融合 批归一化重构 访存优化
下载PDF
一种高性能超长点数浮点FFT加速器设计 被引量:1
5
作者 王谛 石嵩 +5 位作者 吴铁彬 刘亮 谭弘兵 郝子宇 过锋 李宏亮 《计算机研究与发展》 EI CSCD 北大核心 2021年第6期1192-1203,共12页
快速傅里叶变换(fast Fourier transform,FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor,DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持... 快速傅里叶变换(fast Fourier transform,FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor,DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升. 展开更多
关键词 快速傅里叶变换 多维分解算法 3维转置运算 铰链因子生成 加速器
下载PDF
3D-ACC:基于3D集成电路的卷积神经网络加速结构研究 被引量:1
6
作者 王吉军 郝子宇 李宏亮 《计算机应用研究》 CSCD 北大核心 2020年第12期3671-3676,3680,共7页
在深亚微米工艺下,通过持续增大芯片规模来提升计算能力,会导致芯片工作频率降低、功耗剧增、计算效率下降等问题。因此,利用3D集成电路技术,提出并量化研究了一种将二维脉动阵列映射到3D集成电路上的卷积神经网络加速器3D-ACC,并设计... 在深亚微米工艺下,通过持续增大芯片规模来提升计算能力,会导致芯片工作频率降低、功耗剧增、计算效率下降等问题。因此,利用3D集成电路技术,提出并量化研究了一种将二维脉动阵列映射到3D集成电路上的卷积神经网络加速器3D-ACC,并设计了一种高效的卷积映射计算方法,构建了其性能模型,量化分析了不同设计参数对3D-ACC性能和效率的影响。实验结果表明,当采用四层64×64脉动阵列的堆叠结构时,3D-ACC的峰值计算性能达32 TFLOPS,测试VGG-16、ResNet-50以及Inception V3模型时的实际计算效率可达47.4%、37.9%及40.9%。与相同计算单元规模的二维加速器2D-ACC相比,3D-ACC的计算效率及性能优势明显,实际计算性能分别是后者的1.51、1.69以及1.61倍。探索了3D集成电路在神经网络加速器设计的优势,对进一步提升神经网络加速器性能具有一定参考价值。 展开更多
关键词 3D集成电路 脉动阵列 循环分块 性能模型
下载PDF
3D-MMA:基于3D集成电路的矩阵乘加速结构
7
作者 王吉军 郝子宇 李宏亮 《计算机工程与科学》 CSCD 北大核心 2019年第12期2110-2118,共9页
脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结... 脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3D-MMA。首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3D-MMA的加速系统,构建了3D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析。实验结果表明,访存带宽为160 GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3 TFLOPS,效率达99%,且实现代价小于二维实现。在相同工艺下,同线性阵列加速器及K40 GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者。探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值。 展开更多
关键词 3D集成电路 矩阵乘 分块算法 性能模型
下载PDF
卷积核归一化 被引量:2
8
作者 王迪 许勇 +1 位作者 李宏亮 郝子宇 《计算机技术与发展》 2019年第12期27-32,共6页
批量归一化已被证明是深度学习模型中不可或缺的一层,可以有效处理深度神经网络训练过程中的内部协方差位移问题。但批量归一化算法的效果依赖于批的大小,当批较小时,批量归一化的效果较差。此外,批量归一化也带来了额外的计算量,需要... 批量归一化已被证明是深度学习模型中不可或缺的一层,可以有效处理深度神经网络训练过程中的内部协方差位移问题。但批量归一化算法的效果依赖于批的大小,当批较小时,批量归一化的效果较差。此外,批量归一化也带来了额外的计算量,需要更多的存储空间。为了解决这些问题,文中提出一种新的归一化算法——卷积核归一化,对权重的输出通道进行归一化,同样可以有效解决内部协方差位移问题。卷积核归一化不依赖于批的大小,并且不需要计算输入的均值和方差,相比批量归一化减少了75%至81%的计算量。实验证明,在批较小的时候,卷积核归一化训练收敛速度较快且准确率较高,比批量归一化高0.9%至12%;在批较大的时候,卷积核归一化与批量归一化最高准确率误差不超过1%。 展开更多
关键词 卷积核归一化 批量归一化 内部协方差位移 卷积神经网络 深度学习
下载PDF
BFS算法与众核处理器的适应性研究 被引量:7
9
作者 叶楠 郝子宇 +1 位作者 郑方 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1187-1197,共11页
以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search,BFS)算法为代表的图计算的... 以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search,BFS)算法为代表的图计算的典型特征,设计实现轻量级启发式切换BFS算法,该算法通过基本搜索方式的自动切换,避免冗余内存访问,提高搜索效率;针对BFS算法的离散随机数据访问特征以及众核处理器执行机制,建立面向BFS算法的众核处理器体系结构分析模型;全面、深入研究了BFS算法在典型众核处理器上的运行特征和性能变化趋势.测试结果表明:Cache命中率、内存带宽、流水线利用效率等相关参数均处于较低水平,无法完全满足BFS算法的需求,因此需要能够支持大量离散随机访问和简单执行机制的新型众核处理器体系结构. 展开更多
关键词 广度优先搜索算法 众核处理器 体系结构 分析模型 协同研究
下载PDF
基于蚁群平台的大规模分布式XML数据库 被引量:3
10
作者 赵锦明 钱磊 +1 位作者 吴东 郝子宇 《计算机工程》 CAS CSCD 北大核心 2017年第3期24-31,共8页
为解决现有原生XML数据库查询效率不高、查询并发度低、数据库规模小及可扩展性不足等问题,基于蚁群高效多用计算平台设计一个大规模分布式原生XML数据库原型系统。采用软硬协同设计思想,在硬件部分设计多并行、全流水、可配置的查询过... 为解决现有原生XML数据库查询效率不高、查询并发度低、数据库规模小及可扩展性不足等问题,基于蚁群高效多用计算平台设计一个大规模分布式原生XML数据库原型系统。采用软硬协同设计思想,在硬件部分设计多并行、全流水、可配置的查询过滤结构,以实现高效查询。利用软件平台的通用性,实现数据库的灵活配置和查询结果排序、筛选等复杂处理,并针对现有原生XML,数据库存在的问题给出相应的解决方法。实验结果表明,该系统可行有效,查询效率相对于Tamino数据库有30倍左右的性能提升,并且能够支持大量并发操作,具有良好的扩展性。 展开更多
关键词 原生XML数据库 蚁群 软硬协同设计 查询 并发度
下载PDF
图计算中基于一致性约束条件的迭代模型研究 被引量:1
11
作者 孙茹君 张鲁飞 +1 位作者 郝子宇 陈左宁 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期431-441,共11页
迭代计算是数值计算中有效的逼近方式,能够拟合多种计算模型.在大数据分析领域尤其是图计算中,迭代计算能够抽象描述大部分图算法,对结构化数据挖据和关联分析至关重要.随着数据规模的增长,很多精确算法的时空复杂度已经难以满足现实需... 迭代计算是数值计算中有效的逼近方式,能够拟合多种计算模型.在大数据分析领域尤其是图计算中,迭代计算能够抽象描述大部分图算法,对结构化数据挖据和关联分析至关重要.随着数据规模的增长,很多精确算法的时空复杂度已经难以满足现实需求,迭代计算的算法越来越丰富.并行迭代是图计算的主要实现形式,已有的图并行策略大多数是同步模型,少量异步模型,对于一致性约束条件下的迭代研究较少.研究内容重点关注图计算模型中迭代执行技术,分析了同步迭代和异步迭代的适用性,以及不同一致性下的异步迭代方式,针对已有异步迭代方式的不足提出了自适应的弱一致异步执行模型,并进行了验证性实验.实验证明:该模型能有效提高部分图算法的执行效率,尤其是收敛速度和效果. 展开更多
关键词 图迭代 分布式计算 同步迭代 弱一致异步迭代
下载PDF
基于矩阵计算的并行谱聚类方法 被引量:1
12
作者 张鲁飞 郝子宇 陈左宁 《计算机科学与探索》 CSCD 北大核心 2015年第10期1163-1171,共9页
针对大规模社交网络的聚类研究由来已久,谱聚类方法的可扩展性也一直是研究难点。近年来,基于代数图论发展出来的谱聚类方法,利用了特征值对应的谱结构,降低了计算复杂度且保证了聚类质量,是新的研究热点。但是在图的规模比较大和聚类... 针对大规模社交网络的聚类研究由来已久,谱聚类方法的可扩展性也一直是研究难点。近年来,基于代数图论发展出来的谱聚类方法,利用了特征值对应的谱结构,降低了计算复杂度且保证了聚类质量,是新的研究热点。但是在图的规模比较大和聚类个数比较多的情况下,中间运算结果会突破单机内存限制,必须将谱聚类方法并行化。为解决上述问题,提出了基于矩阵计算的并行谱聚类方法。首先利用矩阵计算领域中形成的大量的高效算法以及成熟的软件解决了特征值分解问题,将大规模的图进行降维,有效地支持原型系统的快速开发。其次使用稀疏矩阵的分片压缩存储,并用MPI(message passing interface)模型实现了矩阵-向量乘等基本算子,提高了系统的可扩展性及可靠性。最后通过实验表明提出的并行谱聚类方法可有效地解决聚类问题所面临的并发度高和平台复杂的挑战,进而支持挖掘蕴藏在海量数据资源中的有价值信息。 展开更多
关键词 矩阵计算 谱聚类 特征值分解 社交网络
下载PDF
MPI非阻塞广播算法及性能研究 被引量:1
13
作者 严忻恺 郝子宇 +1 位作者 吴东 谢向辉 《计算机工程与科学》 CSCD 北大核心 2013年第9期20-26,共7页
MPI的3.0版新增了非阻塞集合通信。非阻塞集合通信兼顾非阻塞和集合通信的特点,与阻塞集合通信相比具有更低的同步开销,能够实现更多的计算通信重叠,带来性能提升。以广播为例详细介绍了广播通信的不同算法实现,比较了非阻塞与阻塞广播... MPI的3.0版新增了非阻塞集合通信。非阻塞集合通信兼顾非阻塞和集合通信的特点,与阻塞集合通信相比具有更低的同步开销,能够实现更多的计算通信重叠,带来性能提升。以广播为例详细介绍了广播通信的不同算法实现,比较了非阻塞与阻塞广播底层控制管理方法并进行了实验分析,提出了实现改进方法。 展开更多
关键词 MPI 非阻塞广播 同步开销 重叠
下载PDF
零级指令缓存研究综述
14
作者 张昆 郝子宇 +1 位作者 郑方 谢向辉 《计算机工程与科学》 CSCD 北大核心 2017年第3期405-412,共8页
高效能是处理器设计的重要指标。由于指令部件在处理器芯片中开始占据越来越多的芯片面积,消耗了较多的芯片功耗,研究人员提出了零级指令缓存设计。零级指令缓存容量小、访问耗能低,与流水线紧密耦合、取指命中时可以门控流水线部分逻... 高效能是处理器设计的重要指标。由于指令部件在处理器芯片中开始占据越来越多的芯片面积,消耗了较多的芯片功耗,研究人员提出了零级指令缓存设计。零级指令缓存容量小、访问耗能低,与流水线紧密耦合、取指命中时可以门控流水线部分逻辑。因此,零级指令缓存可以有效提高流水线指令部件的能效比。综述了现有的零级指令缓存的不同结构、各结构的发展与应用情况;展望了零级指令缓存设计的未来研究思路。 展开更多
关键词 高效能 零级缓存 指令缓存 微体系结构设计
下载PDF
面向智能计算的国产众核处理器架构研究 被引量:2
15
作者 李宏亮 郑方 +6 位作者 郝子宇 高红光 过锋 唐勇 吕晖 刘鑫 陈芳园 《中国科学:信息科学》 CSCD 北大核心 2019年第3期247-255,共9页
当前人工智能对算力的需求以超摩尔定律的速度增长,算法并行性高、数据重用性强,为处理器体系结构设计带来了更大的设计空间.众核处理器以其强大的片上计算能力、灵活的片上体系结构、高效的片上通信、柔性优化的存储等特性,为人工智能... 当前人工智能对算力的需求以超摩尔定律的速度增长,算法并行性高、数据重用性强,为处理器体系结构设计带来了更大的设计空间.众核处理器以其强大的片上计算能力、灵活的片上体系结构、高效的片上通信、柔性优化的存储等特性,为人工智能提供了更广阔的发展空间.本文在介绍众核处理器发展历史的基础上梳理了主要技术路线,重点论述人工智能应用对国产众核处理器体系结构和关键特性的需求. 展开更多
关键词 众核处理器 智能计算 体系结构 通信机制 存储体系
原文传递
ArchSim:A System-Level Parallel Simulation Platform for the Architecture Design of High Performance Computer 被引量:4
16
作者 黄永勤 李宏亮 +4 位作者 谢向辉 钱磊 郝子宇 过锋 张昆 《Journal of Computer Science & Technology》 SCIE EI CSCD 2009年第5期901-912,共12页
High performance computer(HPC) is a complex huge system,of which the architecture design meets increasing difficulties and risks.Traditional methods,such as theoretical analysis,component-level simulation and sequenti... High performance computer(HPC) is a complex huge system,of which the architecture design meets increasing difficulties and risks.Traditional methods,such as theoretical analysis,component-level simulation and sequential simulation, are not applicable to system-level simulations of HPC systems.Even the parallel simulation using large-scale parallel machines also have many difficulties in scalability,reliability,generality,as well as efficiency.According to the current needs of HPC architecture design,this paper proposes a system-level parallel simulation platform:ArchSim.We first introduce the architecture of ArchSim simulation platform which is composed of a global server(GS),local server agents(LSA) and entities.Secondly,we emphasize some key techniques of ArchSim,including the synchronization protocol,the communication mechanism and the distributed checkpointing/restart mechanism.We then make a synthesized test of some main performance indices of ArchSim with the phold benchmark and analyze the extra overhead generated by ArchSim.Finally,based on ArchSim,we construct a parallel event-driven interconnection network simulator and a system-level simulator for a small scale HPC system with 256 processors.The results of the performance test and HPC system simulations demonstrate that ArchSim can achieve high speedup ratio and high scalability on parallel host machine and support system-level simulations for the architecture design of HPC systems. 展开更多
关键词 高性能计算机系统 系统级仿真 体系结构设计 并行计算机 仿真平台 大规模并行机 建筑设计 系统模拟器
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部