期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
面向高性能计算平台的一站式服务系统
1
作者 周婧 王一超 +2 位作者 韦建文 文敏华 林新华 《软件导刊》 2024年第1期108-114,共7页
在使用高性能计算服务时,用户需要经历多端协同、手动配置信息、人工诊断连接错误等一系列繁琐的步骤。为简化用户使用高性能计算服务的步骤,设计并实现了面向校级高性计算平台的一站式服务系统。该服务系统集成了用户日常登录与使用高... 在使用高性能计算服务时,用户需要经历多端协同、手动配置信息、人工诊断连接错误等一系列繁琐的步骤。为简化用户使用高性能计算服务的步骤,设计并实现了面向校级高性计算平台的一站式服务系统。该服务系统集成了用户日常登录与使用高性能计算集群所需的功能,内置终端模拟器,支持信息自动补全,并能够自动诊断连接错误。此外,该服务系统的客户端具有跨平台和高度可配置的特点,并支持现代化界面。测试与实际部署表明,该系统能够提供低时延的服务,并在大量并发用户的峰值工作负载下仍具有高吞吐量,极大提升了用户对高性能计算服务的使用体验。 展开更多
关键词 高性能计算 一站式服务 服务系统 跨平台 错误诊断
下载PDF
基于NVIDIA Kepler的PIC方法并行 被引量:1
2
作者 文敏华 林新华 Simon Chong Wee See 《计算机工程与科学》 CSCD 北大核心 2013年第11期100-104,共5页
PIC方法是计算等离子体物理中广泛使用的一种计算方法。通常情况下需要使用大量的计算粒子以达到高的计算精度,这导致非常庞大的计算量。因而PIC方法的加速研究对于减少其时间成本非常有意义。设计了一个基于NVIDIA Kepler GPU的PIC算法... PIC方法是计算等离子体物理中广泛使用的一种计算方法。通常情况下需要使用大量的计算粒子以达到高的计算精度,这导致非常庞大的计算量。因而PIC方法的加速研究对于减少其时间成本非常有意义。设计了一个基于NVIDIA Kepler GPU的PIC算法,并使用CUDA在GPU上实现了该算法。在PIC方法中最耗时间的两个函数collision和mover被移植到GPU上。在实验中使用了NVIDIA新发布的Kepler K20GPU进行这两个函数的性能测试,相比于Intel Sandy Bridge E5-2650,最高获得了30倍的加速。 展开更多
关键词 PIC方法 CUDA NVIDIA KEPLER
下载PDF
动态网格的DSMC方法在GPU上的并行
3
作者 文敏华 林新华 Simon Chong Wee See 《计算机科学与探索》 CSCD 2013年第5期472-479,共8页
直接模拟蒙特卡罗方法(direct simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理;另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应... 直接模拟蒙特卡罗方法(direct simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理;另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应的碰撞网格,能有效解决前一个缺点;针对后一个缺点,使用统一计算架构(compute unified device architecture,CUDA)编写并行程序,将基于动态网格的DSMC方法移植到图形处理器(graphic processing unit,GPU)上以减少计算时间。在并行实现中,GPU负责绝大部分的计算,而CPU只负责初始化、结果输出等少量工作。使用一个二维超音速横掠平板问题作为算例,验证了并行程序的正确性。对于不同规模的算例,在NVIDIA Fermi C2050之上均获得了10倍以上的加速比;对于相同算例,NVIDIA最新发布的Kepler K20上的速度约为FermiC2050上的1.3~1.6倍。 展开更多
关键词 统一计算架构(CUDA) 图形处理器(GPU) 直接模拟蒙特卡罗方法(DSMC) 动态网格DSMC 并行模拟
下载PDF
多核中Cache一致性延迟分析
4
作者 文敏华 强凯 《信息通信》 2016年第3期7-8,共2页
文章分析了一致性处理过程,一致性延迟与目录存储的位置有关,通过改变目录存储位置改变目录延迟。最后,对扁平式目录一致性延迟进行了分析。
关键词 多核 CACHE 一致性 延迟
下载PDF
一种Cache一致性优化策略
5
作者 文敏华 颜丰琳 《信息系统工程》 2016年第4期104-104,106,共2页
本文提出了减少Cache一致性处理延迟的一种优化策略:目录的临近转发。目录的临近转发根据目录维持的片上节点之间的链路段数表,来选择拥有所需数据块的最近Cache去转发请求,从而减少目录到拥有者和拥有者到请求者的延迟。
关键词 CACHE 多核 一致性 目录
下载PDF
利用Stencil建模及评估Intel IMCI vgather指令 被引量:1
6
作者 林新华 王一超 +3 位作者 秦强 李硕 文敏华 松岡聡 《计算机工程与科学》 CSCD 北大核心 2016年第9期1741-1747,共7页
Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgathe... Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgather的性能建模可以帮助用户深入地掌握和理解Xeon Phi协处理器的性能特性。在实验方法上,本文方法与现存的通过程序段内嵌入汇编代码进行数据统计不同,使用PAPI等性能分析工具直接收集硬件计数器的统计结果,作为模型的实验数据。本文的性能模型基于AGI事件次数和根据VPU_DATA_READ次数估算得出的vgather所导致的平均延迟构建而成。该模型能够对Xeon Phi应用代码中由vgather所导致的总延迟进行预测。最终,为了验证模型预测的准确性,将该模型应用在三维7点stencil应用代码上,预测结果显示,vgather耗时占计算总耗时的约40%。再将该结果与利用intrinsics指令去除vgather后的计算耗时进行了对比验证,结果显示模型预测准确。基于上述结论,采用硬件计数器的统计结果在Xeon Phi协处理器上针对vgather构建了性能模型。同时,通过与其他平台的vgather对比,认为该模型也可以应用在同样具备vgather的Intel CPU处理器平台上。 展开更多
关键词 性能建模 vgather XEON PHI 硬件计数器
下载PDF
基于MPC8640D处理系统的技术研究 被引量:8
7
作者 汤艳飞 文敏华 《航空计算技术》 2012年第1期120-122,共3页
结合多年嵌入式处理的设计经验,借鉴国外高性能嵌入式计算机的设计原则,提出基于MPC8640D的新一代处理系统的设计与实现方法,其特点是:高集成度,双核的高处理速度,高速外部串行总线接口,大容量存储器。基于该设计的处理器模块已经开始... 结合多年嵌入式处理的设计经验,借鉴国外高性能嵌入式计算机的设计原则,提出基于MPC8640D的新一代处理系统的设计与实现方法,其特点是:高集成度,双核的高处理速度,高速外部串行总线接口,大容量存储器。基于该设计的处理器模块已经开始用于机载电子设备中。 展开更多
关键词 嵌入式处理 可配置性 实时系统 BIT
下载PDF
一种Buck开关变换器的建模方法和仿真验证 被引量:3
8
作者 强凯 文敏华 +1 位作者 张锐 周青 《信息通信》 2016年第3期53-55,共3页
Buck开关变换器在当今电子领域应用越来越广泛,IC器件在流片投产之前的建模及仿真验证越来越受到行业重视和认可。本文首先分析了Buck变换器的拓扑结构和工作原理,然后应用VHDL-AMS语言在Systemvision仿真环境下对Buck开关变换器进行建... Buck开关变换器在当今电子领域应用越来越广泛,IC器件在流片投产之前的建模及仿真验证越来越受到行业重视和认可。本文首先分析了Buck变换器的拓扑结构和工作原理,然后应用VHDL-AMS语言在Systemvision仿真环境下对Buck开关变换器进行建模与仿真,验证了模型的正确性和有效性,同时也给出了一种运用拓扑结构和数模混合语言(VHDL-AMS)建模的方法。 展开更多
关键词 建模 仿真验证 BUCK VHDL-AMS
下载PDF
LVDS串行传输总线的一种应用 被引量:1
9
作者 汤艳飞 文敏华 《航空计算技术》 2012年第3期123-124,129,共3页
描述了一种LVDS传输端点的设计方案。从芯片的选型、系统结构、原理设计、底层实现、软件驱动等方面进行了介绍。方案采用串行信号传输数据,减少了以往并行信号系统的复杂度,而且大幅提高了传输带宽和效率,同时有效降低了系统设计的成本... 描述了一种LVDS传输端点的设计方案。从芯片的选型、系统结构、原理设计、底层实现、软件驱动等方面进行了介绍。方案采用串行信号传输数据,减少了以往并行信号系统的复杂度,而且大幅提高了传输带宽和效率,同时有效降低了系统设计的成本,提高了系统的可靠性。设计的每个通道最大支持传输速率为400 MHz,最大支持8通道数据同时传输。 展开更多
关键词 LVDS 串行传输 并/串转换 高速数字设计
下载PDF
使用Stencil评估Intel AVX2 Vgather指令
10
作者 林新华 秦强 +2 位作者 李硕 文敏华 松岗聪 《计算机科学》 CSCD 北大核心 2017年第1期20-24,共5页
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方... 为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。 展开更多
关键词 AVX2 vgather指令 STENCIL 性能评估
下载PDF
论环境温度对养猪生产的影响及改善策略
11
作者 文敏华 谈命安 +1 位作者 王刚 陈晓安 《湖南饲料》 2023年第6期12-17,共6页
猪是恒温动物,在适宜的生长环境温度中,能快速地生长繁殖,发挥最大的生长潜能,而不适宜的环境温度将直接影响猪的繁殖率、生长速度、成活率和抗病能力。为了更好地搞好养猪生产,从不适宜环境温度对各阶段猪只的影响以及采取怎样的改善... 猪是恒温动物,在适宜的生长环境温度中,能快速地生长繁殖,发挥最大的生长潜能,而不适宜的环境温度将直接影响猪的繁殖率、生长速度、成活率和抗病能力。为了更好地搞好养猪生产,从不适宜环境温度对各阶段猪只的影响以及采取怎样的改善策略作了详细的论述,希望能为养猪界安全生产提供参考依据。 展开更多
关键词 环境温度 养猪影响 改善策略
下载PDF
CMP中Cache私有方式下副本容量的动态控制
12
作者 文敏华 《计算机光盘软件与应用》 2012年第10期39-40,共2页
CMP中二级Cache多采用分布式结构,其中有两种基本管理方式:共享方式和私有方式。共享方式能最大程度利用二级Cache容量空间但却有高的平均访问延迟;私有方式能提供低访问延迟,但由于数据块副本的存在减少了Cache有效容量,因而增加了Cach... CMP中二级Cache多采用分布式结构,其中有两种基本管理方式:共享方式和私有方式。共享方式能最大程度利用二级Cache容量空间但却有高的平均访问延迟;私有方式能提供低访问延迟,但由于数据块副本的存在减少了Cache有效容量,因而增加了Cache缺失率。本文提出了基于私有方式的副本动态控制策略,能根据实际应用程序的执行程序情况动态控制副本数据块的数量,从而提高二级Cache性能。 展开更多
关键词 CACHE 副本 动态控制
下载PDF
天体物理成团研究中的非规则访存优化 被引量:1
13
作者 郝赫 司雨蒙 +2 位作者 韦建文 文敏华 林新华 《计算机科学与探索》 CSCD 北大核心 2017年第1期80-90,共11页
HGGF(halo-based galaxy group finder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受... HGGF(halo-based galaxy group finder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受到非规则访存的严重影响,因此针对算法的结构和非规则访存模型,提出了数据预排序方法,并分析了该方法如何影响访存过程。在此基础上,利用数据对齐、循环分解进一步优化访存效率,利用负载均衡和互斥变量私有化的方法提高了Open MP的并行效率,最终将HGGF应用使用12线程加速11.6倍,同时取得了更好的可扩展性。主要有三点贡献:(1)分析了HGGF算法的非规则访存问题;(2)提出并分析了数据预排序方法;(3)使用数据对齐、循环分解、负载均衡、互斥变量私有化方法提高了HGGF应用的并行性能。 展开更多
关键词 天体物理成团 非规则访存优化 数据预排序 并行计算
下载PDF
校级异地超算集群管理的关键技术研究与实践
14
作者 张天阳 池成悦 +3 位作者 郭武 高亦沁 文敏华 韦建文 《计算机工程与科学》 CSCD 北大核心 2023年第12期2135-2145,共11页
随着高性能计算的业务增长和规模扩大,机房空间、供电能力等外部因素常常会成为集群扩容升级的制约因素,由此产生了异地超算集群的建设需求。异地超算能突破单个集群的地理限制,提供更多算力资源。基于上海交通大学“交我算”计算平台... 随着高性能计算的业务增长和规模扩大,机房空间、供电能力等外部因素常常会成为集群扩容升级的制约因素,由此产生了异地超算集群的建设需求。异地超算能突破单个集群的地理限制,提供更多算力资源。基于上海交通大学“交我算”计算平台建设异地联合超算集群的实践,总结了基础设施与系统软件的统一管理方法,以及集群异地容灾的高可用设计,具体包括:适配Slurm作业调度系统、Open OnDemand可视化门户站点、扩展LDAP等基础服务的高可用能力,以及建设分层汇聚监控系统。最后,从数据传输、用户体验和平台可用性3个维度展示了异地超算集群方案的有效性。 展开更多
关键词 高性能计算 多站点集群 异地容灾 多层联合监控
下载PDF
网环步进码片上网络自适应路由算法设计
15
作者 肖翔 董渭清 文敏华 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第12期70-74,共5页
针对片上系统使用过多虚拟通道带来大量的缓存面积及能耗开销问题,提出了一种网环步进码(TSC)片上网络自适应路由算法.将网环网络中2个虚拟通道划分为按编码"0"或"1"数量递减或者递增的2个子网络,按TSC编码为网环... 针对片上系统使用过多虚拟通道带来大量的缓存面积及能耗开销问题,提出了一种网环步进码(TSC)片上网络自适应路由算法.将网环网络中2个虚拟通道划分为按编码"0"或"1"数量递减或者递增的2个子网络,按TSC编码为网环拓扑结构中的网络节点进行编码,每个节点与相邻节点有且仅有一位不同,由此可以减小网络开销,避免片上死锁.实验结果表明:在均匀传输模式下,算法可为94%的数据包提供自适应路由选择,并在不增加虚拟通道数量的前提下,提高路由算法在网络负载增大时的适应能力. 展开更多
关键词 自适应路由 二维网环 虚拟通道 步进码编码
下载PDF
基于Gem5的性能数字样机系统
16
作者 聂曌 胥凌 +1 位作者 文敏华 杨子怡 《航空计算技术》 2023年第2期108-112,共5页
面对当今复杂多变的国际环境,数字工程作为确保国防安全的重要工程,其战略高度不断提升。作为数字化技术的集大成者,数字工程在国防装备的设计、生产和制造中占据着举足轻重的地位,决定装备研制的成败。面对机载领域中基于物理实际硬件... 面对当今复杂多变的国际环境,数字工程作为确保国防安全的重要工程,其战略高度不断提升。作为数字化技术的集大成者,数字工程在国防装备的设计、生产和制造中占据着举足轻重的地位,决定装备研制的成败。面对机载领域中基于物理实际硬件的仿真验证平台已无法紧跟飞速迭代的智能算法和不断涌现的新型加速器,以及滞后的功能、性能验证和固定的硬件组成对平台的扩展性和灵活性造成束缚的问题。设计并实现了一种基于Gem5的性能数字样机系统,能够缩短机载计算平台设计、研制周期,提前评估系统性能、分析定位潜在的软硬件瓶颈,达到减低研制风险、提高研制效率的目的。 展开更多
关键词 数字工程 仿真验证 性能评估
下载PDF
一例HP-PRRSV与NADC30-like毒株混合感染的实验室诊断
17
作者 王祝荣 熊连 文敏华 《湖南畜牧兽医》 2023年第3期35-37,共3页
2022年10月中旬,湖南长沙某规模化猪场发生疑似猪繁殖障碍综合征疫情。为探究发病原因,采集病料样品进行细菌分离鉴定和常见病原荧光定量PCR(qPCR)鉴定。结果发现,病料样品中未分离得到细菌,qPCR检测结果显示组织病料为HP-PRRSV和NADC30... 2022年10月中旬,湖南长沙某规模化猪场发生疑似猪繁殖障碍综合征疫情。为探究发病原因,采集病料样品进行细菌分离鉴定和常见病原荧光定量PCR(qPCR)鉴定。结果发现,病料样品中未分离得到细菌,qPCR检测结果显示组织病料为HP-PRRSV和NADC30-like毒株核酸阳性,其他病原核酸均为阴性。为进一步分析该猪场PRRSV流行株遗传变异情况,对PRRSVNsp2基因序列进行逆转录PCR(RT-PCR)扩增、测序及分析。结果显示,HP-PRRSV株Nsp2基因序列与HuN4-F112株(PRRSV弱毒疫苗株)同源性最高,类NADC30株Nsp2基因序列与已知NADC30株同源性最高。以上研究结果表明,该场疫情是HP-PRRSV和类NADC30株混合感染引起,其中HP-PRRSV可能为弱毒疫苗株。 展开更多
关键词 HP-PRRSV株 类NADC30株 混合感染 诊断
下载PDF
声子BTE应用的并行和优化研究 被引量:1
18
作者 文敏华 刘永志 +4 位作者 鲍华 胡跃 沈泳星 韦建文 林新华 《计算机科学与探索》 CSCD 北大核心 2020年第8期1288-1297,共10页
声子玻尔兹曼输运方程(BTE)可以有效地模拟介观尺度下的导热问题,相比于随机性方法,以有限体积法为代表的确定性方法求解声子BTE方程被认为更有希望解决工程实际问题。但是有限体积法求解BTE具有迭代步数多,迭代时间长的问题。为此提出... 声子玻尔兹曼输运方程(BTE)可以有效地模拟介观尺度下的导热问题,相比于随机性方法,以有限体积法为代表的确定性方法求解声子BTE方程被认为更有希望解决工程实际问题。但是有限体积法求解BTE具有迭代步数多,迭代时间长的问题。为此提出了声子BTE方程迭代求解部分在GPU上的并行加速方案,并设计适当的线程分配方式及数据存储格式,采用循环展开和内核融合等优化手段对迭代过程进行并行加速。此外,采用基于角方向的并行策略,使用MPI+CUDA、CUDA-Aware MPI和NCCL函数的方式实现了声子BTE求解多GPU并行版本。实验结果表明,相较于Intel Xeon Gold 6248上的串行版本,在单块V100 GPU上获得了最大31.5倍的加速。同时使用NCCL函数的GPU并行版本在8台DGX-2节点共计128块V100 GPU上最高达到了83%的并行效率,比MPI+CUDA版本提升57%。 展开更多
关键词 并行加速 玻尔兹曼输运方程(BTE) DGX-2 统一计算设备架构(CUDA)
下载PDF
基于DGX-2的湍流燃烧问题优化研究
19
作者 文敏华 汪申鹏 +3 位作者 韦建文 李林颖 张斌 林新华 《计算机科学》 CSCD 北大核心 2021年第12期43-48,共6页
湍流燃烧问题的数值模拟是航空发动机设计的关键工具。由于需要使用高精度计算模型求解NS方程,湍流燃烧的数值模拟需要庞大的计算量,而物理化学模型的引入则导致流场极为复杂,使得计算域内的负载平衡问题成为大规模并行计算的瓶颈。为... 湍流燃烧问题的数值模拟是航空发动机设计的关键工具。由于需要使用高精度计算模型求解NS方程,湍流燃烧的数值模拟需要庞大的计算量,而物理化学模型的引入则导致流场极为复杂,使得计算域内的负载平衡问题成为大规模并行计算的瓶颈。为此文中将湍流燃烧的数值模拟方法在单台具有强大计算能力的服务器——DGX-2上进行移植和优化,设计了通量计算的线程分配方式,并以Roofline模型为工具分析指导了实际的优化方向。此外,还设计了高效的数据通信方式,并结合DGX-2的高速互联实现了湍流燃烧数值模拟方法的多GPU并行版本。实验结果表明,相较于双路Intel Xeon 6248 CPU 40核心的并行版本,迭代过程的计算部分在单块V100上获得了8.1倍的性能提升,在DGX-2共16块V100上达到了66.1倍的加速,优于CPU并行版本所能达到的最高性能。 展开更多
关键词 湍流燃烧 NS方程 DGX-2 CUDA
下载PDF
近失速形态下冰脊分离非定常流的IDDES和模态分析 被引量:2
20
作者 谭雪 张辰 +2 位作者 徐文浩 王福新 文敏华 《上海交通大学学报》 EI CAS CSCD 北大核心 2021年第11期1333-1342,共10页
采用改进延迟脱体涡模拟(IDDES)方法,对近失速条件下溢流冰脊诱导的剪切层振荡现象进行高分辨率模拟,描述高雷诺数下冰脊分离流大尺度分离的流场演化特征.研究表明,近失速形态下,冰脊和下翼面尾缘同时诱导出剪切流动,冰脊诱导的剪切层... 采用改进延迟脱体涡模拟(IDDES)方法,对近失速条件下溢流冰脊诱导的剪切层振荡现象进行高分辨率模拟,描述高雷诺数下冰脊分离流大尺度分离的流场演化特征.研究表明,近失速形态下,冰脊和下翼面尾缘同时诱导出剪切流动,冰脊诱导的剪切层并未再附到壁面,与下翼面上洗流动相互干扰,形成大尺度低能态结构.结合频谱分析进一步发现,剪切层内的压力脉动存在两种典型的脉动频率,与Kelvin-Helmholtz不稳定性相关,具体表现为涡配对和涡脱落.基于正交分解得到的压力脉动主导模态为剪切层之间的大尺度相干结构.主导模态的时间系数与升力系数的功率密度谱峰值保持一致,这说明尾缘区大尺度相干结构与升力波动具有相关性. 展开更多
关键词 溢流冰脊 剪切层振荡 数值模拟 频谱分析 模态分析
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部