期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于K Framework的向量化机器学习指令语义形式化
1
作者 黄厚华 刘嘉祥 施晓牧 《软件学报》 EI CSCD 北大核心 2023年第8期3853-3869,共17页
ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟... ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟程序,片上应用程序开发的依据,是程序正确性基本保障.主要介绍利用可执行语义框架K Framework对ARMv8.1-M官方参考手册中向量化机器学习指令的语义正确性研究.基于ARMv8.1-M的官方参考手册自动提取指令集中描述向量化机器学习指令执行过程的伪代码,并将其转换为形式化语义转换规则.通过K Framework提供的可执行框架利用测试用例,验证机器学习指令算数运算执行的正确性. 展开更多
关键词 ARMv8.1-M架构 量化指令 机器学习 K Framework 形式化语义
下载PDF
非正规化循环的单指令多数据向量化 被引量:1
2
作者 侯永生 赵荣彩 +1 位作者 高伟 高伟 《计算机应用》 CSCD 北大核心 2013年第11期3149-3154,共6页
针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明... 针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明,与现有的非正规化循环的单指令多数据(SIMD)向量化方法相比,所提出的转换方法和展开压紧方法能够更好地发掘非正规化循环的向量化特性,生成代码的性能加速比提高了6%以上。 展开更多
关键词 非正规化循环 指令多数据向量化 展开压紧 依赖关系分析
下载PDF
一种单指令多数据向量化归约方法 被引量:1
3
作者 韩林 高伟 +2 位作者 王冬 王鹏翔 李颖颖 《计算机工程》 CAS CSCD 北大核心 2017年第7期9-14,共6页
单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问... 单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问题,提出一种面向SIMD扩展部件的归约向量代码生成方法,以及归约的识别方法,利用向量移位指令实现向量代码生成。基于SPEC2006标准测试集的测试结果表明,与未利用归约向量化技术前相比,利用该归约向量化方法后的向量化加速比提高34%,从而验证了该方法的有效性。 展开更多
关键词 指令多数据向量化 归约 依赖分析 代码生成 并行性
下载PDF
向量数学库的向量化方法研究 被引量:8
4
作者 周蓓 黄永忠 +1 位作者 许瑾晨 郭绍忠 《计算机科学》 CSCD 北大核心 2019年第1期320-324,共5页
SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函... SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函数的性能。针对这些问题,提出了向量数学库的向量化方法,通过确定核心代码段、数据预处理过程向量化及指令向量化3个步骤,可以快速有效地对基础数学库进行向量化。实验表明,运用该方法,exp,pow,log10等典型函数的性能平均提高了24.2%。 展开更多
关键词 SIMD技术 向量数学库 核心代码段 数据预处理 指令量化
下载PDF
一种动态环境下无人机自主导引方法
5
作者 彭建亮 孙秀霞 +1 位作者 朱凡 蔡满意 《兵工学报》 EI CAS CSCD 北大核心 2009年第10期1310-1314,共5页
提出了一种动态不确定环境下无人机(UAV)自主预测导引方法。考虑到无人机探测范围和运动学特性,构建了无人机分区段自主导引模型和轨迹指令求解模型;设计了相应的评价函数;考虑到算法的复杂性,提出采用指令量化和粒子群算法求解导引轨... 提出了一种动态不确定环境下无人机(UAV)自主预测导引方法。考虑到无人机探测范围和运动学特性,构建了无人机分区段自主导引模型和轨迹指令求解模型;设计了相应的评价函数;考虑到算法的复杂性,提出采用指令量化和粒子群算法求解导引轨迹指令;并对模型参数取值问题进行了深入的讨论。仿真结果表明,该方法能够实现自主导引无人机迅速接近目标,并对所探测到的威胁进行实时回避,能够实时性运行,具有工程可实现性。 展开更多
关键词 飞行器控制、导航技术 自主 预测导引 分区段 指令量化 粒子群优化 威胁回避
下载PDF
基于Intel MIC协处理器的PIC粒子模拟并行化加速及与CPU/GPU对比研究
6
作者 罗跃剑 陈哲 +3 位作者 唐荣欣 刘志伟 钟志宏 周猛 《中国科技论文》 CAS 北大核心 2018年第8期961-966,共6页
基于Intel Many-Integerated-Core(MIC)协处理器平台实现了二维particle-in-cell(PIC)粒子模拟,并根据MIC的特性进行了指令集层面上的向量化优化。为体现MIC平台下的并行加速效果,采用英伟达的GPU计算卡和英特尔Ivy-Bridge架构CPU处理... 基于Intel Many-Integerated-Core(MIC)协处理器平台实现了二维particle-in-cell(PIC)粒子模拟,并根据MIC的特性进行了指令集层面上的向量化优化。为体现MIC平台下的并行加速效果,采用英伟达的GPU计算卡和英特尔Ivy-Bridge架构CPU处理器进行针对性模拟,对3者的计算性能进行比较,当PIC模拟网格较小时,GPU架构具有更好的适用性和计算加速;随着模拟网格逐渐增大,MIC平台的计算加速比逐渐超过GPU平台。研究表明,针对PIC模拟应用,MIC平台具有良好的计算性能、较好的可扩展性和可编程性,利用MIC异构众核对大数据量并行计算程序优化将极大地促进高性能计算的应用和发展。 展开更多
关键词 PIC等离子体模拟 MIC异构并行计算 SIMD指令集向量化优化
下载PDF
基于SIMD的并行傅里叶空间图像相似度计算 被引量:3
7
作者 郭渝洛 边浩东 +3 位作者 董润婷 唐嘉豪 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2021年第11期247-253,共7页
在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512... 在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512指令集增强CPU矢量寄存器的作用,同时设计高效的数据结构提升内存访问效率。在Intel Xeon Platinum 9242平台上的实验结果表明,与原始的OpenMP并行模型相比,经该算法优化后的程序可获得平均5.132倍的加速比,并且具有较强的鲁棒性。 展开更多
关键词 冷冻电镜 负载均衡 缓存 指令多数据流矢量化 傅里叶空间 图像相似度计算 并行计算
下载PDF
异构HPL算法中CPU端高性能BLAS库优化 被引量:2
8
作者 蔡雨 孙成国 +3 位作者 杜朝晖 刘子行 康梦博 李双双 《软件学报》 EI CSCD 北大核心 2021年第8期2289-2306,共18页
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整... 异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(basic linear algebra subprograms)函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like library instantiation software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了异构环境下优化的BLIS算法库HBLIS.与MKL相比,HPL整体性能提高了11.8%. 展开更多
关键词 BLAS 遗传算法auto-tuning 量化指令 数据预取 多线程并行
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部