期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于AVX2指令集的深度学习混合运算策略
被引量:
2
1
作者
蒋文斌
王宏斌
+1 位作者
刘湃
陈雨浩
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2020年第5期408-414,共7页
由于图形处理器(GPU)内存容量有限,其所能承载的深度学习网络模型规模受到很大限制。该文提出了一种深度学习混合运算策略,借助于Intel新的单指令多数据AVX2指令集,充分挖掘CPU对GPU的辅助支撑潜力。为节省GPU内存,将中间数据规模较大...
由于图形处理器(GPU)内存容量有限,其所能承载的深度学习网络模型规模受到很大限制。该文提出了一种深度学习混合运算策略,借助于Intel新的单指令多数据AVX2指令集,充分挖掘CPU对GPU的辅助支撑潜力。为节省GPU内存,将中间数据规模较大的网络层放在CPU端计算,并通过AVX2指令集提高CPU端的计算效率。核心技术点包括网络模型的切分与协调、基于AVX2指令的应用代码矢量化等。上述策略最终在Caffe上实现。在包括CIFAR-10、 ImageNet在内的典型数据集上的实验结果表明:采用混合运算策略后,Caffe能够正常运行更大型神经网络模型,并保持较高的执行效率。
展开更多
关键词
混合运算
深度学习
avx2指令集
图形处理器(GPU)内存
Caffe
原文传递
一种基于复合域的国密SM4算法快速软件实现方法
被引量:
4
2
作者
陈晨
郭华
+2 位作者
王闯
刘源灏
刘建伟
《密码学报》
CSCD
2023年第2期289-305,共17页
成为ISO/IEC国际标准算法后,SM4的性能受到更多关注.目前针对SM4算法实现效率提升的方法主要集中在缩短S盒的运算时间,其中采用复合域实现的方法大都基于AES算法实现的复合域,而在GF((2^(4))^(2))上鲜有针对SM4算法软件实现的复合域被提...
成为ISO/IEC国际标准算法后,SM4的性能受到更多关注.目前针对SM4算法实现效率提升的方法主要集中在缩短S盒的运算时间,其中采用复合域实现的方法大都基于AES算法实现的复合域,而在GF((2^(4))^(2))上鲜有针对SM4算法软件实现的复合域被提出.本文首次在GF((2^(4))^(2))上找到了一个针对SM4算法S盒软件实现的复合域,给出一种基于复合域的SM4算法快速软件实现方法,使用穷举搜索和数学分析优化了算法S盒的复合域数学构造,构建了同构映射矩阵及其最小化目标函数,仅使用175个门函数就完成了S盒运算,平均每个输出比特占用22个门函数.基于比特切片技术,利用扩展指令集AVX2实现了SM4算法256组消息的并行化加密.每字节加解密平均耗时仅6.5个时钟周期.对硬件依赖程度低,经测试在Intel i5、Intel i7和AMD R7环境下均能显著提升SM4算法的计算效率,对有相似S盒结构的密码算法快速软件实现具有重要的参考价值.
展开更多
关键词
SM4算法
S盒
复合域
比特切片
avx
2
扩展
指令
集
下载PDF
职称材料
分组密码uBlock算法快速软件实现
3
作者
高莹
汪龙昕
+4 位作者
田蕾
胡洋
张宇鹏
严宇
伍前红
《国防科技大学学报》
EI
CAS
2024年第6期96-106,共11页
为对国产分组密码算法uBlock进行软件优化,选择支持256 bit数据位宽的AVX2指令集,提高编译器自动优化等级,优化函数的调用过程,优化数据存储结构,综合使用高位并行、低延迟指令逻辑优化等方法实现单线程并行计算。通过使用这种有效的组...
为对国产分组密码算法uBlock进行软件优化,选择支持256 bit数据位宽的AVX2指令集,提高编译器自动优化等级,优化函数的调用过程,优化数据存储结构,综合使用高位并行、低延迟指令逻辑优化等方法实现单线程并行计算。通过使用这种有效的组合方法,uBlock-128/128算法、uBlock-128/256算法和uBlock-256/256算法单密钥短消息加密的速度较原代码分别提升269%、182%和49%。基于这些优化方法,uBlock-128/128、uBlock-128/256和uBlock-256/256三个算法版本均实现了单密钥场景与多密钥场景。
展开更多
关键词
uBlock算法
avx2指令集
并行运算
低延迟
快速软件实现
下载PDF
职称材料
题名
基于AVX2指令集的深度学习混合运算策略
被引量:
2
1
作者
蒋文斌
王宏斌
刘湃
陈雨浩
机构
华中科技大学计算机科学与技术学院
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2020年第5期408-414,共7页
基金
国家自然科学基金项目(61672250)。
文摘
由于图形处理器(GPU)内存容量有限,其所能承载的深度学习网络模型规模受到很大限制。该文提出了一种深度学习混合运算策略,借助于Intel新的单指令多数据AVX2指令集,充分挖掘CPU对GPU的辅助支撑潜力。为节省GPU内存,将中间数据规模较大的网络层放在CPU端计算,并通过AVX2指令集提高CPU端的计算效率。核心技术点包括网络模型的切分与协调、基于AVX2指令的应用代码矢量化等。上述策略最终在Caffe上实现。在包括CIFAR-10、 ImageNet在内的典型数据集上的实验结果表明:采用混合运算策略后,Caffe能够正常运行更大型神经网络模型,并保持较高的执行效率。
关键词
混合运算
深度学习
avx2指令集
图形处理器(GPU)内存
Caffe
Keywords
hybrid computation
deep learning
avx
2
instruction set
GPU memory
Caffe
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
TP338.1 [自动化与计算机技术—计算机系统结构]
原文传递
题名
一种基于复合域的国密SM4算法快速软件实现方法
被引量:
4
2
作者
陈晨
郭华
王闯
刘源灏
刘建伟
机构
北京航空航天大学
密码科学技术国家重点实验室
国防科技大学计算机学院
出处
《密码学报》
CSCD
2023年第2期289-305,共17页
基金
北京市自然科学基金(4202037)
国家自然科学基金(61972018)。
文摘
成为ISO/IEC国际标准算法后,SM4的性能受到更多关注.目前针对SM4算法实现效率提升的方法主要集中在缩短S盒的运算时间,其中采用复合域实现的方法大都基于AES算法实现的复合域,而在GF((2^(4))^(2))上鲜有针对SM4算法软件实现的复合域被提出.本文首次在GF((2^(4))^(2))上找到了一个针对SM4算法S盒软件实现的复合域,给出一种基于复合域的SM4算法快速软件实现方法,使用穷举搜索和数学分析优化了算法S盒的复合域数学构造,构建了同构映射矩阵及其最小化目标函数,仅使用175个门函数就完成了S盒运算,平均每个输出比特占用22个门函数.基于比特切片技术,利用扩展指令集AVX2实现了SM4算法256组消息的并行化加密.每字节加解密平均耗时仅6.5个时钟周期.对硬件依赖程度低,经测试在Intel i5、Intel i7和AMD R7环境下均能显著提升SM4算法的计算效率,对有相似S盒结构的密码算法快速软件实现具有重要的参考价值.
关键词
SM4算法
S盒
复合域
比特切片
avx
2
扩展
指令
集
Keywords
SM4 algorithm
S-box
composite field
bit slicing
avx
2
extend instructions
分类号
TP309.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
分组密码uBlock算法快速软件实现
3
作者
高莹
汪龙昕
田蕾
胡洋
张宇鹏
严宇
伍前红
机构
北京航空航天大学网络空间安全学院
出处
《国防科技大学学报》
EI
CAS
2024年第6期96-106,共11页
基金
国家重点研发计划资助项目(2022YFB2701600)
国家自然科学基金资助项目(61932011,61932011,61972017)
北京市自然科学基金资助项目(M21033)。
文摘
为对国产分组密码算法uBlock进行软件优化,选择支持256 bit数据位宽的AVX2指令集,提高编译器自动优化等级,优化函数的调用过程,优化数据存储结构,综合使用高位并行、低延迟指令逻辑优化等方法实现单线程并行计算。通过使用这种有效的组合方法,uBlock-128/128算法、uBlock-128/256算法和uBlock-256/256算法单密钥短消息加密的速度较原代码分别提升269%、182%和49%。基于这些优化方法,uBlock-128/128、uBlock-128/256和uBlock-256/256三个算法版本均实现了单密钥场景与多密钥场景。
关键词
uBlock算法
avx2指令集
并行运算
低延迟
快速软件实现
Keywords
uBlock algorithm
avx
2
instruction set
parallel operation
low latency
fast software implementation
分类号
TP309.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于AVX2指令集的深度学习混合运算策略
蒋文斌
王宏斌
刘湃
陈雨浩
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2020
2
原文传递
2
一种基于复合域的国密SM4算法快速软件实现方法
陈晨
郭华
王闯
刘源灏
刘建伟
《密码学报》
CSCD
2023
4
下载PDF
职称材料
3
分组密码uBlock算法快速软件实现
高莹
汪龙昕
田蕾
胡洋
张宇鹏
严宇
伍前红
《国防科技大学学报》
EI
CAS
2024
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部