期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
利用循环分割和循环展开避免Cache代价 被引量:2
1
作者 刘利 陈彧 +1 位作者 乔林 汤志忠 《软件学报》 EI CSCD 北大核心 2008年第9期2228-2242,共15页
存储系统与处理器之间的速度差距逐渐变大,为此,cache使用了分级机制,但这也带来了额外的存储延迟(cache代价).提出一种利用循环分割和循环展开相结合避免cache代价的PCPLPU(prevent cache penalty by loop partition-unrolling)算法.... 存储系统与处理器之间的速度差距逐渐变大,为此,cache使用了分级机制,但这也带来了额外的存储延迟(cache代价).提出一种利用循环分割和循环展开相结合避免cache代价的PCPLPU(prevent cache penalty by loop partition-unrolling)算法.实验结果表明,PCPLPU算法能够有效避免循环代价,提高程序性能. 展开更多
关键词 循环分割 循环展开 cache代价 bank冲突
下载PDF
基于指令Cache和寄存器压力的循环展开优化 被引量:2
2
作者 王翠霞 韩林 刘浩浩 《计算机工程与科学》 CSCD 北大核心 2022年第12期2111-2119,共9页
循环展开是一种常用的编译优化技术,能够有效减少循环开销,提升指令级并行程度和数据局部性,提升循环的执行效能。然而,过度的循环展开会造成指令Cache溢出,增大寄存器压力,循环展开次数太少又会浪费潜在的性能提升机会,因此寻找恰当的... 循环展开是一种常用的编译优化技术,能够有效减少循环开销,提升指令级并行程度和数据局部性,提升循环的执行效能。然而,过度的循环展开会造成指令Cache溢出,增大寄存器压力,循环展开次数太少又会浪费潜在的性能提升机会,因此寻找恰当的展开因子是研究循环展开问题的核心。基于GCC开源编译器,面向循环展开问题开展深入的分析与研究,针对指令Cache和寄存器资源对循环展开的影响,提出了一种基于指令Cache和寄存器压力的循环展开因子计算方法,并在GCC编译器中实现了该计算方法。申威和海光平台上的实验结果显示,相较于目前GCC中存在的其它展开因子计算方法,所提出的方法可以获得更为有效的循环展开因子,提升了程序性能。在SPEC CPU 2006测试集上的平均性能分别提升了2.7%和3.1%,在NPB-3.3.1测试集上的分别为5.4%和6.1%。 展开更多
关键词 编译优化 循环展开 展开因子 指令cache 寄存器压力
下载PDF
复杂访问模式下假共享Cache行抖动的消除
3
作者 金国华 陈福接 《计算机学报》 EI CSCD 北大核心 1994年第6期446-455,共10页
在详细讨论了简单数据组访问模式下假共享抖动现象及其消除方法的基础上,本文着重分析了复杂访问模式下的假共享Cache行抖动现象和真假共享抖动并存现象,引入了并行循环访问距概念,提出了消除假共享抖动的编译方法-块化错位方... 在详细讨论了简单数据组访问模式下假共享抖动现象及其消除方法的基础上,本文着重分析了复杂访问模式下的假共享Cache行抖动现象和真假共享抖动并存现象,引入了并行循环访问距概念,提出了消除假共享抖动的编译方法-块化错位方法。结合块化错位方法,我们提出了多维数组的数组扩展思想,给出了多重嵌套循环含多次写访问情况下减少或消除抖动的算法。 展开更多
关键词 并行计算机 并行处理 cache行抖动
下载PDF
集成循环代码cache降低微控制器功耗研究
4
作者 费振东 毛志刚 《信息技术》 2008年第12期159-163,共5页
功耗对于面向低成本低功耗应用的微控制器(单片机)十分重要。研究表明,CPU由于取指对程序存储器的访问功耗,构成了微控制器整体功耗的重要组成部分,而微控制器应用程序的大部分执行时间被用于执行固定的循环代码。研究了集成循环代码cac... 功耗对于面向低成本低功耗应用的微控制器(单片机)十分重要。研究表明,CPU由于取指对程序存储器的访问功耗,构成了微控制器整体功耗的重要组成部分,而微控制器应用程序的大部分执行时间被用于执行固定的循环代码。研究了集成循环代码cache,从中执行循环代码来降低存储器访问功耗的技术。 展开更多
关键词 微控制器 低功耗 循环代码cache
下载PDF
基于固定指令多数据流模型的Cache设计与实现
5
作者 刘明政 王玮 石磊 《微电子学与计算机》 CSCD 北大核心 2008年第7期142-147,共6页
为加速循环程序执行,提出了固定指令多数据流计算模型,并设计了一个单芯片阵列处理器体系结构.如果采用传统的数据取,将带来存储网络中大量的数据流动,随之而来的是冲突的频繁出现和不断增长的存储带宽需求.为此采用了数据打包传递技术... 为加速循环程序执行,提出了固定指令多数据流计算模型,并设计了一个单芯片阵列处理器体系结构.如果采用传统的数据取,将带来存储网络中大量的数据流动,随之而来的是冲突的频繁出现和不断增长的存储带宽需求.为此采用了数据打包传递技术.实践证明,这种技术可以显著减少网络冲突,降低存储带宽需求. 展开更多
关键词 循环 固定指令多数据流 cache
下载PDF
多处理机系统循环间数据重用的cache优化 被引量:3
6
作者 丁永华 原庆能 +1 位作者 臧斌宇 朱传琪 《软件学报》 EI CSCD 北大核心 1998年第8期580-585,共6页
cache的使用缓解了CPU和主存储器之间速度差距太大的矛盾,同时,也使cache的命中率成为影响多处理机系统性能发挥的重要因素.人们对如何加强数据的局部性,提高cache命中率,使多处理机系统的性能得到更好的发挥进... cache的使用缓解了CPU和主存储器之间速度差距太大的矛盾,同时,也使cache的命中率成为影响多处理机系统性能发挥的重要因素.人们对如何加强数据的局部性,提高cache命中率,使多处理机系统的性能得到更好的发挥进行了积极的探索.但过去的工作主要集中于如何加强并行循环内的数据局部性,减少甚至消除并行循环内真假共享cache行所引起的cache抖动,对多处理机系统中循环间数据重用的开发和利用却少有论述.该文对如何开发和利用这些循环间数据重用进行了分析和讨论,并提出了一些切实可行、易于实现的方法.这些方法的应用能够有效地提高cache的命中率。 展开更多
关键词 多处理机系统 高速缓冲 数据重用 最佳化
下载PDF
基于性能分析的Cache侧信道攻击循环定位 被引量:3
7
作者 彭双和 赵佳利 韩静 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第6期449-455,共7页
为了有效地对Cache侧信道攻击进行检测并定位,该文提出了基于性能分析的Cache侧信道攻击循环定位方法,分为攻击检测和攻击循环定位2阶段进行。攻击检测阶段采用硬件性能计数器检测二进制程序是否为Cache侧信道攻击程序;攻击循环定位阶... 为了有效地对Cache侧信道攻击进行检测并定位,该文提出了基于性能分析的Cache侧信道攻击循环定位方法,分为攻击检测和攻击循环定位2阶段进行。攻击检测阶段采用硬件性能计数器检测二进制程序是否为Cache侧信道攻击程序;攻击循环定位阶段主要进行攻击循环的定位,首先采样性能事件,然后获取二进制程序的循环和函数等内部结构,结合采样数据定位攻击循环。最后选取典型的Cache侧信道攻击程序和良性程序进行检测,结果表明:该方法能准确区分攻击程序和良性程序;通过对比定位结果和攻击源代码,该方法能精确定位攻击循环。 展开更多
关键词 cache侧信道攻击 循环分析 定位
原文传递
面向图像检索的sgemv算法嵌入式优化技术 被引量:1
8
作者 郑恩 张翰成 +2 位作者 周俊鹏 白林亭 文鹏程 《航空计算技术》 2024年第1期62-65,共4页
行人重识别主要解决跨摄像头跨场景下行人的识别与检索,是继人脸识别之后又一针对“人”的视觉任务,主要任务是针对一个特定的行人在多摄像头输入的大规模图片集合中找出相同的人。如何在靠近摄像头的边缘端把特定的行人从大量行人库中... 行人重识别主要解决跨摄像头跨场景下行人的识别与检索,是继人脸识别之后又一针对“人”的视觉任务,主要任务是针对一个特定的行人在多摄像头输入的大规模图片集合中找出相同的人。如何在靠近摄像头的边缘端把特定的行人从大量行人库中快速检索出来是行人重识别研究的一个重要问题,由于边缘端嵌入式平台算力有限,提出一种面向图像检索的sgemv算法嵌入式优化技术,在边缘端对sgemv算法采用循环展开、OpenMP、Neon等技术进行加速优化,在飞腾D2000嵌入式平台、银河麒麟系统进行实验验证。结果表明,优化后比优化前提升速度达5.2倍,方法有效地提升了边缘端图像检索效率。 展开更多
关键词 行人重识别 图像检索 循环展开 OPENMP NEON
下载PDF
循环展开在电磁场计算中的应用
9
作者 邢阔鹏 阎秀恪 任自艳 《东北电力技术》 2024年第2期5-10,共6页
在电气设备电磁场数值分析过程中,程序代码中含有大量的循环计算,其计算时间随有限元分析网格中单元和节点数量的增加而迅速增加。为提高循环计算时硬件资源的利用率、减少计算时间,根据循环计算相关特征量,研究能够预测不同循环中最佳... 在电气设备电磁场数值分析过程中,程序代码中含有大量的循环计算,其计算时间随有限元分析网格中单元和节点数量的增加而迅速增加。为提高循环计算时硬件资源的利用率、减少计算时间,根据循环计算相关特征量,研究能够预测不同循环中最佳循环展开因子的机器学习算法。首先建立不同的机器学习回归算法模型预测不同特征变量的循环计算时间,对模型的参数进行优化以提高预测准确率,通过比较计算时间找出最佳展开因子。然后建立循环特征变量与展开因子之间机器学习分类算法模型,预测得到最优循环展开因子。最后将算法应用于预测有限元分析代码中循环计算的最佳展开因子,将结果在1台单相变压器磁场有限元分析代码中进行循环展开,计算得到展开前后时间的加速程度。循环展开技术可以应用到有限元串行和并行计算中,并且在不同的程序中都有很好的适应性。 展开更多
关键词 循环展开 电磁计算 机器学习 并行计算
下载PDF
基于边缘部署低功耗的神经网络加速器
10
作者 周诗云 钱松荣 +1 位作者 卫少东 郑鑫 《自动化与仪表》 2024年第7期147-151,156,共6页
卷积神经网络作为一种处理网络数据的深度学习模型,广泛的应用于自动驾驶、航空航天等行业。而随着数据量的增长,卷积网络的结构也变得越来越复杂,对于卷积网络这种计算和资源密集型网络如何部署在低功耗、资源少的边缘设备上就成为了... 卷积神经网络作为一种处理网络数据的深度学习模型,广泛的应用于自动驾驶、航空航天等行业。而随着数据量的增长,卷积网络的结构也变得越来越复杂,对于卷积网络这种计算和资源密集型网络如何部署在低功耗、资源少的边缘设备上就成为了一种困难。而FPGA由于其具有高的并行性和低功耗,可以作为一种边缘部署的设备。在这基础上,提出了一种针对于LeNet-5轻量网络的加速器,利用流水线并行加速和循环展开对FPGA的并行计算最大化,然后使用Vitis HLS将高级编程语言转变为硬件描述语言,再利用Vitis IDE进行软件驱动的编写。实验结果表明,相对于在CPU、GPU上进行网络推理,在ZYNQ上FPGA进行网络推理,在检测速率相近的情况下,功耗减少了8倍,这使得神经网络的边缘部署多了一种选择。 展开更多
关键词 卷积神经网络 边缘部署 低功耗 FPGA 流水线 循环展开 HLS
下载PDF
面向FT-M7002的阈值分割算法优化实现
11
作者 陈云 胡伟方 +1 位作者 王梦园 商建东 《计算机应用与软件》 北大核心 2024年第8期254-258,310,共6页
在国产高性能DSP的快速发展过程中,缺乏能充分发挥其体系结构优势的高性能图像处理算法。针对以上问题,对应用比较广泛的Otsu阈值分割算法进行面向FT平台的并行优化。在分析FT-M7002体系结构以及Otsu阈值分割算法的基础上,使用飞腾向量... 在国产高性能DSP的快速发展过程中,缺乏能充分发挥其体系结构优势的高性能图像处理算法。针对以上问题,对应用比较广泛的Otsu阈值分割算法进行面向FT平台的并行优化。在分析FT-M7002体系结构以及Otsu阈值分割算法的基础上,使用飞腾向量指令集进行手工向量化改写以充分利用FT-M7002平台超长向量寄存器,从而减少数据访存次数提高数据级并行性。在多种图像矩阵规模下进行性能测试,结果显示,阈值分割中的阈值比较模块优化后获得了3.74~4.39倍的加速效果,Otsu阈值分割算法总体优化实现获得了1.77~1.87倍的加速效果。 展开更多
关键词 FT-M7002 Otsu阈值分割 手工向量化 循环展开 数据级并行
下载PDF
基于FPGA的卷积神经网络硬件加速器设计 被引量:3
12
作者 黄沛昱 赵强 李煜龙 《计算机应用与软件》 北大核心 2023年第3期38-44,共7页
为了提高中小规模设备卷积神经网络的推理速度,提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元,该硬件加速器采用输入、输出二维循环展开和循环分块的方法,设计128个并行乘法器单元。模型的输入输出接口... 为了提高中小规模设备卷积神经网络的推理速度,提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元,该硬件加速器采用输入、输出二维循环展开和循环分块的方法,设计128个并行乘法器单元。模型的输入输出接口采用双缓存设计,通过乒乓操作,降低数据传输带来的时间延迟。同时,采用16位定点量化模型中权重参数,偏置参数和输入输出特征图的像素值。实验结果表明,与通用CPU酷睿i5-4440处理器相比,在COCO数据集上准确率几乎不变的情况下,计算性能提高5.77倍。在系统时钟频率为150 MHz时,硬件加速器的计算性能达到28.88 GOPS。 展开更多
关键词 卷积神经网络 FPGA 循环展开 循环分块 并行乘法器单元 双缓存设计
下载PDF
面向心电检测的混合多模卷积神经网络加速器设计
13
作者 刘冬生 魏来 +6 位作者 邹雪城 陆家昊 成轩 胡昂 李德建 赵旭 蒋曲明 《电子与信息学报》 EI CSCD 北大核心 2023年第1期33-41,共9页
随着医疗资源日益匮乏以及人口老龄化日趋严重,心血管疾病已对人类健康造成了极大的威胁。具有心电(ECG)检测的便携式设备能有效降低心血管疾病对患者的威胁,因此该文设计了一种面向心电检测的混合多模卷积神经网络加速器。该文首先介... 随着医疗资源日益匮乏以及人口老龄化日趋严重,心血管疾病已对人类健康造成了极大的威胁。具有心电(ECG)检测的便携式设备能有效降低心血管疾病对患者的威胁,因此该文设计了一种面向心电检测的混合多模卷积神经网络加速器。该文首先介绍了一种用于心电信号分类的1维卷积神经网络(1D-CNN)模型,随后针对该模型设计了一种高效的卷积神经网络(CNN)加速器,该加速器采用了一种多并行展开策略和多数据流的运算模式完成了卷积循环的加速和优化,能在时间上和空间上高度复用数据,同时提高了硬件资源利用率,从而提升了硬件加速器的硬件效率。最后基于Xilinx ZC706硬件平台完成了原型验证,结果显示,所设计卷积神经网络加速器消耗的资源为2247 LUTs, 80 DSPs。在200 MHz的工作频率下,该设计的整体性能可达到28.1 GOPS,并且硬件效率达到了12.82 GOPS/kLUT。 展开更多
关键词 卷积神经网络 心电信号分类 卷积循环展开 硬件实现
下载PDF
晶硅分子动力学模拟的GPU加速算法优化 被引量:2
14
作者 林琳 祝爱琦 +6 位作者 赵明璨 张帅 叶炎昊 徐骥 韩林 赵荣彩 侯超峰 《计算机工程》 CAS CSCD 北大核心 2023年第4期166-173,共8页
分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待... 分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合Nvidia Tesla V100 GPU硬件体系结构特点,对晶硅MD模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用GPU强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅MD模拟算法的计算速度相比于优化前提升了1.69~1.97倍,相比于国际上主流的GPU加速MD模拟软件HOOMDblue和LAMMPS分别提升了3.20~3.47倍和17.40~38.04倍,具有较好的模拟加速效果。 展开更多
关键词 分子动力学 图形处理器 合并访存 循环展开 原子操作 性能优化
下载PDF
多核处理器中基于Radix-Join的嵌套循环连接优化 被引量:1
15
作者 邓亚丹 景宁 熊伟 《计算机研究与发展》 EI CSCD 北大核心 2010年第6期1079-1087,共9页
针对目前主流的多核处理器,研究了基于共享Cache多核处理器的数据库Nested Loop Join(NINLJ)优化.针对无索引情况下的NLJ,提出了基于Radix-NL-Join算法的NLJ多线程执行框架.从减少Cache访问冲突和提高Cache命中率两个方面优化了NINLJ多... 针对目前主流的多核处理器,研究了基于共享Cache多核处理器的数据库Nested Loop Join(NINLJ)优化.针对无索引情况下的NLJ,提出了基于Radix-NL-Join算法的NLJ多线程执行框架.从减少Cache访问冲突和提高Cache命中率两个方面优化了NINLJ多线程执行框架中的聚集划分和聚集连接线程.主要贡献如下:1.针对多线程访问共享Cache容易出现共享Cache访问冲突的问题,优化了聚集划分阶段的多线程聚集划分线程的启动时机;2.针对聚集连接阶段,聚集连接线程Cache访问性能不佳,利用聚集连接线程顺序访问聚集的优势,采用预取线程提高聚集连接线程的性能;3.在实验中,基于开源数据库EaseDB实现了上述多线程执行框架,测试了多线程NLJ的性能.实验结果表明,提出的NLJ多线程执行框架,可以充分利用多核处理器的计算资源,并有效地解决共享Cache在多线程条件下的Cache访问冲突问题,大大提高了NLJ的性能,相对于未采用Cache优化的多线程Radix-NL-Join算法,其性能提升了26%左右. 展开更多
关键词 嵌套循环连接 Radix-Join 共享cache多核处理器 多线程优化 cache访问优化
下载PDF
关于并行程序设计方法的分析与研究 被引量:1
16
作者 王文义 赵建建 王若雨 《郑州大学学报(工学版)》 CAS 北大核心 2009年第2期80-83,共4页
并行程序设计与并行计算机的体系结构密切相关,因此其复杂性要远远大于串行程序设计.介绍了数据分解和循环体依赖等概念,提出了一个cache利用率和并行计算机有效速度的近似关系模型.通过该模型和一个实例,阐述了在并行程序设计中降低和... 并行程序设计与并行计算机的体系结构密切相关,因此其复杂性要远远大于串行程序设计.介绍了数据分解和循环体依赖等概念,提出了一个cache利用率和并行计算机有效速度的近似关系模型.通过该模型和一个实例,阐述了在并行程序设计中降低和拆解计算目标中数据依赖的方法过程,从而达到尽可能多地发掘指令级并行性,提高cache利用率即提高并行系统有效速度的目的. 展开更多
关键词 循环体依赖 cache利用率 循环展开 指令级并行
下载PDF
Census立体匹配算法的DSP实现 被引量:3
17
作者 陈登 白洪欢 《科技通报》 2008年第6期860-865,共6页
立体匹配是计算机立体视觉中最重要的步骤之一,由于计算量巨大,使得在各种实时应用中,都必须解决立体匹配的优化问题。立体匹配的实时性研究已经成为现代立体视觉的一个重要研究方向。本文从硬件和软件两个层次分析了立体匹配算法的基... 立体匹配是计算机立体视觉中最重要的步骤之一,由于计算量巨大,使得在各种实时应用中,都必须解决立体匹配的优化问题。立体匹配的实时性研究已经成为现代立体视觉的一个重要研究方向。本文从硬件和软件两个层次分析了立体匹配算法的基本加速方法和技巧,然后详细介绍了利用TiC64xDSP进行Census算法的优化。最后通过实验结果验证了本文提出算法的有效性。 展开更多
关键词 立体匹配 CENSUS TiC64xDSP cache 循环展开 线性汇编 优化
下载PDF
一个新的循环分块算法 被引量:2
18
作者 舒辉 康绯 《计算机研究与发展》 EI CSCD 北大核心 2002年第10期1303-1306,共4页
循环分块是一种提高循环 Cache命中率的循环变换技术 ,循环分块的大小是决定循环分块效率的关键因素 .CME(cache miss equations)是一种精确分析程序中循环 Cache命中率的数学模型 ,从 CME理论模型出发 ,通过比较循环分块前后 CME的变... 循环分块是一种提高循环 Cache命中率的循环变换技术 ,循环分块的大小是决定循环分块效率的关键因素 .CME(cache miss equations)是一种精确分析程序中循环 Cache命中率的数学模型 ,从 CME理论模型出发 ,通过比较循环分块前后 CME的变化 ,结合 PADDING技术可以得出一个循环分块算法 .实验表明 ,通过该算法计算出的分块大小较之经典的 L RW循环分块算法 ,在确保完全消除循环中数组引用数据访问 Cache自冲突的同时 ,可以获得更大的分块 ,从而提高了循环分块的分块效率 . 展开更多
关键词 循环分块算法 cache命中率 编译优化 数学模型 数组 CME理论
下载PDF
基于强化学习的循环自动展开研究
19
作者 李居垚 何先波 《智能计算机与应用》 2023年第11期286-289,共4页
近年来,芯片行业蓬勃发展,新的架构比以往更快地涌现出来。同时,现代计算机的应用场景变得越来越复杂,对计算机性能的要求逐渐增加。在编译优化中,循环展开发挥着承上启下的作用,且任务复杂,高度依赖经验,并需要大量人力和资源投入。为... 近年来,芯片行业蓬勃发展,新的架构比以往更快地涌现出来。同时,现代计算机的应用场景变得越来越复杂,对计算机性能的要求逐渐增加。在编译优化中,循环展开发挥着承上启下的作用,且任务复杂,高度依赖经验,并需要大量人力和资源投入。为了减少编译器开发中循环展开的工作量,并适应芯片行业快速发展的环境,本文提出了一种基于强化学习的自动展开器。经过实验比较,该循环展开器性能优于Clang-O3,并且与蛮力搜索相比具有更快的编译速度。 展开更多
关键词 循环展开 编译器 自动生成 强化学习
下载PDF
基于分支执行历史的循环缓冲低功耗方法
20
作者 李泉泉 张铁军 +1 位作者 王东辉 侯朝焕 《微电子学与计算机》 CSCD 北大核心 2014年第9期7-10,共4页
针对嵌入式处理器中指令Cache功耗显著的特点,提出了一种基于分支执行历史的循环缓冲低功耗方法.利用分支指令当前信息与分支执行历史信息之间的关系,实现了应用程序中循环的动态检测与加载.通过对取指通道的精确控制,该方法能够过滤大... 针对嵌入式处理器中指令Cache功耗显著的特点,提出了一种基于分支执行历史的循环缓冲低功耗方法.利用分支指令当前信息与分支执行历史信息之间的关系,实现了应用程序中循环的动态检测与加载.通过对取指通道的精确控制,该方法能够过滤大部分不必要的指令Cache访问,有效降低了指令Cache的功耗.在SuperV_EF01DSP上的实验结果表明,采用该方法后,在处理器性能没有损失的情况下,指令Cache功耗平均降低32.58%,面积仅增加8.31%. 展开更多
关键词 分支执行历史 低功耗 循环缓冲 指令cache
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部