基于稀疏矩阵优化的卷积神经网络加速器及其快速部署系统设计

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:laiyq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的不断发展,卷积神经网络逐渐在越来越多的领域取得了超过传统算法的表现。然而将卷积神经网络应用到安防、汽车电子和智能手机等场景时,一方面,算法对于算力的需求以及功耗的控制,使得传统硬件平台无法胜任,另一方面算法模型的开发与硬件加速平台的分离,使得算法部署的复杂度过高。因此,针对以上两个问题,本文围绕卷积神经网络加速器设计和快速部署工具设计展开研究,提出了一种基于稀疏矩阵优化的神经网络加速器架构以及配套的快速部署系统。本文的主要工作包括硬件与软件两个部分。硬件上,本文首先对卷积神经网络中计算量最为集中的卷积层进行分析,提出一种在资源约束条件下的卷积循环展开方式,并设计了一种以矩阵运算为核心的神经网络加速器,能够在常见的卷积层运算中,保证较高的DSP利用率。针对应用最广泛的Re Lu激活函数导致的特征稀疏性,本文对矩阵乘法进行了变换,并通过特征压缩模块、权重预取模块和稀疏矩阵计算模块实现了稀疏矩阵的加速。此外,加速器将二维池化运算分解为两次一维池化运算,实现通用的池化运算模块。在Res Net18的测试中,取得了162.29GOPs的算力,通过稀疏矩阵优化,减少了38.62%的卷积层计算时间,对比其他基于FPGA的工作,单位DSP的算力提升了90.9%。最后,将设计的神经网络加速器与CPU结合,构成了一个So C系统。软件上,针对模型部署到加速系统工作繁复的问题,本文设计了一套快速部署工具链。为So C提供了软件支持,包括系统初始化,加速器驱动和内存管理等API。快速部署工具链包括三个部分,模型预处理工具对模型结构解析,将卷积层、激活层、批归一化层和残差层融合,并产生模型结构描述文件,模型量化模块对模型数据进行INT8量化,确定模型推理时的定点小数定标位置,最后模型映射工具使用模型预处理工具和模型量化工具产生的文件,实现在加速器中进行模型推理。最终在Res Net18的测试中,TOP5准确率为86.89%,TOP1准确率为66.56%,对比Pytorch中的预训练版本精度分别下降了2.19%和3.20%,能效比为23.50GOPs/W,是CPU的55.95倍,GPU的2.5倍。
其他文献
脑机接口(brain computer interface,BCI)构建了大脑与外部设备直接进行交互的信息通路,能够帮助运动功能障碍患者恢复一定的信息交流和运动能力。本课题主要研究基于稳态视觉诱发电位(steady-state visual evoked potential,SSVEP)的脑机接口,其具有信息传输率高,仅需少量训练等优点,有着广阔的应用前景。虽然基于典型相关分析(canonical
在训练集和测试集满足独立同分布的假设条件下,经典的机器学习算法在我们的日常生活中得到了大量成功的应用。令人遗憾的是,当训练集和测试集的分布存在较大差异时,经典的机器学习算法性能会显著下降。领域自适应算法利用来自不同分布的源域数据(训练数据)和目标域数据(测试数据),缩小源域和目标域数据的分布差异,从而达到利用经典机器学习算法进行建模的目的。目前,大多数领域自适应算法通过对齐源域和目标域的边际分布(
经济水平的腾飞与人口数量的增长,加速了社会对生活塑料制品的更新速度以及更多需求的产生,同时,带来了废杂塑料产量的飞速上升与其类别的多样化与复杂化,这为塑料的回收利用带来了极大的商业潜力与生产压力。随着机器学习智能算法理论的高速发展,以视觉相机为传感器,智能算法为处理核心的检测技术逐渐被企业应用到工业生产的各个场景中,提高自动化程度、降低生产成本。本文针对废杂塑料视觉分选中的复杂检测场景开展研究,主
由于常规铬酸盐钝化对人体及环境危害大,锌层表面无铬钝化技术一直是研究的热点。在诸多的无铬钝化研究中,铈盐钝化技术因其绿色无毒、工艺简单、耐蚀性较好,成为可能替代铬酸酸钝化的技术之一,但单一的铈盐转化膜耐蚀性并不能满足使用要求。利用硅烷与铈盐复合成膜能够有效减少铈盐膜的裂纹同时提高阻隔性能,有效增强膜层耐蚀性能。本论文选用带有疏水基团的乙烯基三甲氧基硅烷,采用两种不同的配制钝化液的方法,在锌层表面通
航空航天器的功能要求使得结构大型化、复杂化,许多柔性智能结构中存在着耦合连接,这使其容易产生残余振动,如果不进行有效控制,将会降低操作的精度,甚至会导致更严重的后果,因此研究多柔性体系统的振动特性及主动控制是有必要的。本文以多柔性梁为研究对象,针对多柔性梁弹性耦合结构与多柔性梁刚柔耦合结构展开研究,全文工作总结如下:针对多柔性梁弹性耦合与刚柔耦合两种结构的多柔性体系统,进行了有限元建模,分析了结构
在大多数国家,建筑行业耗能占能源消费总量的最大部分,其碳排放约占总量的三分之一。此外,随着城市化的进展,人们对于生活水平提高的需求越来越迫切。中国各地的气候差异很大,这对区域供暖需求有决定性影响。优化现有供热网络、设计包含更高份额可再生清洁能源的新型供热系统是提高能源效率、减少碳排放以及提高人们生活水平行之有效的途径之一。供热管网系统由于包含大量的管道和换热器等装置而存在大量的储能,合理利用其储能
1前言聚合物改性沥青防水涂料简称液态防水卷材,是一种新型环保型建筑防水涂料,与普通卷材防水材料相比,具有施工方便、快捷、应用范围广,广泛应用于厕卫、厨房、建筑物外墙、坡瓦屋面、地下工程和储液池等工程的防水。以乳化沥青为基料,用合成高分子聚合物进行改性的水乳性防水涂料,不但具有优良的耐水性抗渗性,且涂膜柔软、有高档防水卷材的功效,又有施工方便,粘结力强,可抵抗压力渗透,特别适用于复杂结构,可明显降低
会议
随着我国经济水平的提高,城镇化和工业化不断推进,如何处理大量产出的城市生活垃圾,受到了越来越广泛的关注。成熟的城市生活垃圾焚烧不仅是垃圾无害化处理的方式之一,还可以实现垃圾资源化。也正是由于焚烧法具有减容性好,处理量大,以及回收热量等优点,正逐渐成为主流的垃圾处理方式。但垃圾焚烧过程中氯元素污染物的生成、流动会腐蚀焚烧设备,过量排放更会污染环境。现如今已经有大量针对垃圾常规空气气氛下氯的迁移或脱除
随着人工智能的发展,“AI+传统行业”的改革可以赋予行业新的经济增长点。“AI+动物保护”可以在提高动物研究效率的同时减少对生态环境的影响。现在主流的研究方案是使用隐蔽相机拍照通过网络上传至云端服务器进行动物检测,但是这样会带来巨大的网络传输成本,并且该方案对信号不稳定地区的动物检测很不友好。因此本文基于边缘计算来进行动物检测,在隐蔽相机中加入AI识别功能,在给动物拍照的同时在边缘计算平台进行检测
研究背景:急性心肌梗死是持续性心肌缺血和缺氧的严重急症。晚期糖基化终产物受体(receptor for advanced glycation end products,RAGE)在急性心肌梗死时表达水平增加,阻断RAGE蛋白表达可减轻心肌损伤。目前,许多研究通过病毒或脂质体携带小干扰RNA(small interfering RNA,siRNA)抑制rage的表达。然而,病毒具有细胞毒性、免疫原性