嵌入式实时语义分割模型的研究和应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：cnreon

【摘要】

：

【作者】

：

胡鉴

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2021年01期

【关键词】

：

语义分割实时性嵌入式实现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语义分割是像素级的图像分类任务。相比于其他的计算机视觉任务如图像分类和目标检测而言,语义分割能够提供更加丰富的语义信息。随着深度学习在近些年来的迅猛发展,基于深度学习的语义分割算法已经在自动驾驶、缺陷检测、智慧农业和医疗图像分析等领域拥有了广泛应用。但是目前基于深度学习的语义分割算法的计算量往往都很大,这限制了算法在资源有限的嵌入式设备等平台上的应用。本文首先分析了现有的基于光流法的视频语义分割模型,然后针对其问题设计了一种轻量级的实时视频语义分割模型,再通过在数据集上的实验证明了设计的模型的高效性,最后实现了模型在嵌入式设备上的推理性能的优化。本文的研究内容如下:1.提出了一种基于特征传播的实时视频语义分割模型。现有的基于光流法的视频语义分割模型有几个问题:（1）使用现成的光流网络来预测帧间光流信息,耗时过长。（2）光流网络需要先预训练再与语义分割网络联合训练。（3）没有有效地利用富含空间细节信息的低层特征。（4）没有实现关键帧的动态调度。针对估计光流信息耗时长以及光流网络需要预训练的问题,本文提出了高效的特征传播模块,这个模块可以快速地预测帧间流场信息并进行特征传播,还能够直接嵌入语义分割网络中进行端到端的训练;针对低层空间特征信息没有被利用的问题,本文提出了高效的特征更新模块在每一帧提取低层特征,提取的低层特征在与高层特征融合之后可以提高模型的分割精度;针对没有实现关键帧的动态调度的问题,本文提出了基于流场值阈值的关键帧动态调度机制,使得模型能够根据视频帧之间的变化情况确定关键帧;此外,本文还设计了具有双重注意力机制的特征融合模块,能够进一步地提升模型的分割精度。2.在CamVid数据集上进行了消融实验,逐一证明了所设计的模型中各模块的有效性。然后在多个数据集上进行了实验,评估模型的推理速度与推理精度,并且通过特征图可视化直观证明了所设计的特征传播模块能够有效地传播关键帧的高层特征到非关键帧,并令传播后的高层特征对齐非关键帧的低层特征,从而使得高层特征拥有更强的空间信息表达能力。最后,通过关键帧调度实验证明了所设计的基于流场值阈值的关键帧动态调度机制的有效性。3.基于Jetson Nano嵌入式设备对模型在嵌入式平台的推理性能进行了优化。首先通过TensorRT推理引擎将模型的各个模块独立地进行量化压缩,然后分析出不同模块的参数精度的最佳组合,使得模型的推理精度与推理速度达到最佳平衡,最后通过使用设计的多线程异步流水线架构进一步地提高了模型的实际运行速度。

其他文献

分瞳移焦型外差共焦显微成像方法研究

随着微纳米加工技术、纳米超材料的发展以及超精密结构的日益复杂,对于微小空间结构三维尺度测量的需求日益迫切。共焦显微技术具有独特的三维层析能力、高分辨力、对被测样品无特殊要求、非接触测量不会损伤样品表面等优点,可广泛应用于微结构三维形貌测量方面。目前外差共焦仍然是提升共焦显微系统轴向分辨力的主要手段之一,但是由于该系统采用硬针孔结合光电探测器的方式存在针孔离焦位置调节困难、容易堵塞等诸多问题,致使系

学位

外差共焦分瞳移焦光瞳滤波器空间光调制器差分测量

面向问题的多文档文本摘要技术研究

随着互联网上信息量的快速增长,人们对信息检索效率的要求越来越高。如何从互联网上高效的获取信息成为一个重要的问题。搜索引擎是检索信息和收集互联网数据最为有效的工具,但是搜索引擎返回的结果仍然包含着诸多的干扰信息和冗余信息,需要进行进一步的分析和归纳才能掌握搜索引擎返回的重点。而面向问题的文本摘要可以解决这个问题,面向问题的文本摘要旨在基于给定的问题从文档中返回一段含有文档中重要信息的简短的文字,配合

学位

多文档文摘面向问题的摘要图神经网络弱监督信息检索

微型化傅里叶光场显微成像技术

光场显微技术作为一种无需扫描、可伸缩的方法,可以以高分辨率观察跨越多个时空尺度的各种解剖和功能信息,从而实现从单细胞标本到哺乳动物大脑的高速、体积成像,但重建伪影的出现和复杂的计算成本大大限制了光场显微技术的广泛应用。因此研究人员通过两个方面对光场显微系统不断进行优化和改进。一方面通过调整微透镜阵列的相对位置,得到了较高分辨率的光场显微镜,并有效避免了重建伪影;另一方面,通过将微型显微镜平台和光场

学位

傅里叶光场微型化FLFM参数设计光学外壳结构设计光场重建

基于视频跟踪的输电线路舞动监测技术研究

近年来,我国在电力系统建设上的投入不断增加,电网覆盖范围也越来越广,随之而来的是输电线路舞动事故发生频率逐年攀升。舞动已经成为造成电路安全隐患的主要原因之一,并成为各国研究焦点问题。使用输电线路舞动监测技术可以得到输电线舞动的关键参数,这一点对于研究舞动产生机理以及分析影响舞动因素就尤为重要。输电线路舞动监测技术有诸多解决方案,其中,基于视频采集的监测技术凭借其非接触测量特性,可以较大程度地省却安

学位

输电线舞动视觉跟踪目标检测Android

光学元件损伤暗场图像超分辨率重建技术研究

为了提升高功率激光装置中大口径光学元件的初始损伤检测与跟踪能力,针对光学元件损伤暗场图像的纹理信息少、关键信号微弱的问题,提出基于模型集成的暗场图像超分辨率重建方法,对早期发现光学元件损伤具有重要意义。本文主要研究内容如下:（1）对图像超分辨率重建方法进行系统综述,分析了从传统的基于插值法到目前的基于深度学习法的图像超分辨率重建技术原理和特点;（2）提出一种基于模型集成的暗场图像超分辨率重建方法,

学位

光学元件损伤检测超分辨率重建模型集成

1960年代初大办农业、大办粮食研究 ——以邢台地区为例

由于“大跃进”和农村人民公社化运动的失误,加上1959—1961年连续三年自然灾害和苏联政府背信弃义地撕毁合同,使我国国民经济陷入困境,国家和人民遭遇重大损失,农村生产力遭到破坏,农业产值特别是粮食产量连年减产,人民口粮出现供应紧张的状况,部分地区出现严重饥荒。粮食成为影响全国人民群众最突出的问题。1960年代初的农业困难引起了整个国民经济困难,党中央为了战胜困难,走出困境,1960年8月10日中

学位

1960年代初邢台地区农业粮食

基于查询图排序的知识库问答方法研究

基于知识库的问答系统能够针对用户提出的自然语言问题直接作答,相比于借助形式化查询语句获取知识库内容的方式,问答系统更加智能且高效。依托于大规模知识库的问答系统通常采用流水线工作模式,在这种模式下,系统利用自然语言处理的相关技术确定问题查询的主题实体,并在知识库中抽取主题实体相关的三元组,从中找到与问题相关度最高的组合用以抽取问题的答案。知识库中相互关联的三元组表现为小规模的图结构,这种结构被称为查

学位

知识库问答实体识别实体链接查询图LambdaRank

跨语言对话语言理解研究

随着近几年来自然语言处理技术的迅猛发展,人工智能已经渗透到我们生活的方方面面,各种各样的人工智能产品出现在市场上,人们也逐渐对计算机寄予了越来越高的期望,希望计算机能够帮助人们完成更多更复杂的工作。得益于深度学习和大数据的发展,一些任务导向的对话语音助手也渐渐在人们的日常生活中出现。这些对话语音助手,不仅可以陪用户闲聊,还可以智能化地解决人们很多日常需求,比如听音乐、打电话、订车票等。其背后的主要

学位

跨语言对话语言理解零样本迁移学习预训练模型

基于视频场景的群体/个体行为分析技术研究

随着监控/摄像头覆盖率的不断提升,人们可以越来越方便快捷的获得大量的视频信息,比如课堂视频,小区门岗监控等。传统的依靠人工进行的监察、判断手段缺点越来越明显:观看视频效率低、速度慢;人的注意力容易不集中;人工手段成本过高等。而通过人工智能技术的动作识别算法在复杂的环境下又会出现识别率过低,识别结果不可信的问题。本文使用深度学习技术进行视频的自动识别分析。通过对视频中人物的关节点识别+动作识别来获得

学位

视频动作识别姿态关联LSTM网络人脸识别

抗打印扫描攻击的数字水印算法研究

随着互联网与多媒体技术的不断发展,数据传输日益便捷,由此引发了许多侵权、恶意攻击以及盗版等问题,数字水印技术在版权保护方面就显得尤为重要。虽然电子文件逐渐取代了纸质文档,但仍有许多重要文件例如证件、证书、书本等需要制成印刷品,水印的抗打印扫描攻击能力在版权保护中也十分重要。目前,许多学者选择在更不具有可见性的频率变换域中进行水印嵌入,然而在图像频域嵌入水印存在着难以平衡水印隐藏性、鲁棒性以及嵌入容

学位

NSCT分解SVD分解数字水印打印扫描盲提取

嵌入式实时语义分割模型的研究和应用

与本文相关的学术论文