一、赛灵思推出面向应用的FPGA架构(论文文献综述)
廖张梦[1](2021)在《面向嵌入式系统的实时传输与接口技术研究》文中指出工业控制、医疗装备、汽车电子等领域有大量的嵌入式系统需求,随着实时传感器数据融合、信号大数据在线处理等需求的提高,嵌入式系统架构需要具备更强的实时流处理与数据传输能力。同构的嵌入式CPU、DSP架构往往难以满足复杂流数据处理场景的需求,基于FPGA与CPU结合的异构架构,能够发挥其可灵活定制的优势实现高并发的预处理和复杂数据传输,同时具有功耗低、扩展性好等特点。面向高性能嵌入式信号处理系统需求,本文提出一种传输链路规范化、通用化、可灵活重构的多片FPGA加嵌入式CPU的架构。针对该架构,本文着重研究并设计了FPGA的内外部的灵活互联接口,给出FPGA与嵌入式CPU的控制和传输方案,实现了FPGA和嵌入式CPU在实时数据传输层面的协同。本文的主要工作如下:1)建立并实现了FPGA与嵌入式CPU的PCIe链路,然后完成基于DMA的数据传输,采用命令队列的方式来解决流传输过程中由命令处理延时导致的数据间断问题,通过灵活设定采样量来平衡数据传输的带宽和实时性。2)构建FPGA上的互联基础架构,包括PCIe接口、DMA、以及DDR等模块的互联,该架构可在不改变硬件逻辑的前提下实现多种方式的数据传输,并使用通用接口加中间模块的方式降低模块的耦合深度,具有较好的灵活性和通用性。3)完成了一种高效率的AXI协议接口DMA模块,该DMA模块可对命令进行AXI事务拆分,使软件在发送命令时无需考虑协议4K边界的问题。最后构建了测试平台进行测试和验证。实验结果显示:FPGA与嵌入式CPU之间可实现超过3GB/s的数据传输,FPGA之间通过Aurora可实现超过14GB/s的高带宽传输。在嵌入式CPU管理控制下,系统可以实现实时流数据传输、缓存、数据回放等多种方式的数据传输,表明系统能够实现处理器单元之间的协同和高效稳定传输,验证了架构和传输方案的可行性。
马军[2](2021)在《全高清视频压缩、存储与转发系统设计与实现》文中研究指明视频已成为现今社会信息传递的重要媒介,广泛应用在现场直播、安全监测、远程医疗等相关领域。全高清视频压缩、存储与转发系统为解决视频传输高带宽及大数据量存储方面的问题提供了重要的研究价值。基于视频压缩编码技术、嵌入式linux系统与FPGA之间RGMII接口通信技术、大容量NAND FLASH存储技术、高带宽并行LVDS传输技术,本文设计了全高清视频压缩、存储与转发系统的软硬件方案,具体工作包括:(1)分析了H.265视频编码算法及其特点,基于海思Hi3516A多媒体平台设计了视频压缩编码方案,利用其MPP(媒体处理软件平台)及MPI(MPP编程接口)实现了H.265算法编码压缩视频。(2)研究了linux系统与FPGA之间的RGMII接口通信技术,采用UDP协议实现了Hi3516A生成的H.265码流到FPGA的传输。(3)分析了镁光大容量NAND FLASH存储器结构特点、异步时序操作方式,在FPGA的控制下,完成了NAND FLASH的初始化、擦除及读写操作,实现了H.265码流的存储功能。研究了高带宽400-660Mbps十位并行LVDS接口传输技术,实现了H.265码流的转发功能。(4)搭建了测试验证平台,读取NAND FLASH中码流数据,通过FPGA IO口挂接的PHY芯片,利用网口传输H.265码流到PC,上位机软件接收保存码流数据,利用FFmpeg软件解码并测评系统视频压缩性能;利用赛灵思在线逻辑分析仪chipscope抓取内部数据验证码流存储与转发传输功能。测试结果表明,本文设计的系统能够实现全高清视频压缩、存储与转发功能,PC端解码播放码流,视频画面流畅,FFmpeg解码码流数据,平均压缩比约为141,输出码率为4Mbps,与原始视频相比,PSNR值为38 d B。视频存储功能可实现15h时长的码流存储,与理论值接近。视频转发传输可通过LVDS接口达到660Mbps的码流传输功能。
孙志朋[3](2021)在《高计数率的TPC探测器读出电路研究与设计》文中研究指明低温高密核物质测量谱仪(CSR External-target Experiment,CEE)是适用于兰州重离子研究装置-冷却储存环(Heavy Ion Research Facility at Lanzhou-Cooler Storage Ring,HIRFL-CSR)能区重离子碰撞和质子-重离子碰撞测量的带电粒子谱仪,其主要科学目标是实现CSR能区重离子碰撞中带电粒子产物的近全空间测量,为致密天体性质、核反应动力学、自旋和同位旋相关的核力与核物质状态方程性质、高重子数密度QCD相图等重要的科学问题研究提供基础实验数据。该谱仪由若干子探测器系统构成,基于气体电子倍增器(Gas Electron Multiplier,GEM)读出的高计数率(10kHz)、高接受度的大型时间投影室(Time Projection Chamber,TPC)是其中之一,用作主径迹探测器,负责测量带电粒子三维径迹,并进行粒子鉴别,包含有15000个读出通道。TPC探测器作为一种应用广泛的探测器,具有高精度的三维径迹探测能力,同时可以提供粒子的动量及能损信息进行粒子鉴别。GEM-TPC相较于传统的多丝结构,在计数率、位置分辨等方面有着明显优势,因此基于GEM读出的TPC探测器也成为了当前各大物理实验中径迹探测器的首选,而大面积的GEM-TPC由于计数率高、通道数多的特点,对读出电子学的计数率、集成度、分辨率、功耗等指标都提出了更高的挑战,传统的读出电子学已经无法满足要求,基于专用集成电路(Application Specific Integrated Circuit,ASIC)芯片的读出电子学应运而生,利用高集成、低功耗的ASIC芯片配合现场可编程门阵列(Field Programmable Gate Array,FPGA),构建高性能的新型读出电子学,已成为当前该领域的发展趋势。本文立足于GEM-TPC的读出需求,在对比调研多款针对TPC探测器的前端读出ASIC芯片的基础上,选定SAMPA为核心芯片,开展了高计数率的TPC探测器读出电子学的研究,实现了一套具有320通道的高计数率、高集成度、高分辨、低功耗的读出电子学验证系统,重点研究了系统核心单元-数据处理模块和数据采集软件(上位机)的设计与实现,为后续CEE中TPC探测器前端电子学的设计提供技术参考和积累。经测试,电子学系统通道基线噪声均方根值(RMS)小于0.1fC;通道固有能量分辨率优于1.3%(70f C输入条件下);2 fC到99 fC范围内,通道积分非线性优于0.5%;联合探测器组成探测系统,使用55Fe放射源测试,系统能量分辨率在相同条件下好于商用系统,且在21kHz事例率下系统工作正常。测试结果证明,读出电子学系统可满足高计数率下的TPC探测器读出需求。
宋健[4](2021)在《基于ZUC-256算法的图像加密系统设计及硬件实现》文中研究指明近年来互联网飞速发展,在图像加密系统研究中大多数研究人员使用计算机软件对图像进行加密,而使用硬件加密图像的研究较少。基于FPGA硬件平台完成图像加密,可以有效地提升加密速度,在未来有着广阔的应用前景。2018年7月6日我国推出了ZUC-256算法,ZUC-256算法的成功研制是我国在5G时代保障安全通信的重大举措。本文使用ZUC-256算法进行图像加密,并以此设计了一个基于FPGA的硬件图像加密系统。本文主要进行了如下工作:首先完成了ZUC-256算法的硬件设计,在设计中使用流管理模式代替常见的控制管理模式进行模块设计,实现了模块内控制信号的产生。并对其算法进行了相应的优化,选用并行选择加法器完成了ZUC-256算法关键路径的取模运算,并采用流水线寄存器对组合逻辑的运算结果进行缓存,从而提高了系统主频。以ZUC-256算法为基础设计了基于FPGA硬件的图像加密系统,划分为密钥传输模块、ZUC-256算法模块、置乱模块、加解密模块。密钥传输模块从上位机发送初始密钥与向量,置乱模块利用双口RAM改变读写地址,加解密模块采用异或运算引入密文反馈实现加解密操作,在设计置乱模块时设计了状态机实现RAM间读写地址的选择,并使用寄存器移位代替乘法器实现运算,提升了模块性能。最后在Vivado2017.4中对设计的图像加密系统子模块分别进行RTL电路综合与仿真验证,并将综合后的图像加密系统在AX7103开发板上进行上板验证,利用上位机发送密钥在LCD屏上观察加解密效果。对加密后图像进行了安全性分析,本文的信息熵为7.9974,相邻像素相关性趋近为0,证明经本文图像加密系统处理的图像有着良好的安全性。
李景欣[5](2021)在《基于Vitis的FPGA目标检测算法加速器设计》文中研究表明人工智能技术发展越发迅速,目标检测是其中应用非常广泛的一项人工智能技术,该领域仍然不断有更好的技术方法出现。目前的目标检测产品多数是部署在GPU平台上或者是传统CPU机器上,CPU的检测效率相对很低,而GPU又有着耗电量大、不可重构和成本高的劣势。FPGA相比GPU的长处是它具有可重构的特点,根据实际的需求设计硬件,同时功耗低耗电量小,散热性能会更好,在实时的图像处理、信号处理以及医疗航空等领域均有着广泛的应用。本文DF-Retinaface算法是基于Retinaface深度学习算法进行目标检测算法的改进设计,并对该卷积神经网络设计了基于FPGA可编程平台的目标检测加速器。具体操作为:针对FPGA不适于处理浮点数的问题,采用int8定点量化操作定制化算法模型,将32位浮点模型转换为8位定点模型;针对量化操作会小幅损失算法精度的问题,提出了一种新的改进网络结构,提高算法模型的检测效果,同时简化先验框和激活函数设置,提高训练与预测的速度;针对FPGA丰富的逻辑资源采用最大并行性的DPU(Deep Learning Processor Unit),通过提升资源利用率来达到更高的吞吐率;针对FPGA与Vitis统一平台工具特点,采用Vitis加速库内核加速预处理过程中的图像缩放和格式转换操作。本文采用Tensor Flow框架进行算法的实现、训练与测试,基于本文设计的ZCU102硬件平台对实验数据进行了结果对比分析,实验结果表明,多任务监督可以提高算法模型的检测效果;定点量化操作可以大幅减小算法模型的大小,约为之前的四分之一,减少资源的占用,FPGA检测速度提升约为CPU的9倍;网络结构的改进可以提升中等和大型目标的检测效果;对算法预处理的加速可以降低预处理所需要的时间,图像缩放和格式转换内核共使单张图像预处理过程减少了约1倍的时间。此外FPGA平台下检测单张图像的能量消耗仅为GPU平台下的10.5%,证明了FPGA在功耗方面有着巨大的优势。最后与近年其他相似工作的对比实验进一步验证了本文Vitis统一平台开发方式与本文FPGA加速器设计具有更高的吞吐率。
刘靖[6](2021)在《基于农业物联网USB接口的FPGA边缘计算设计与实现》文中研究表明随着物联网、大数据、云计算的发展,智慧农业的展开对提高作物的产量和保护生态环境有着重要的意义。随着世界人口的增长和可耕地面积的减少恶化,世界粮食储备量的缺口仍在日益增长。因此,为了保证生态环境的绿色发展,科技兴农显得尤为重要。农业环境信息的采集对农业数字化耕种策略有很大的影响,传感器为环境信息获取的感知设备,功能不同的传感器接口类型繁多。多类接口的不同使用方法增加了农业科技设备安装、运维的难度,而实现海量环境数据实时、在线处理需要“高额”成本。本文对传感器技术、数据分析算法和硬件算法移植等部分进行研究,旨在设计与实现一种基于FPGA的传感器数据采集和边缘计算系统。实验测试结果表明本文设计的系统可稳定运行,处理结果有效可靠,可为智慧农业物联网系统提供实时数据感知、在线处理的技术支持。本文首先根据IEEE 1451标准实现I2C型传感器标准化。即选取合适的USB数据转换器将I2C型传感器接口进行USB统一化。以树莓派开发平台为数据采集系统模块,对环境信息各传感器数据进行采集、存储。然后,采用Vivado HLS工具对小波分解算法进行面向边缘计算的硬件算法移植,再经过硬件算法优化后,将其打包成IP核供Zynq-7000系列开发平台调用,以实现对原始环境数据进行小波分解的加速处理。最后,编写基于Socket的TCP应用程序,将树莓派采集模块的数据传输至FPGA边缘计算模块。其中,上位机的交互界面使用Qt编写。为简化设计、减少成本,上位机的数据传输同样使用TCP协议;同时,树莓派开发板和FPGA开发板采用接入路由器与PC进行通信的方式。在Vivado HLS环境下,采用C/C++语言进行IP核开发,具有可移植性强的特点,为本系统后续面向边缘节点数据预测模块的算法实现奠定基础。
刘朝亮[7](2021)在《Back-n实验装置上中子辐照单粒子效应信号采集系统研究》文中提出随着芯片集成度的提高,芯片的尺寸、工作频率以及工作电压也随着减小,从而发生单粒子效应的临界电荷也逐渐减小,使得大气中子引发半导体芯片发生的单粒子效应的概率大大增加,对于我国航空、高铁及大型计算机集群等高新领域系统中的电子设备的威胁也越来越严重。因此开展中子诱发单粒子效应的研究对于我国未来国产飞机、高铁等关键应用电子设备的发展及其稳定可靠的运行具有十分重要的意义。由于散裂中子源的中子能谱较宽,是白光中子源十分贴近地球大气中子能谱,因此基于散裂中子源开展中子诱发芯片单粒子效应研究十分有利。但目前国际上散裂中子源的中子束线较短、中子的单能性较差,因此主要对中子引发器件单粒子效应的截面进行分析,而对于单粒子效应截面与中子能量依赖性的分析,则通常采用准单能中子源进行研究。随着我国散裂中子源(CSNS)反角白光中子实验装置(Back-n)束线的建立,利用Back-n中子源长达80米的束线长度,使得在散裂中子源上测量中子单粒子效应截面与中子能量依赖关系相比准单能中子源更有优势,因此在Back-n实验装置上可以十分便利同时开展单粒子效应截面及其与中子能量依赖性的研究。本论文利用Back-n中子源的特点,开展了基于Back-n实验装置上的中子辐照单粒子效应信号采集系统的研制工作。通过对国内外单粒子效应研究现状的调研,采用模拟信号检测法的单粒子效应检测方法对数字类、模拟类芯片的单粒子效应进行检测,使用中子飞行时间法完成单粒子效应截面微分能谱分析的技术路线。基于PXIe测试测量平台,设计并实现了单粒子效应信号采集系统包括电流检测模块(CSM)、信号调理及采集模块(SAM)和数据处理及测量模块(DPM)的硬件系统,同时开发了基于PXIe机箱控制器的数据读出软件和远端上位机DAQ软件。在实验室搭建测试平台完成了对单粒子效应信号采集系统各个模块的功能验证和关键性能指标的测试。通过模拟实际测试环境,对单粒子效应信号采集系统软件和硬件进行了联合测试,验证了单粒子效应信号采集系统的整体功能。最后使用中科院微电子所提供的声效应晶体管(VDMOS),在Back-n实验装置上对研制的单粒子效应信号采集系统进行了联合测试,成功实现了 VDMOS单粒子效应的波形采集及单粒子效应截面的微分能谱的获取。
安兆远[8](2021)在《宽带多通道收发模块的AXIe载板设计与实现》文中研究指明伴随着自动测试系统应用越来越广泛,以及测试功能需求对现场复杂被测装备要求越来越高,普通的总线很难满足自动测试系统的需求,先进的总线技术在新的测试任务种类、测试速度中迫切需要。新的自动测试系统总线标准被研发出来:基于ATCA标准建立的AXIe(Advanced TCA e Xtensions for Instrumentation and test)总线标准,PCI Express接口与LAN(网口)接口这两种形式的数据传输能同时支持,这便使得LXI或PXI测试系统可以与AXIe系统兼容性很好。本文基于以上背景,研究了AXIe标准总线测试体系架构以及仪器模块设计方法,建立了一个连接双通道宽带数据采集子模块与双通道高速波形生成子模块的AXIe仪器模块结构,并设计了载板。本文主要工作总结如下:1.研究AXIe协议和ATCA协议,熟悉其体系架构和电气特性,以ZYNQ 7020芯片为核心,通过背板的区域一和AXIe机箱通信,完成载板智能平台管理控制器(IPMC)的硬件设计和软件设计,并测试和验证IPMC功能以及完成载板对子模块管理。2.设计了一种AXIe载板收发子模块双向高速数据通信机制,以XCKU060芯片为核心,通过背板的区域二和AXIe机箱通信,基于PCI Express链路完成载板和AXIe机箱软件的通信,并实现上位机软件对整板高速数据流的控制;基于GTH链路和LVDS链路实现载板和收发子模块之间的通信;通过以上链路实现机箱软件和收发子模块多通道间高速数据流的通信。本文完成载板高速数据流通信模块的硬件设计和软件设计,并测试和验证数据链路的完整性。3.接收并处理AXIe机箱的时钟和触发资源,可以提供给数据采集子模块与波形生成子模块,保障AXIe机箱对单板时钟、触发和同步的控制,以及AXIe机箱对多板多通道时钟、触发和同步的控制。本文完成载板定时、触发和同步模块的硬件设计和软件设计,并测试和验证触发功能。本文最后搭建测试平台,使用示波器、矢量信号源、任意波形/函数发生器、频谱仪等仪器,共同测试载板的功能。测试结果表明载板所有模块均工作正常,符合设计目标。
魏青松[9](2021)在《单目视觉惯性里程计的研究》文中提出随着电子定位导航的发展,越来越多的研究者力求找到一种稳定、精准的定位导航方式用于机器人、自动驾驶、飞行器、或AR、VR等行业。目前有许多解决方案,比如激光雷达、GPS等,但是他们存在一定的缺点,如成本太高或对地形、信号传输方式有一定要求。视觉惯性里程计(VIO)是一种用于对物体进行定位、导航多传感器融合的导航定位方式,它融合了摄像头实时图像数据和惯性传感器(IMU)数据,弥补了单一传感器误差大、实时性差等缺点,省去了激光雷达的成本,满足了定位导航所需的准确度。本课题提出了一种视觉惯性传感器系统,旨在使其轻松地部署在机器人、飞行器等需要定位导航的目标上,以使目标具备强大的即时定位与地图构建(SLAM)能力,并有助于降低研究SLAM相关算法的难度。通过一个摄像头与ARM+FPGA主控连接、以及一个IMU,提供高质量的陀螺仪和加速度计测量、校准,在硬件上与图像同步,从而达到单视觉SLAM系统难以实现的鲁棒性和准确性。除了原始数据外,系统还将提供使用FPGA预处理后的数据,如图像关键点检测、对比度增强等。能显着降低SLAM算法的计算复杂性,并使其可在资源受限的平台上使用,解决了目前大多视觉惯性里程计直接采用USB接口的独立模块造成算法计算量大、对PC/GPU硬件要求高、算法时间同步精度不高的问题,提供了一个通用性强、可编程性高、部署灵活的SLAM前端数据采集平台。本文着重分析了ZYNQ FPGA采集摄像头数据、ZYNQ ARM采集IMU数据、ZYNQ ARM无操作系统端读取图像数据出现断层问题、MT9V034摄像头Bayer数据格式、ZYNQ内部AXI_HP AXI_GP总线接口数据协议、ZYNQ芯片多核软硬件协同工作、FPGA端VDMA等IP核、ARM端(PS端)核间通信等;对从摄像头采集数据到Linux解算显示逐级传递详细过程进行剖析,以确保数据真实有效,实时同步,以便后续直接在ZYNQ Linux操作系统使用传感器融合算法处理。最后通过ZYNQ Linux编写系统驱动,使用USB高速接口连接上位机机器人操作系统(ROS)传输数据进行直观显示,实现多级联调以确保系统稳定可行。
朱重阳[10](2021)在《一种新的DRL算法的实现及硬件加速器研究》文中提出近年来随着人工智能AI(Artificial Intelligence,AI)领域不断发展创新,深度强化学习异军突起,在工业制造、金融学、心理学、医疗学、汽车自动驾驶等领域得到了广泛的应用。深度强化学习将深度学习与强化学习技术结合,经过近几年的迅猛发展,许多算法相继提出,如A3C(Asynchronous Adavantage Actor-Critic,A3C),TRPO(Trust Region Policy Optimization,TRPO),DDPG(Deep Deterministic Policy Gradient,DDPG),PPO(Proximal Policy Optimization,PPO)等。另一方面,深度强化学习算法研究周期长、研发费用大,在工程研发中往往是一个巨大的开销。硬件加速器能够显着减少算法研究时间,加速工业化应用落地,帮助工程师快速部署AI技术,从而在人工智能市场上迅速抢占先机。目前针对深度强化学习的主流的硬件加速器包括CPU-GPU的加速模式和CPU-FPGA的加速模式。其中CPU-GPU平台具有NVIDIA提供的CUDA(Compute Unified Device Architecture,CUDA)支持库优势,在Tensor Flow和Py Torch上具有良好的生态环境,对于工程师来说是一个优秀的加速研究框架。它具有并行计算能力强、频率快、内存大的优势,但同时由于GPU的能耗开销大,在较小平台或大型服务器搭建方面有不可避免的能耗劣势。另一方面FPGA作为一种可编程器件,具有并行计算能力优秀,低功耗,可配置,资源丰富的特点,是深度强化学习的优秀加速硬件设备。但是硬件编程开发周期长的缺点,限制了CPU-FPGA平台的发展速度。本课题提出了一种新的深度强化学习DRL(Deep Reinforcement Learning,DRL)算法:LDPPS(Logarithmic Decay Proximal Policy Scaler,LDPPS)算法,以及其变体DPPS(Decay Proximal Policy Scaler,DPPS)算法。这两种算法针对PPO策略收敛能力进行优化,能够在部分mujoco任务中达到比PPO更高的得分。另一方面利用CPU-GPU平台,在Tensor Flow下使用CUDA和cu DNN(CUDA(?)Deep Neural Network library,cu DNN)库对本课题算法进行加速器设计;针对硬件编程开发周期长的缺点,本课题将LDPPS算法中大型矩阵运算通过Vivado的HLS工具转换为硬件IP核,缩短CPU-FPGA加速器开发流程,实现在使用CPU-FPGA的PYNQZ1平台上加速。最终结果显示,DPPS算法在策略易收敛任务上与PPO算法的得分基本持平,在策略收敛难度高的任务上比PPO同比高10~30%的得分;CPU-GPU平台相比单CPU运行速度达到了3.732倍的加速;PYNQ平台在实现低能耗相比单CPU在IPS(Inference Per Second,IPS)指标上达到了7.46倍的加速。
二、赛灵思推出面向应用的FPGA架构(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、赛灵思推出面向应用的FPGA架构(论文提纲范文)
(1)面向嵌入式系统的实时传输与接口技术研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 嵌入式系统处理架构 |
1.2.2 嵌入式系统总线 |
1.3 本文研究内容 |
2 相关技术 |
2.1 FPGA及其资源简介 |
2.1.1 FPGA的基本结构 |
2.1.2 GTH收发器 |
2.2 相关协议 |
2.2.1 AMBA_AXI4协议 |
2.2.2 PCIe协议概述 |
2.3 DDR SDRAM简介 |
2.4 本章小结 |
3 面向实时处理的嵌入式整体架构 |
3.1 系统硬件架构 |
3.1.1 处理器单元 |
3.1.2 DDR大容量缓存 |
3.1.3 FMC数据源接口 |
3.1.4 系统扩展 |
3.2 整体功能与接口方案 |
3.2.1 整体功能 |
3.2.2 接口方案 |
3.3 数据传输方案 |
3.3.1 基于DMA的数据传输 |
3.3.2 实时流数据传输 |
3.3.3 高速数据流缓存 |
3.3.4 多类型数据组包上传 |
3.3.5 数据回放 |
3.4 本章小结 |
4 FPGA内部架构及接口实现 |
4.1 FPGA内部架构 |
4.1.1 IP integrator及 AXI互联核心 |
4.1.2 基于AXI的系统互联 |
4.1.3 时钟与带宽 |
4.2 PCIe接口 |
4.2.1 AXI Bridge for PCIe配置 |
4.2.2 PCIe地址映射 |
4.2.3 PCIe中断方案 |
4.2.4 MSI-X中断实现 |
4.3 DMA模块 |
4.3.1 DMA命令获取 |
4.3.2 DMA数据传输模块 |
4.3.3 DMA的软件复位 |
4.3.4 DMA仿真 |
4.4 DDR缓存模块 |
4.5 控制和状态寄存器 |
4.5.1 系统控制寄存器 |
4.5.2 算法寄存器 |
4.6 Aurora传输模块 |
4.7 本章小结 |
5 测试与验证 |
5.1 DDR缓存测试 |
5.2 DMA模块测试 |
5.3 PCIe接口测试 |
5.3.1 MSI-X中断测试 |
5.3.2 数据传输测试 |
5.4 Aurora传输测试 |
5.4.1 速度和正确性测试 |
5.4.2 流量控制测试 |
5.5 整体传输测试 |
5.5.1 测试平台 |
5.5.2 数据源生成和校验 |
5.5.3 实时流数据传输 |
5.5.4 高速数据流缓存 |
5.5.5 多数据类型组包上传 |
5.5.6 数据回放 |
5.6 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
(2)全高清视频压缩、存储与转发系统设计与实现(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 视频编码算法研究现状 |
1.2.2 视频编码存储产品研究现状 |
1.3 课题主要研究内容及论文结构 |
2 全高清视频压缩、存储与转发系统方案设计 |
2.1 系统指标分析 |
2.2 系统总体方案设计 |
2.3 关键技术分析 |
2.3.1 H.265 编码技术 |
2.3.2 以太网RGMII接口通信技术 |
2.3.3 大容量NAND FLASH管理技术 |
2.3.4 LVDS接口传输技术 |
2.4 本章小结 |
3 全高清视频压缩、存储与转发系统硬件电路设计 |
3.1 主控模块电路设计 |
3.1.1 Hi3516A视频编码模块介绍 |
3.1.2 FPGA主控模块电路设计 |
3.2 视频采集模块电路设计 |
3.3 视频存储模块电路设计 |
3.4 视频转发模块电路设计 |
3.5 电源管理模块电路设计 |
3.6 本章小结 |
4 全高清视频压缩、存储与转发系统软件设计 |
4.1 Hi3516A嵌入式视频编码压缩软件设计 |
4.1.1 Hi3516A开发环境搭建 |
4.1.2 视频编码控制模块 |
4.1.3 H.265 码流转发模块 |
4.2 RGMII接口逻辑设计 |
4.3 视频存储逻辑设计 |
4.3.1 FLASH异步接口基本时序 |
4.3.2 FLASH初始化控制 |
4.3.3 FLASH擦除和坏块管理 |
4.3.4 FLASH读写控制 |
4.4 视频转发逻辑设计 |
4.5 本章小结 |
5 系统功能测试与结果分析 |
5.1 测试平台搭建 |
5.2 视频压缩性能测试 |
5.2.1 视频码率及压缩比测试 |
5.2.2 视频质量测试 |
5.3 RGMII接口功能测试 |
5.4 视频存储和转发功能测试 |
5.4.1 FLASH读写测试 |
5.4.2 LVDS传输测试 |
5.5 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士期间的研究成果 |
致谢 |
(3)高计数率的TPC探测器读出电路研究与设计(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 探测器的基本分类及发展 |
1.1.1 固体探测器 |
1.1.2 液体探测器 |
1.1.3 气体探测器 |
1.2 TPC探测器发展及工作原理 |
1.3 TPC读出方式 |
1.3.1 MWPC读出 |
1.3.2 Micromegas读出 |
1.3.3 GEM读出 |
1.4 TPC探测器及其读出电子学发展现状 |
1.4.1 Alice-TPC探测器 |
1.4.2 STAR-TPC探测器 |
1.4.3 CEE-TPC探测器 |
1.4.4 小结 |
1.5 本文研究内容 |
第二章 TPC探测器信号读出方法 |
2.1 探测器输出信号的特点 |
2.1.1 探测器等效电路 |
2.1.2 探测器信号噪声 |
2.2 探测器信号读出方法 |
2.2.1 电荷测量技术 |
2.2.1.1 电荷-幅度转换测量 |
2.2.1.2 电荷-时间转换测量 |
2.2.1.3 波形数字化测量 |
2.2.2 基于分离式元件的实现方法 |
2.2.3 基于ASIC芯片的实现方法 |
2.3 可用于TPC读出的ASIC芯片 |
2.3.1 AGET芯片 |
2.3.2 PASA芯片+ALTRO芯片 |
2.3.3 SAMPA芯片 |
2.4 小结 |
第三章 高计数率的TPC读出电子学架构设计与硬件实现 |
3.1 读出电子学系统整体结构 |
3.2 输入耦合板 |
3.3 前端板 |
3.3.1 输入保护电路 |
3.3.2 电平匹配电路 |
3.3.3 SAMPA外围电路 |
3.3.4 电源模块 |
3.3.5 接口模块 |
3.4 数据处理板 |
3.4.1 FPGA选型 |
3.4.2 DDR3选型 |
3.4.3 复位及时钟网络 |
3.4.4 供电模块 |
3.5 时钟扇出板和触发扇出板 |
3.6 交换机及光纤网卡 |
3.7 小结 |
第四章 FPGA逻辑及上位机软件设计 |
4.1 软件整体架构 |
4.2 PL端逻辑设计 |
4.2.1 数据处理模块设计 |
4.2.2 指令控制模块设计 |
4.2.3 AXI接口模块设计 |
4.2.4 跨时钟域信号处理 |
4.3 PS端设计 |
4.3.1 数据传输策略 |
4.3.2 DMA传输及实现 |
4.3.3 LWIP协议及实现 |
4.4 上位机设计 |
4.4.1 慢控上位机实现 |
4.4.2 数控上位机实现 |
4.5 小结 |
第五章 电子学系统测试与验证 |
5.1 实验室性能测试 |
5.1.1 系统基线噪声测试 |
5.1.2 通道能量分辨测试 |
5.1.3 通道积分非线性测试 |
5.1.4 计数率测试 |
5.1.5 磁场环境测试 |
5.1.6 其他功能测试 |
5.2 联合探测器测试 |
5.3 小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(4)基于ZUC-256算法的图像加密系统设计及硬件实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 数字图像发展历程及现状 |
1.2.2 密码学发展历程及研究现状 |
1.2.3 FPGA发展历程及研究现状 |
1.3 本文的主要研究内容 |
1.4 本文的结构安排 |
第2章 图像加密系统理论及硬件介绍 |
2.1 数字图像加密模式介绍 |
2.2 ZUC-256 算法理论基础 |
2.2.1 ZUC-256 算法流程框架 |
2.2.2 LFSR线性反馈移位寄存器层 |
2.2.3 BR比特流重组层 |
2.2.4 F非线性函数层 |
2.2.5 初始化阶段 |
2.2.6 工作阶段 |
2.3 Arnold置乱算法理论基础 |
2.4 可编程门阵列FPGA |
2.4.1 FPGA建模步骤 |
2.4.2 FPGA芯片选型及资源情况 |
2.5 图像显示器件简介 |
2.5.1 TFT-LCD显示屏简介 |
2.5.2 TFT-LCD驱动及其显示原理 |
2.6 本章小节 |
第3章 基于ZUC-256 的图像加密系统硬件设计 |
3.1 图像加密系统框架及硬件设计 |
3.2 密钥传输模块设计 |
3.3 ZUC-256 模块设计及其优化 |
3.3.1 ZUC-256 模块的硬件架构 |
3.3.2 流管理模式与LFSR模块设计 |
3.3.3 关键路径优化 |
3.3.4 BR模块与NLF模块设计 |
3.3.5 密钥随机性测试 |
3.4 Arnold模块设计 |
3.5 加密模块与显示模块设计 |
3.5.1 加密模块设计 |
3.5.2 LCD显示模块设计 |
3.6 本章小节 |
第4章 图像加密系统测试及安全性分析 |
4.1 集成测试工具简介 |
4.2 系统的硬件实现及功能仿真 |
4.2.1 KEY模块硬件实现及功能验证 |
4.2.2 ZUC-256 模块的硬件实现及功能验证 |
4.2.3 ARNOLD模块硬件实现及功能验证 |
4.2.4 图像加密系统整体硬件实现 |
4.3 FPGA上板验证 |
4.4 图像加密效果安全性认证 |
4.4.1 密钥空间分析 |
4.4.2 信息熵 |
4.4.3 统计特性 |
4.4.4 密钥敏感性分析 |
4.5 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间取得学术成果 |
(5)基于Vitis的FPGA目标检测算法加速器设计(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外发展与研究现状 |
1.3 本文主要工作内容 |
1.4 本文结构安排 |
2 深度学习相关与FPGA技术相关 |
2.1 深度学习知识介绍 |
2.1.1 卷积神经网络的组成 |
2.1.2 深度残差网络 |
2.1.3 Res Net |
2.1.4 Mobile Net |
2.2 基于深度学习的目标检测算法Retina Net |
2.3 基于深度学习的Retinaface人脸检测算法 |
2.4 FPGA加速器概述与传统设计方法 |
2.5 Vitis统一软件平台 |
2.6 本章小结 |
3 DF-Retinaface目标检测方案设计 |
3.1 目标检测算法概述 |
3.2 基于DF-Retinaface的网络结构设计 |
3.2.1 卷积层结构分析与改进 |
3.2.2 激活函数简化设计 |
3.2.3 多任务损失函数 |
3.3 预处理增强 |
3.4 Anchor Box锚框简化设计 |
3.5 非极大值抑制 |
3.6 本章小结 |
4 定制化模型与FPGA硬件加速器设计 |
4.1 硬件加速平台ZCU102 开发板 |
4.2 基于Vitis环境的定制化模型 |
4.3 基础电路设计 |
4.4 DPU加速IP设计 |
4.5 预处理加速IP设计 |
4.6 Vitis硬件镜像构建 |
4.7 本章小结 |
5 软硬件协同实现与结果分析 |
5.1 实验环境 |
5.2 模型训练 |
5.3 Vitis环境下的定制模型量化实现 |
5.4 FPGA实现 |
5.5 实验结果对比分析 |
5.5.1 实验评价标准 |
5.5.2 实验结果分析 |
5.5.3 检测效果展示 |
5.5.4 与其他工作对比 |
5.6 本章小结 |
结论 |
参考文献 |
致谢 |
(6)基于农业物联网USB接口的FPGA边缘计算设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 农业物联网研究现状 |
1.2.2 FPGA技术发展及其应用现状 |
1.3 课题来源 |
1.4 论文主要研究内容与章节安排 |
1.4.1 主要研究目标和内容 |
1.4.2 本文章节安排 |
1.5 本章小结 |
第二章 相关开发平台及硬件设备 |
2.1 基于树莓派的采集节点 |
2.1.1 传感器简介 |
2.1.2 USB转换器简介 |
2.1.3 树莓派简介 |
2.2 基于FPGA的边缘计算节点 |
2.2.1 Xilinx Zynq-7000 系列简介 |
2.2.2 Zynq设计工具 |
2.3 本章小结 |
第三章 基于USB接口的驱动设计与实现 |
3.1 使用接口简介 |
3.1.1 I~2C接口 |
3.1.2 USB接口 |
3.2 I~2C驱动 |
3.2.1 I~2C驱动框架 |
3.2.2 主要结构体 |
3.3 USB驱动 |
3.3.1 USB驱动架构 |
3.3.2 USB驱动逻辑结构和传输方式 |
3.3.3 USB请求块 |
3.4 USB接口驱动的实现 |
3.4.1 I~2C接口驱动 |
3.4.2 USB接口驱动 |
3.5 传感器描述文件 |
3.6 驱动内核编译 |
3.7 本章小结 |
第四章 面向边缘计算的FPGA软硬件协同设计实现 |
4.1 边缘计算的FPGA实现方案 |
4.2 小波分解基础 |
4.2.1 小波变换发展 |
4.2.2 小波变换数学依据 |
4.2.3 几种常见的小波基函数 |
4.2.4 小波分解 |
4.3 边缘计算硬件模块设计 |
4.3.1 HLS简介 |
4.3.2 小波分解硬件IP实现 |
4.3.3 边缘计算硬件加速模块实现 |
4.4 系统软件设计 |
4.4.1 嵌入式开发环境的搭建 |
4.4.2 QTE开发环境的安装 |
4.5 本章小结 |
第五章 整体架构及系统实现 |
5.1 整体系统架构定义 |
5.2 PL与PS端交互设计 |
5.2.1 AXI总线 |
5.2.2 PL与 Linux系统的数据交互 |
5.3 数据传输及上位机实现 |
5.3.1 Socket数据传输 |
5.3.2 上位机环境的搭建与实现 |
5.4 整体系统的实现 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(7)Back-n实验装置上中子辐照单粒子效应信号采集系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 引言 |
1.1 中子诱发单粒子效应研究背景及意义 |
1.2 中子诱发单粒子效应机理 |
1.3 大气中子单粒子效应研究方法 |
1.3.1 计算机模拟仿真实验 |
1.3.2 激光脉冲模拟实验 |
1.3.3 地面辐射模拟实验 |
1.4 中国散裂中子源与Back-n中子束线 |
1.5 本文研究内容及结构安排 |
第2章 国内外单粒子效应研究现状 |
2.1 国内外单粒子效应检测方法研究现状 |
2.1.1 数据回读校对检测法 |
2.1.2 模拟信号检测法 |
2.2 国内外单粒子效应分析方法研究现状 |
2.2.1 单粒子效应截面计算 |
2.2.2 单粒子效应截面微分能谱分析 |
2.3 本章小结 |
第3章 中子辐照单粒子效应信号采集系统整体架构设计 |
3.1 需求分析 |
3.2 中子辐照单粒子效应信号采集系统整体架构 |
3.3 中子辐照单粒子效应信号采集系统硬件方案设计 |
3.3.1 电流检测模块设计方案 |
3.3.2 信号调理及采集模块设计方案 |
3.3.3 数据处理及测量模块设计方案 |
3.3.4 PXIe测试测量平台 |
3.4 中子辐照单粒子效应信号采集系统软件方案设计 |
3.4.1 机箱控制器嵌入式软件 |
3.4.2 上位机DAQ软件 |
第4章 中子辐照单粒子效应信号采集系统关键模块软硬件实现 |
4.1 电流检测模块硬件实现 |
4.1.1 跨阻放大器级电路 |
4.1.2 电压放大级电路 |
4.1.3 PCB设计中的一些关键点 |
4.2 信号调理及采集模块硬件实现 |
4.2.1 信号调理电路 |
4.2.2 ADC电路 |
4.2.3 时钟网络 |
4.2.4 电源系统 |
4.3 数据处理及测量模块硬件实现 |
4.3.1 FPGA电路 |
4.3.2 数据存储电路 |
4.3.3 时钟网络 |
4.3.4 电源系统 |
4.4 FPGA逻辑固件实现 |
4.4.1 ADC接口模块 |
4.4.2 数据触发及飞行时间测量模块 |
4.4.3 数据缓存与上传模块 |
4.4.4 芯片配置模块 |
4.5 中子辐照单粒子效应信号采集系统软件实现 |
4.5.1 机箱控制器软件实现 |
4.5.2 上位机DAQ软件实现 |
第5章 测试与验证 |
5.1 电流检测电路测试与验证 |
5.1.1 测试内容及方法 |
5.1.2 测试结果及分析 |
5.2 ADC性能测试 |
5.2.1 测试内容及方法 |
5.2.2 测试结果及分析 |
5.3 飞行时间测试与验证 |
5.3.1 测试内容及方法 |
5.3.2 测试结果及分析 |
5.4 单粒子效应信号采集系统整体性能测试与验证 |
5.4.1 实验室软硬件联合测试 |
5.4.2 基于Back-n实验装置的软硬件联合测试 |
5.5 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 |
致谢 |
在读期间发表的学术论文与取得的其他研究成果 |
(8)宽带多通道收发模块的AXIe载板设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状与发展趋势 |
1.3 主要研究内容 |
1.3.1 主要研究内容 |
1.3.2 创新点 |
1.4 论文章节安排 |
第二章 AXIe载板总体方案设计 |
2.1 AXIe机械特性 |
2.2 AXIe智能平台管理总线 |
2.2.1 IPMB总线时序分析 |
2.2.2 IPMI指令 |
2.2.3 电子键控机制 |
2.3 AXIe电源模块 |
2.4 载板总体方案设计 |
2.5 基于ZYNQ系统的IPMC方案设计 |
2.6 本章小结 |
第三章 硬件架构设计 |
3.1 智能平台管理控制器单元 |
3.2 高速数据接口单元 |
3.3 定时与触发单元 |
3.4 AXIe接口单元 |
3.4.1 PCIe接口信号设计 |
3.4.2 LAN接口信号设计 |
3.5 背板区域一和区域二电路设计 |
3.6 器件选型 |
3.7 载板PCB设计 |
3.7.1 PCB布局 |
3.7.2 PCB布线 |
3.8 本章小节 |
第四章 软件与逻辑设计 |
4.1 IPMC软件设计 |
4.1.1 实现目标和软件流程 |
4.1.2 IPMB通信软件设计 |
4.1.3 状态跳转模块设计 |
4.2 基于ZYNQ双核的逻辑设计 |
4.3 高速数据收发模块逻辑设计 |
4.3.1 基于PCIe链路和机箱通信 |
4.3.2 基于GTH链路和子模块通信 |
4.4 定时与触发模块逻辑设计 |
4.5 本章小结 |
第五章 载板功能测试与验证 |
5.1 测试平台搭建 |
5.2 IPMC模块测试与验证 |
5.2.1 IPMB总线通讯功能测试 |
5.2.2 IPMC通讯测试 |
5.3 定时与触发模块测试 |
5.4 高速数据收发模块测试 |
5.5 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
附录 |
(9)单目视觉惯性里程计的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及其意义 |
1.2 国内外研究现状 |
1.2.1 视觉SLAM的研究现状 |
1.2.2 视觉里程计研究现状 |
1.2.3 单目视觉惯性里程计的研究现状 |
1.3 本文研究主要内容 |
第2章 系统整体结构设计 |
2.1 系统硬件资源介绍 |
2.1.1 ZYNQ-7000系列可扩展平台介绍 |
2.1.2 系统搭建平台概述 |
2.2 系统开发平台介绍 |
2.2.1 Vivado Design Suite |
2.2.2 Xilinx Vitis统一软件平台 |
2.2.3 Petalinux工具 |
2.3 系统整体设计及工作流程 |
2.4 本章小结 |
第3章 FPGA数据采集模块系统设计 |
3.1 FPGA块设计 |
3.2 摄像头原始数据采集 |
3.2.1 摄像头采集传感器概述 |
3.2.2 摄像头数据采集设计 |
3.3 VDMA数据流传输设计 |
3.3.1 VDMA配置 |
3.3.2 帧缓存配置 |
3.3.3 同步锁相配置 |
3.4 联合调试分析 |
3.4.1 MT9V034采集模块调试 |
3.4.2 AXI4-Steram数据流时序分析 |
3.5 本章小结 |
第4章 无操作系统数据采集系统设计 |
4.1 摄像头数据采集配置 |
4.1.1 Vitis中设备初始化 |
4.1.2 摄像头寄存器配置 |
4.1.3 VDMA IP核重要寄存器 |
4.2 惯性传感器数据采集 |
4.2.1 惯性传感器模块概述 |
4.2.2 SPI通信方式简述 |
4.2.3 Zynq SPI控制器描述 |
4.2.4 惯性传感器数据采集流程 |
4.3 数据传输应用层设计 |
4.4 本章小结 |
第5章 Linux数据传输系统设计 |
5.1 Linux最小系统构建 |
5.1.1 Zynq中的Boot Rom和 FSBL |
5.1.2 U-Boot引导 |
5.1.3 Kernel内核配置 |
5.1.4 Petalinux Rootfs文件系统 |
5.2 Zynq Linux通信节点设计 |
5.2.1 ROS简述 |
5.2.2 ROS相关组件介绍 |
5.2.3 Zynq Linux与 ROS通信设计 |
5.3 系统实物与数据分析 |
5.4 本章小结 |
结论 |
参考文献 |
致谢 |
(10)一种新的DRL算法的实现及硬件加速器研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题背景以及研究意义 |
1.2 国内外发展动态和发展趋势 |
1.3 论文的主要工作及贡献 |
1.4 论文的主要内容和结构 |
第二章 强化学习与神经网络知识 |
2.1 强化学习基础理论 |
2.1.1 强化学习的特点 |
2.1.2 强化学习的模型与原理 |
2.1.3 马尔科夫决策过程 |
2.1.4 深度强化学习的3 种一般方法 |
2.1.4.1 动态规划法DP |
2.1.4.2 蒙特卡洛法MC |
2.1.4.3 时序差分法TD |
2.2 深度学习与神经网络基础理论 |
2.2.1 一般神经网络模型 |
2.2.1.1 传统神经网络模型 |
2.2.1.2 神经元模型 |
2.2.1.3 神经网络结构 |
2.2.2 深度神经网络 |
2.2.3 深度强化学习模型 |
2.2.4 深度神经网络公式推导 |
2.2.4.1 推理阶段推导 |
2.2.4.2 反向传播阶段的推导 |
2.3 深度强化学习算法 |
2.3.1 基于价值函数的dqn算法 |
2.3.2 策略梯度法VPG算法 |
2.3.3 值函数与策略函数结合的AC算法与A3C算法 |
2.3.4 基于策略梯度的TRPO和 PPO算法 |
2.4 本章小结 |
第三章 GPU与 PYNQ介绍 |
3.1 硬件平台基础介绍 |
3.1.1 GPU基本介绍 |
3.1.2 PYNQ平台基本介绍 |
3.2 硬件加速 |
3.2.1 使用GPU硬件加速 |
3.2.2 PYNQ硬件加速 |
3.3 加速方式 |
3.3.1 在CPU-GPU上的硬件加速介绍 |
3.3.2 PYNQ平台硬件加速介绍 |
3.3.2.1 基于AXI通信协议的加速 |
3.3.2.2 Vivado HLS介绍 |
3.4 本章小结 |
第四章 LDPPS算法与加速方案设计 |
4.1 LDPPS算法设计 |
4.1.1 LDPPS算法分析 |
4.1.2 LDPPS损失函数 |
4.1.3 LDPPS网络结构 |
4.1.4 LDPPS算法流 |
4.2 LDPPS在 GPU硬件上加速方案设计 |
4.2.1 CPU-GPU推理架构 |
4.2.2 CPU-GPU训练架构 |
4.2.3 CPU-GPU总体架构 |
4.3 LDPPS在 PYNQ平台上的设计 |
4.3.1 PYNQ推理过程 |
4.3.2 PYNQ训练过程 |
4.3.3 PYNQ总体架构 |
4.4 本章小结 |
第五章 LDPPS算法加速的硬件实现及验证 |
5.1 LDPPS算法的实验数据及优化方案 |
5.1.1 LDPPS算法非对数的3 种不同模式 |
5.1.2 2 种模式的实验数据及最优方案 |
5.1.2.1 Gym介绍 |
5.1.2.2 Mujoco介绍 |
5.1.2.3 LDPPS的2 种不同模式的结果对比 |
5.1.3 LDPPS最佳方案与PPO算法对比 |
5.2 基于LDPPS算法的GPU加速方案 |
5.2.1 基于tensorflow-gpu的软件环境搭建 |
5.2.1.1 ubuntu系统 |
5.2.1.2 环境对象搭建 |
5.2.2 对LDPPS使用CUDA和 MPI的 Tensor Flow加速方法 |
5.2.2.1 Tensor Flow-gpu的使用 |
5.2.3 GPU加速实验效果展示 |
5.3 基于LDPPS算法的PYNQ加速方案 |
5.3.1 软件环境搭建 |
5.3.1.1 隐含状态网络IP搭建 |
5.3.1.2 动作网络IP搭建 |
5.3.1.3 价值函数网络IP搭建 |
5.3.1.4 训练网络IP搭建 |
5.3.1.5 生成IP的硬件Overlay |
5.3.2 硬件环境搭建和算法编写 |
5.3.2.1 硬件搭建 |
5.3.2.2 算法编写与实现 |
5.3.3 PYNQ加速实验展示 |
5.4 实验结果讨论分析 |
5.4.1 LDPPS算法与PPO算法的训练得分对比 |
5.4.2 CPU-GPU 平台相对CPU 平台的加速对比 |
5.4.3 PYNQ平台相对CPU平台的加速对比 |
5.5 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
四、赛灵思推出面向应用的FPGA架构(论文参考文献)
- [1]面向嵌入式系统的实时传输与接口技术研究[D]. 廖张梦. 浙江大学, 2021(01)
- [2]全高清视频压缩、存储与转发系统设计与实现[D]. 马军. 中北大学, 2021(09)
- [3]高计数率的TPC探测器读出电路研究与设计[D]. 孙志朋. 中国科学院大学(中国科学院近代物理研究所), 2021(01)
- [4]基于ZUC-256算法的图像加密系统设计及硬件实现[D]. 宋健. 黑龙江大学, 2021(09)
- [5]基于Vitis的FPGA目标检测算法加速器设计[D]. 李景欣. 大连理工大学, 2021(01)
- [6]基于农业物联网USB接口的FPGA边缘计算设计与实现[D]. 刘靖. 内蒙古大学, 2021(12)
- [7]Back-n实验装置上中子辐照单粒子效应信号采集系统研究[D]. 刘朝亮. 中国科学技术大学, 2021(08)
- [8]宽带多通道收发模块的AXIe载板设计与实现[D]. 安兆远. 电子科技大学, 2021(01)
- [9]单目视觉惯性里程计的研究[D]. 魏青松. 北华航天工业学院, 2021(06)
- [10]一种新的DRL算法的实现及硬件加速器研究[D]. 朱重阳. 电子科技大学, 2021(01)