0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPGA基础之HLS

FPGA设计william hill官网 来源:未知 2022-12-02 12:30 次阅读

1、HLS简介

HLS(High-Level Synthesis)高层综合,就是将 C/C++的功能用 RTL 来实现,将 FPGA 的组件在一个软件环境中来开发,这个模块的功能验证在软件环境中来实现,无缝的将硬件仿真环境集合在一起,使用软件为中心的工具、报告以及优化设计,很容易的在 FPGA 传统的设计工具中生成 IP。

传统的 FPGA 开发,首先写 HDL 代码,然后做行为仿真,最后做综合、时序分析等,最后生成可执行文件下载到 FPGA 使用,开发周期比较漫长。

使用 HLS,用高级语言开发可以提高效率。

因为在软件中调试比硬件快很多,在软件中可以很容易的实现指定的功能,而且做 RTL仿真比软件需要的时间多上千倍。

HLS使用模式

2.我们为什么需要高层次综合

高层次综合(High-level Synthesis)简称 HLS,指的是将高层次语言描述的逻辑结构,自动转换成低抽象级语言描述的威廉希尔官方网站 模型的过程。所谓的高层次语言,包括 C、C++、SystemC等,通常有着较高的抽象度,并且往往不具有时钟或时序的概念。相比之下,诸如Verilog、VHDL、SystemVerilog 等低层次语言,通常用来描述时钟周期精确(cycle-accurate)的寄存器传输级威廉希尔官方网站 模型,这也是当前ASICFPGA设计最为普遍使用的威廉希尔官方网站 建模和描述方法。

然而,HLS 技术在近十年来获得了大量的关注和飞速的发展,尤其是在 FPGA 领域。纵观近年来各大 FPGA 学术会议,HLS 一直是学术界和工业界研究最集中的领域之一。究其原因,主要有以下几点。

第一,使用更高的抽象层次对威廉希尔官方网站 建模,是集成威廉希尔官方网站 设计发展的必然选择。集成威廉希尔官方网站 伴随摩尔定律发展至今,其复杂性已经逐渐超过人类可以手工管理的范畴。例如,苹果 iPhone11 内置的 A13 芯片,就有着约 85 亿支晶体管


然而,根据 NEC 2004 年发布的研究,一个拥有 100 万逻辑门的芯片设计通常需要编写 30 万行 RTL 代码。因此,完全使用 RTL 级的逻辑抽象设计当代芯片是不现实的,并将对设计、验证、集成等各个环节造成巨大的压力。

相比之下,使用诸如 C、C++等高层语言对系统建模,可以将代码密度压缩 7 到 10 倍,这极大的缓解了设计复杂度。

第二,高层语言能促进 IP 重用的效率。传统的基于 RTL 的 IP 往往需要定义固定的架构和接口标准,在 IP 重用时需要花费大量时间进行系统互联和接口验证。相比之下,高层语言隐藏了这些要求,转而由 HLS 工具负责具体实现。

对于 FPGA 而言,现代 FPGA 里有着大量成熟的 IP 单元,如嵌入式存储器、算术运算单元、嵌入式处理器,以及最近逐渐兴起的AI加速器、片上网络系统等等。这些 FPGA IP 有着固定的功能和位置,因此可以被 HLS 工具充分利用,在提升 IP 重用效率的同时,简化综合算法、提高综合后威廉希尔官方网站 的性能。

第三,HLS 能帮助软件和算法工程师参与、甚至主导芯片或 FPGA 设计。这是由于 HLS 工具能封装和隐藏硬件的实现细节,从而使软件和工程师能专注于上层算法的实现。对于硬件工程师而言,HLS 也能帮助他们进行快速的设计迭代,并专注于对性能、面积或功耗敏感的模块和子系统的优化设计。

3、HLS相关知识概念

HLS是高层综合(High level Synthesis),是将C或者c++语言编译为FPGA能够读懂和运行的RTL级别的语言。


HLS包含下面这些阶段


  • scheduling:确定每个时钟周期中执行哪些步骤

  • Binding:确定哪些硬件资源会被用到

  • 控制逻辑提取:提取控制逻辑,创建一个有限状态机(FSM:Finite state machine)来进行RTL的设计。

  • HLS需要对相应的c代码进行下面的综合

  • Area:用到的LUT,寄存器,BRAM和DSP48的数量

  • 时延:函数算出所有输出用的时钟周期

  • II(Initiation interval):函数可以接受新的输入数据需要的时钟周期

  • 循环迭代时延:运行一次循环需要的时钟周期

  • 循环间隔时延:新运行一次循环需要的时钟周期

  • 循环时延:运行循环需要的所有时钟周期

  • vivado HLS需要进行的步骤

  • 编译、执行(仿真)、调试相应的c语言代码

  • 把c算法综合为RTL实现,在这个过程中可以使用优化指令

  • 生成综合分析报告并分析设计

  • 验证RTL的实现

  • 打包RTL进入IP块

  • vivado HLS软件需要的输入信息

  • c函数用c/c++、SystemC、OpenCL API或者C kernel写成

  • Constrains:资源限制,例如时钟周期、时钟不确定性、与FPGA目标板

  • Directives:可选的过程,来实现特定的优化

  • c测试台(c test bench)与相关文档

  • HLS用c测试台来仿真c代码并且验证相应用c/RTL联合仿真得到的RTL输出

  • vivado HLS软件输出的信息

  • RTL实现文件,用HDL(hardware description language)语言写成,这是最重要的输出,有两种模式,VHDL语言和Verilog语言。这种实现文件会被作为IP块,并且可以被其他xilinx的设计工具所使用。

  • 报告文档:综合、c/RTL协同仿真、IP封装的输出结果。

  • Synthesis,optimization,analysis

  • 创建工程,初始solution

  • 验证相应的c没有错误

  • 运行synthesis获得一系列结果

  • 分析结果

  • 在HLS中有下面这些优化方法

  • pipeline,在上个进程运行结束前开始下个进程

  • 给函数、循环、区域指定时延

  • 针对具体的操作指令同时运行

  • 选择相应的I/O协议确保硬件可以与其他的设施相连接

4、HLS属于研究重点原因

高层次综合(High-level Synthesis)简称 HLS,指的是将高层次语言描述的逻辑结构,自动转换成低抽象级语言描述的威廉希尔官方网站 模型的过程。所谓的高层次语言,包括 C、C++、SystemC 等,通常有着较高的抽象度,并且往往不具有时钟或时序的概念。相比之下,诸如 Verilog、VHDL、SystemVerilog 等低层次语言,通常用来描述时钟周期精确(cycle-accurate)的寄存器传输级威廉希尔官方网站 模型,这也是当前 ASIC 或 FPGA 设计最为普遍使用的威廉希尔官方网站 建模和描述方法。


使用更高的抽象层次对威廉希尔官方网站 建模,是集成威廉希尔官方网站 设计发展的必然选择;

高层语言能促进 IP 重用的效率;

HLS 能帮助软件和算法工程师参与、甚至主导芯片或 FPGA 设计。

二、HLS技术认识


1、与VHDL/Verilog关系

在 FPGA 硬件开发上,VHDL/Verilog 与 HLS 相比,就好比是几十年前的汇编语言与现在的 C 语言。RTL(寄存器传输级别,基于 VHDL/Verilog 语言)逐步发展,但 VLSI 系统的复杂性呈指数级增长,使 RTL 设计和验证过程成为生产力的瓶颈。

HLS(高级综合)通过提高抽象级别, 可以减少最初的设计工作量,设计人员可以集中精力描述系统的行为,而不必花费时间来实现微体系结构的细节,且验证被加速、设计空间探索(DSE)更快、定位新平台非常简单、软件工程师可以访问 HLS 等这些好处加在一起,减少了设计和验证时间,降低了开发成本,并降低了进行硬件项目的门槛,因此缩短了产品上市时间,并且在异构系统上使用硬件加速已成为更具吸引力的选择。但是在结果质量(QoR)上,HLS 工具还落后于 RTL,但 HLS 的开发时间少、生产率高这些优点还是当前用于快速原型设计和较短上市时间的可行选择。


2、关键技术问题

字长分析和优化

FPGA 的一个最主要特点就是可以使用任意字长的数据通路和运算。因此,FPGA 的 HLS 工具不需要拘泥于某种固定长度(如常见的 32 位或 64 位)的表达方式,而可以对设计进行全局或局部的字长优化,从而达到性能提升和面积缩减的双重效果。

循环优化

循环优化一直是 HLS 优化方法的研究重点和热点,因为这是将原本顺序执行的高层软件循环有效映射到并行执行的硬件架构的重点环节。

一个流行的循环优化方法,就是所谓的多面体模型,即 Polyhedral Model。多面体模型的应用非常广泛,在 HLS 里主要被用来将循环语句以空间多面体表示,然后根据边界约束和依赖关系,通过几何操作进行语句调度,从而实现循环的变换。需要指出的是,多面体模型在 FPGA HLS 里已经取得了相当的成功,很多研究均证明多面体模型可以帮助实现性能和面积的优化,同时也能帮助提升 FPGA 片上内存的使用效率。

对软件并行性的支持

C/C++与 RTL 相比,一个主要的区别是,前者编写的程序被设计用来在处理器上顺序执行,而后者可以通过直接例化多个运算单元,实现任务的并行处理。

随着处理器对并行性的逐步支持,以及如 GPU 等非处理器芯片的兴起,C/C++ 开始逐渐引入对并行性的支持。例如,出现了 pthreads 和 OpenMP 等多线程并行编程方法,以及 OpenCL 等针对 GPU 等异构系统进行并行编程的 C 语言扩展。

因此作为 HLS 工具,势必要增加对这些软件并行性的支持。例如,LegUp 就整合了度 pthreads 和 OpenMP 的支持,从而可以实现任务和数据层面的并行性。


3、存在的技术局限性

字长分析和优化需要 HLS 的使用者对待综合的算法和数据集有深入的了解,这也是限制这种优化方式广泛使用的主要因素之一。

HLS 工具的结果质量(QoR)往往落后于手动寄存器传输级别(RTL)流程的质量。

在性能和执行时间上,HLS 设计的平均水平明显较差,但在延迟和最大频率方面,与 RTL 差异不那么明显,且 HLS 方法还会浪费基本资源,平均而言,HLS 使用的基本 FPGA 资源比 RTL 多 41%,在以千位为单位的 BRAM 使用情况的论文中,RTL 更胜一筹。






精彩推荐



至芯科技12年不忘初心、再度起航11月12日北京中心FPGA工程师就业班开课、线上线下多维教学、欢迎咨询!
FPGA vs ASIC
FPGA学习-边沿检测技术
扫码加微信邀请您加入FPGA学习交流群




欢迎加入至芯科技FPGA微信学习交流群,这里有一群优秀的FPGA工程师、学生、老师、这里FPGA技术交流学习氛围浓厚、相互分享、相互帮助、叫上小伙伴一起加入吧!


点个在看你最好看





原文标题:FPGA基础之HLS

文章出处:【微信公众号:FPGA设计william hill官网 】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1629

    文章

    21736

    浏览量

    603251

原文标题:FPGA基础之HLS

文章出处:【微信号:gh_9d70b445f494,微信公众号:FPGA设计william hill官网 】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于FPGA实现图像直方图设计

    简单,单采用FPGA来实现直方图的统计就稍显麻烦。若使用Xilinx和Altera的FPGA芯片,可以使用HLS来进行图像的加速处理。但这暂时不是我的重点。 用C语言实现直方图统计:unsigned
    的头像 发表于 12-24 10:24 79次阅读
    基于<b class='flag-5'>FPGA</b>实现图像直方图设计

    助力AIoT应用:在米尔FPGA开发板上实现Tiny YOLO V4

    Darknet 上训练的截图 四、 通过 Vivado HLSFPGA 准备模型要将模型部署到 FPGA,需要将神经网络操作转换为硬件级描述。使用 Xilinx 的 Vitis HLS
    发表于 12-06 17:18

    优化 FPGA HLS 设计

    优化 FPGA HLS 设计 用工具用 C 生成 RTL 的代码基本不可读。以下是如何在不更改任何 RTL 的情况下提高设计性能。 介绍 高级设计能够以简洁的方式捕获设计,从而
    发表于 08-16 19:56

    如何在服务器上调试本地FPGA板卡

    本地PC通过JTAG连接 FPGA 板卡,然后启动硬件服务器(启动 Vivado Tcl Shell 或 Vivado HLS 命令提示符,输入“hw server”并按 Enter 键)。这将在本地
    发表于 07-31 17:36

    一种在HLS中插入HDL代码的方式

    很多人都比较反感用C/C++开发(HLSFPGA,大家第一拒绝的理由就是耗费资源太多。但是HLS也有自己的优点,除了快速构建算法外,还有一个就是接口的生成,尤其对于AXI类接口,按照标准语法就可以很方便地生成相关接口。
    的头像 发表于 07-16 18:01 737次阅读
    一种在<b class='flag-5'>HLS</b>中插入HDL代码的方式

    FPGA设计经验图像处理

    今天和大侠简单聊一聊基于FPGA的图像处理,之前也和各位大侠聊过相关的图像处理,这里面也超链接了几篇,具体如下: 图像边缘检测算法体验步骤(Photoshop,Matlab)算法
    发表于 06-12 16:26

    # FPGA 编程如何工作?

    目标,Python 使用PYNQ,这是一个开源项目,可以轻松地与 AMD 平台配合使用。 =#5。= C 和 C++ 由于具有高级综合 (HLS) 功能,基于 C 的语言非常适合 FPGA 设计。 AMD
    发表于 03-30 11:50

    品读《基于FPGA与RISC-V的嵌入式系统设计》

    2.4 FPGA 开发中硬件设计语言的选择 2.4.1 VHDL与 System Verilog/Verilog 2.4.2 HLS 2.4.3 System C 2.4.4 Chisel
    发表于 03-29 00:06

    为何高端FPGA都非常重视软件

    和Achronix在其设备架构中都采取了一些新颖的架构步骤,以帮助实现当今大型复杂设计的时序收敛。 但是,赛灵思在FPGA领域也领导了高级综合(HLS)领域,而且Vivado HLS是(迄今为止,我们相信
    发表于 03-23 16:48

    FPGA软件测试面临哪些挑战?

    FPGA软件包含进行设计而产生的程序、文档和数据,同时包含与相关的软件特性和硬件特性。FPGA软件测试需要考虑软件代码正确性、软硬件接口协调性、时序性等方面的全面覆盖。
    发表于 03-20 12:23 1181次阅读

    为什么对FPGA软件进行测评?

    FPGA软件包含进行设计而产生的程序、文档和数据,同时包含与相关的软件特性和硬件特性。FPGA软件测试需要考虑软件代码正确性、软硬件接口协调性、时序性等方面的全面覆盖。
    发表于 03-06 11:39 734次阅读

    如何优化HLS仿真脚本运行时间

    需求:由于自己目前一个 HLS 仿真脚本需要运行 1个多小时,先打算通过打印时间戳的方式找出最耗时的部分,然后想办法优化。
    的头像 发表于 02-23 09:29 695次阅读

    FPGA系列“速度等级”选型介绍

    大家在进行FPGA选型时都会看见一个参数:Speed Grade,这就是芯片的速度等级。
    的头像 发表于 01-08 09:20 3239次阅读
    <b class='flag-5'>FPGA</b>系列<b class='flag-5'>之</b>“速度等级”选型介绍

    FPGA图像处理CLAHE算法

    FPGA图像处理--CLAHE算法(一)中介绍了为啥要用CLAHE算法来做图像增强。
    的头像 发表于 01-04 12:23 2533次阅读
    <b class='flag-5'>FPGA</b>图像处理<b class='flag-5'>之</b>CLAHE算法

    AMD-Xilinx的Vitis-HLS编译指示小结

    。流水线设计的具体内容在我看到的这篇博客【FPGA中流水线的原因和方法】中讲的很明白,这里不再赘述。 在HLS中,pipeline指令单指函数内部的流水,举一个简单的例子: void func(int m
    发表于 12-31 21:20