多核处理器会取代FPGA吗？

灰化肥发挥 2017-02-11 1048

FPGA/ASIC技术

206人已加入

描述

有人认为诸如图形处理器（GPU）和Tilera处理器等多核处理器在某些应用中正逐步替代现场可编程门陈列（FPGA）。理由是这些多核处理器的处理性能要高很多，例如，由于GPU起初主要负责图形绘制，因此，其尤其善于处理单精度（SP）及（某种情况下）双精度（DP）浮点（FP）运算。Tilera的TILE设备当前不支持硬件FP运算，但要求进行软件模拟，且性能代价高昂。一般而言，FPGA亦是如此，设备通过利用多种资源来处理FP运算问题。达到可接受性能要求IP区块需消耗多个门并要求深流水线技术。例如：当前Tesla级GPU每秒最高可执行1012次浮点运算或1TFLOPS，而Xilinx Virtex-6设备则为150 GFLOPS。

当考虑到定点运算时，情况有所不同。新一代GPU在浮点速率相同的情况下可执行整数运算，例如：当Virtex-6设备提高至500GOPS时，GPU每秒可执行1012次运算或1TOPS。整数性能是TILE处理器的优势所在：8位数据时，TILE-Gx(图1)最高执行能力为750GOPS，32位数据时为188GOPS。

FPGA能够利用其并行及适应多种算法的特性来获得更加接近理论最大值的性能。但是，FPGA需要更大的硅片空间和更长的开发时间来接近这些理论最大值。对于适应于GPU硬件并行模式的算法，GPU已经能够达到峰值的20~30%。它们同样具有合理的硅密度（40nm工艺，32nm研发中）和开发时间（通常只有数周，而FPGA则需几个月）。TILEPro64处理器可提供FPGA相类似的适应性和GPU相类似的可编程性，但是，由于其粗糙的任务级问题分解特点使得其无法像FPGA和GPU那样实现细粒度并行。

gpu

图1：8位数据时，Tilera的TILE-Gx处理器最高执行能力为750GOPS

内存带宽在评估处理器性能方面同等重要，GPU能够提供3倍于FPGA、6倍于TILEPro64的优势。但是，必须指明，该带宽须以下列条件为基础：出现的大延迟须通过交叉处理进行控制，应在最佳访问模式中通过整合实现接合访问。有了FPGA，开发人员需要充分考虑内存位置。新一代GPU和TILEPro64处理器具有传统的缓存分布，能够帮助优化内存位置并减少开发时间。

延迟

也许能够排除使用GPGPU的最可能因素便是延迟。例如：调用内核所需时间及主存储器较长访问时间均可引起长延迟。许多情况下，这种延迟可能会稍有缓解但是无法完全避免。因此首选应为大数据集处理，原因在于，其为大量运算，换言之，其具备较高的计算强度。在需要满足严格延迟要求的环境下（例如闭回路控制），FPGA为首选。TILE处理器具有良好的延迟。

打开APP阅读更多精彩内容