雷达信号处理实现，选择FPGA还是GPU?

FPGA和CPU一直是雷达信号处理不可分割的组成部分。传统上FPGA用于前端处理，CPU用于后端处理。随着雷达系统的处理能力越来越强，越来越复杂，对信息处理的需求也急剧增长。

为此，FPGA不断在提高处理能力和吞吐量，CPU也在发展以满足下一代雷达的信号处理性能需求。这种努力发展的趋势导致越来越多的使用CPU加速器，如图形处理单元(GPU)等，以支持较重的处理负载。

最近几年，GPU已经不仅能完成图形处理功能，而且成为强大的浮点处理平台，被称之为GP-GPU，具有很高的峰值FLOP指标。FPGA传统上用于定点数字信号处理器，而现在足以竞争完成浮点处理功能，也成为后端雷达处理加速功能的有力竞争者。

GPU和FPGA设计方法

GPU可以通过使用Nvidia专用CUDA语言或开放标准OpenCL语言来编程。这些语言在能力上非常相似，最大的不同在于CUDA只能用在Nvidia GPU上。

FPGA通常使用HDL语言Verilog或VHDL进行编程。这些语言的最新版虽然采用了浮点数定义，但都不太适合支持浮点设计。例如，在SystemVerilog中，短实数变量对应于IEEE单精度（浮点），实数变量对应于IEEE双精度。

峰值GFLOPS指标

目前的FPGA性能可达到1 TFLOP以上峰值，AMD和Nvidia最新的GPU甚至更高，接近4 TFLOP。但在某些应用中，峰值GFLOP，即TFLOP，它只表示了每秒能完成的理论浮点加法或乘法总数。这一分析表示，在雷达应用中，很多情况下，FPGA在算法和数据规模上超过了GPU吞吐量。

一种中等复杂且常用的算法是快速傅里叶变换(FFT)。大部分雷达系统由于在频域完成大量处理工作，因此会经常用到FFT算法。例如，使用单精度浮点处理实现一个4096点FFT。

当FFT长度达到几十万个点时，GPU效率会比较高，能够为CPU提供有效的加速功能。但是，雷达处理应用一般是长度较短的FFT，FFT长度通常在512至8192之间。

总之，实际的GFLOP一般只达到峰值或者理论GFLOP的一小部分。出于这一原因，更好的方法是采用算法来对比性能，这种算法能够合理的表示典型应用的特性。随着基准测试算法复杂度的提高，其更能代表实际雷达系统性能。

算法基准测试

相比依靠供应商的峰值GFLOP指标来驱动处理技术决策，另一方法是使用比较复杂的第三方评估。空时自适应处理(STAP)雷达常用的算法是Cholesky分解。这一算法经常用于线性代数，高效的解出多个方程，可以用在相关矩阵上。

Cholesky算法在数值上非常复杂，要获得合理的结果总是要求浮点数值表示。计算需求与N3成正比，N是矩阵维度，因此，一般对处理要求很高。雷达系统一般是实时工作，因此，要求有较高的吞吐量。结果取决于矩阵大小以及所要求的矩阵处理吞吐量，通常会超过100 GFLOP。

FPGA看起来更适合解决数据规模较小的问题，很多雷达系统都是这种情况。GPU之所以效率低，是因为计算负载随N3而增大，数据I/O随N2增大，最终，随着数据的增加，GPU的I/O瓶颈不再是问题。

此外，随着矩阵规模的增大，由于每个矩阵的处理量增大，矩阵每秒吞吐量会大幅度下降。在某些点，吞吐量变得非常低，以至于无法满足雷达系统的实时要求。

对于FFT，计算负载增加至Nlog2N，而数据I/O随N增大而增大。对于规模较大的数据，GPU是高效的计算引擎。

作为对比，对于所有规模的数据，FPGA都是高效的计算引擎，更适合大部分雷达应用，这些应用中，FFT长度适中，但是吞吐量很大。

文章来源网络，仅供参考。

原文始发于微信公众号（雷达通信电子战）

雷达信号处理实现，选择FPGA还是GPU? 留言