近年来,随着大模型(如GPT、LLaMA、DeepSeek等)的广泛应用,其推理阶段的算力需求与能效问题日益凸显。传统GPU方案虽能提供高吞吐量,但在功耗、实时性及成本上面临挑战,而FPGA凭借其可定制化架构、低延迟确定性及高能效比,成为大模型推理部署的重要替代方案。综述了大模型的网络结构,大模型在FPGA上的推理实现技术涵盖硬件架构适配、算法-硬件协同优化及系统级挑战三大方向。在硬件层面,重点探讨了计算单元设计及存储层次优化策略;在算法层面,分析了模型压缩、动态量化及编译器优化等关键技术;在系统层面,讨论了多FPGA扩展、热管理及新兴存算一体架构等挑战。此外,总结了当前FPGA推理生态的局限性(如工具链成熟度不足)并展望了未来趋势,包括Chiplet异构集成、光子计算融合及标准化评测体系的建立。研究结果表明,FPGA的架构弹性使其在大模型高效推理领域具备独特优势,但仍需跨学科协作以推动技术落地。
与定制设计芯片相比,现场可编程门阵列(FPGA)支持硬件灵活重构,具有设计周期短和开发成本低等优势,广泛应用于通信、数据中心、人工智能、雷达和航空航天等领域。FPGA架构的设计目标是制造出高度可编程的FPGA芯片,同时最小化可重构性带来的面积和性能成本。随着应用需求和工艺技术能力的不断演变,正在迎来 FPGA 架构设计的新阶段。简述FPGA基本架构与FPGA架构评估,梳理新型FPGA架构和电路设计技术最新进展,探讨新型FPGA架构和电路设计的技术挑战和发展趋势。
随着信息技术和人工智能的快速发展,物联网终端设备的功能愈加复杂,因其硬件资源受限,导致系统安全面临严重威胁。鉴于此,利用采样寄存器的时序违例行为特性,结合FPGA中DSP IP核内部组合逻辑延迟特征,提出一种基于DSP IP核的双模态可配置软PUF设计方案。首先,分析Xilinx Artix-7 FPGA中的DSP IP核内部结构,根据其组合逻辑延时信息和时序约束,确定正常传输数据的时钟周期范围。然后,根据激励位数需求配置两种不同运算模式,分别施加超频时钟,使采样寄存器在发生时序违例后产生异常运算结果。最后,通过哈希算法和奇偶校验将不同位数的异常数据压缩为1位PUF响应。该方案无需额外设计偏差提取电路,可在不改变硬件结构的条件下灵活配置两种不同激励位数的软PUF实现方式。测试结果表明,两种运算模式的可靠性均超过98%,具备良好的唯一性及抗机器学习攻击能力,验证了其在安全性与实用性方面的可行性与优势。
新型电力系统实时仿真对CPU-FPGA异构与多FPGA分布式计算提出了更高要求,通信效率将成为瓶颈问题之一。面对千兆以太网带宽与实时性短板逐渐凸显的现状,提出了一种基于FPGA的万兆以太网高带宽低延迟接口的轻量化设计。物理层基于高速收发器构建,实现低延迟与高可靠性。UDP协议栈采用交替缓存与优先级队列机制,提高数据吞吐并均衡瞬时负载。板级测试结果表明,该设计硬件资源占用率低,最大传输带宽可达9.70 Gb/s,平均传输延迟为0.45 μs,各协议层交互稳定无冲突,为电力系统仿真等应用提供了高效的底层通信支持。
针对目前FPGA配置比特流解密认证资源开销大、效率低等问题,基于有限域GF(232)乘法运算提出了GMAC_GF32认证算法,并结合CTR模式的AES加密运算设计并实现了一种高效、高安全的FPGA配置比特流解密认证方法。该方法采用四级流水线设计实现AES256_CTR解密模块电路,使得每次解密时间与传输128位数据时间相匹配,最大化提高了FPGA解密的吞吐率,另外,每级流水线运算通过采用4个S-Box并行运算能够提高能量侧信道安全性。认证模块电路通过有限域GF(232)运算将现有验证码改进为32位,能够有效降低串行计算验证码的效率,提高时钟利用率,并且通过在认证模块电路引入内置多项式函数能够提高验证码的安全性,防止攻击码流的载入。基于FPGA原型验证板的实验验证结果表明,采用的流水线解密方式提升AES256_CTR算法的解密效率,将解密过程压缩到4个时钟周期;所提认证方法能够在维持认证强度的同时,大幅减少额外认证数据量及隐性时间成本,实现认证算法所消耗的面积资源减少96.5%;最终使得解密认证电路面积没有明显增加。本文提出的方法适用于对性能与安全均有较高要求的FPGA芯片设计场景。
针对目前永磁同步电机控制广泛采用MCU和DSP串行计算导致复杂矢量控制算法动态精度不够、移植性较差等问题,搭建了基于国产FPGA的永磁同步电机(Permanent Magnet Synchronous Motors,PMSM)矢量控制系统。采用硬件描述语言(Hardware Description Language,HDL)和电子设计自动化(Electronic Design Automation,EDA)的模块化设计方法,在国产FPGA上分别进行了前馈双闭环PI控制策略、空间矢量脉宽调制(Space Vector Pulse Width Modulation,SVPWM)算法、坐标变换、编码器反馈等底层关键模块的自主设计开发,并通过Modelsim进行关键功能模块的逻辑与时序仿真测试。最终,构建了基于国产FPGA的PMSM矢量控制系统试验平台,分别进行SVPWM波形测试、在阶跃信号和方波信号等多信号输入下的速度跟踪精度测试以及芯片资源性能分析测试,验证了本系统的有效性。
针对大规模FPGA布线过程中存在的资源开销与内存占用过大、布线算法求解效率低等问题,提出了一种资源友好型的面向大规模FPGA的粗粒度并行布线方法。首先,提出了非侵入式的数据优化技术,以减少因布线资源图而导致的资源开销与内存占用,解决因FPGA规模增大而导致的内存空间爆炸问题,为布线方法提供数据基座。其次,提出了自适应负载均衡以及高扇出线网划分技术,以解决粗粒度并行布线方法并行度低的问题,提升布线方法求解效率。实验结果表明,所提出的面向大规模FPGA的粗粒度并行布线方法可以在降低资源消耗与内存占用90%的情况下,获得3.18倍的运行时间加速比,而不会对线长与关键路径实验等性能指标造成影响。
光流法通过分析帧间像素位移构建密集运动场表征,能够以亚像素精度量化场景中物体的运动方向与速度,是具身智能、低空经济中智能感知与定位导航等应用的核心技术。然而,稠密光流算法面临较高的计算复杂度,并且其多层金字塔结构以及层间数据依赖关系导致访存效率低和计算资源闲置等问题,这些因素共同限制了该算法在边缘侧的实时高效部署。为了解决这一问题,基于算法、架构与电路协同设计的优化策略,针对稠密LK金字塔光流算法提出了一种实时且高效的FPGA硬件加速方案。该方案通过批量双线性插值与时间梯度生成优化算法精度与硬件友好性,通过金字塔多层流水折叠设计优化硬件架构并行度,通过三级分段处理架构优化金字塔下采样过程的访存效率,进而显著提升了稠密光流计算的能效与实时性。在AMD KV260平台的实测结果表明,该加速器相比高性能CPU提升了102倍的处理速度,在752×480分辨率下实现62 f/s的实时处理能力,平均端点误差(AEE)为0.522 pixel,平均角度误差(AAE)为0.325°,为高动态视觉感知场景提供了兼具高精度与低延迟的硬件加速解决方案。