超维计算是一种受人脑启发的新兴计算范式,其具有低复杂度、强鲁棒性、强可解释性等优势,在边缘侧应用中具有广阔的应用前景。超维计算通过模拟人脑的信息处理机制,利用超维向量和简单逻辑运算实现复杂认知功能,以轻量级的编码-查询流程替代神经网络的多层复杂结构,为高能效边缘侧人工智能芯片提供了新的技术路径。文中系统地阐述了超维计算的理论基础与算法演进,并探讨了使用硬件加速其中各个步骤的可行性。在此基础之上,对聚焦于查询步骤的专用硬件进行详细介绍,归纳出FPGA、ASIC、存内计算这三类实现方式,并分析了不同方式的优势和劣势。此外,针对现有超维查询硬件的共同不足,介绍一些最新的研究进展。最后,提出现有超维计算硬件面临的挑战,并对未来研究方向进行了展望。
神经网络是人工智能的代表性算法,然而其庞大的参数量对其在边缘端的硬件部署提出了新的挑战。在边缘端,一方面,为了应用的灵活性,要求计算硬件能够通过模型参数的微调来实现网络在任务间的迁移;另一方面,为了计算能效和性能,需要实现大容量的片上存储以减少片外访存开销。近期提出的ROM-SRAM混合存内计算架构是在成熟CMOS工艺下很有潜力的一种方案。得益于高密度ROM存内计算,神经网络的大部分权重可以部署在片内而不依赖片外访存;与此同时,SRAM存内计算可以为基于高密度ROM的边缘端存内计算提供灵活性。为了扩展ROM-SRAM混合存内计算架构设计和应用的空间,需要进一步提高ROM存内计算的密度以支持更大的网络,并探索通过少量SRAM存内计算获得更大灵活性的方案。文中介绍了几种常见的提升ROM存内计算密度的方法,以及基于ROM-SRAM混合存内计算架构的神经网络微调以提升灵活性的方法,并讨论了超大规模神经网络的部署方案和长序列大语言模型中遇到的动态矩阵乘瓶颈的解决方案,展望了ROM-SRAM混合存内计算架构广阔的设计空间和应用前景。
随着人工智能、量子计算等前沿技术的快速发展,对高性能计算芯片的需求不断提升。然而,传统冯·诺依曼架构受限于存储墙和功耗墙等因素,已难以满足数据密集型计算应用的算力需求。低温存内计算结合了低温CMOS器件的优异电学特性与存内计算架构的高带宽、低延迟优势,为突破算力瓶颈提供了一种新的解决方案。综述了低温环境下CMOS器件及多种存储介质的关键特性,系统梳理了低温存内计算在人工智能与量子计算领域的典型架构、关键实现及性能表现,并分析了其在器件工艺、电路系统、EDA工具等层面的挑战及未来发展趋势。
随着摩尔定律放缓,领域专用片上系统(DSSoC)集成领域专用加速器(DSA)已成为一种极具前景的高能效芯片设计策略。然而,DSSoC的设计流程高度复杂,导致开发周期漫长且人力投入巨大。大语言模型(LLMs)的最新进展为敏捷芯片设计引入了新方法,这一方法在代码生成和EDA脚本编写中展现出巨大的应用潜力。文中提出一种基于LLM的多智能体DSSoC设计框架,覆盖从架构定义到代码生成、再到EDA物理实现的端到端设计流程。最后通过两项案例研究验证了该框架在22 nm和7 nm工艺节点上,仅用2至4周即可完成两个SoC设计。相较于原有流程生成的SoC,文中方案设计的SoC能效分别提升了4.84倍和3.82倍。
卷积是CNN网络中常见的运算,卷积中的乘累加运算功耗较高,限制了许多CNN硬件加速器的性能,减少卷积的乘法次数是提高CNN加速器性能的有效途径之一。作为一种快速卷积算法,Winograd算法可以减少卷积中高达75%的乘法。然而,Winograd卷积中的权重分布显著不同,导致为了保持相似的精度需要更长的量化位宽,从而抵消了因减少乘法次数带来的硬件优化效果。针对这一问题进行定量分析,提出了一种新的Winograd卷积量化方案,实现了小于1%的精度损失。为了进一步降低硬件成本,将近似乘法器应用于Winograd卷积。与传统卷积计算块相比,Winograd计算块节省了27.3%的面积,近似乘法器在Winograd计算块中应用节省了39.6%的面积,且性能损失不明显。
基于自旋转移矩磁性随机存取存储器(STT-MRAM)的存内计算(Computing-in-Memory, CIM)有望成为克服“存储墙”瓶颈的有效途径。提出了一种基于时间域适用于STT-MRAM的高能效存内计算设计方案:定制串联式存储单元结构,通过串联晶体管与互补MTJ设计,在计算模式下形成多行存储单元串联的磁阻链,并结合时间域转换电路,将电阻值转换为脉冲延时信号。进一步设计互补串联阵列架构,通过正负权重分列存储生成差分时间信号,支持有符号数计算。在量化电路设计方面,提出逐次逼近型(SAR)时间数字转换器(TDC),该电路采用电压可调延时链与触发器结合的结构。为实现多比特乘累加运算,提出有符号数权重编码方案与数字后处理架构,通过编码权重映射和数字移位累加算法,将8位输入与8位权重的乘积累加运算分解为低5位时间域计算与数字域高位计算,输出21位全精度结果。基于28 nm CMOS工艺完成版图设计和后仿真,在0.9 V电压下实现分辨裕度为270 ps的9位乘累加运算,单次操作能耗仅为16 fJ,所设计的5位SAR-TDC实现时间量到数字量的高线性度转换。设计了面积为0.026 mm2的9 Kb时间域存算宏单元,包含存储单元阵列、SAR-TDC模块、计算电路以及读/写控制电路。宏单元在执行卷积层计算与全连接层计算时,分别可以实现26.4 TOPS/W与42.8 TOPS/W的能效,在实现8位精度计算的同时面积效率能够达到0.523 TOPS/mm2。
设计了一种面向NoC与闪存控制器的通信接口,主要包含请求路径模块、协议转换模块和响应路径模块。请求路径模块可对NoC发送的请求数据包完成数据校验和跨时钟域处理,协议转换模块将处理后的数据包转换成AHB总线信号形式的配置指令,对闪存控制器完成配置进而控制闪存存储设备完成擦除、读、写操作。当闪存存储设备产生响应数据时,协议转换模块将接收到的响应数据打包为响应数据包,经由响应路径模块反馈给NoC。该通信接口可以提高NoC与闪存控制器之间的数据包传输效率,解决了多芯粒互联的数据包高效传输交互的问题,为多芯粒集成技术的发展提供技术基础。
外设组件互联快速总线 (Peripheral Component Interconnect Express,PCIe)与串行快速IO (Serial Rapid IO,SRIO)是主流的高速通信接口协议。在以人工智能为代表的大数据量应用场景中,实现上述协议兼容是构建大算力系统、突破存储与算力瓶颈的关键。针对上述需求,芯粒间互联通信协议 (Chiplets Interconnect Protocol,CIP)以统一的路由网络实现了PCIe、SRIO、DDR与NAND FLASH等多协议转换交互。其中,PCIe作为主要的人机交互接口,构建PCIe RP(Root Port,根节点)系统是实现PCIe通信的基础。现有的基于操作系统的PCIe读/写设备存在延迟高、可操作性差等问题。为解决上述问题,基于Cortex-M3处理器搭建了一套PCIe RP系统,并进行了相应的驱动与软件开发,实现了PCIe与各类设备之间高效而精确的数据传输。在实现基本功能的基础上,分别完成了5万次、10万次、15万次的大规模数据交互的稳定性测试。结果表明,该系统在大规模数据交互事件中有较好的稳定性,为处理器与PCIe间的数据交互提供了解决方案。