当今,对于微处理器的性能要求越来越高,如何高效地减小关键路径上的延迟已然成为一个重要的课题。针对这一难题,提出一种面向关键路径的逻辑局部重映射时序优化方法。该方法结合关键路径信息,在关键路径周围的拓扑网络中构建局部化的小型网表集合,然后对每一个局部小型网表进行重新映射,建立网表池保存多组参数综合后的结果,最后选择时序最好的映射后小型网表替换原来的局部小型网表。文中实现了上述的算法并在7个开源设计中进行实验,实验基于Nangate 45典型工艺角以及物理设计工具OpenROAD。实验结果表明,在这7个开源设计中经过该方法优化后的网表的最差负时序裕量有至少1.120%的提升,总的负时序裕量有至少11.646%的提升,证明了该方法对于高性能微处理器时序约束的有效性。
基于22 nm FD-SOI工艺,设计并实现了覆盖0.2~0.8 V宽电压范围的高能效运算电路芯片。从架构设计、单元库选择、低功耗逻辑综合与物理设计4个层次对能效进行了对比分析与优化。通过对不同运算架构进行实现和仿真对比,筛选出综合表现最优的架构设计。评估不同沟道长度和阈值电压的标准单元库,混合使用高驱动单元与低泄漏单元以平衡性能与功耗,优化后的能效降至102.64 fJ/Op,较单一类型单元设计提升了17.5%。逻辑综合阶段应用DesignWare-LP流程,通过逻辑重组与低功耗单元替换提升能效6.7%;物理设计阶段控制单元密度,进一步降低寄生电容。对优化后的芯片进行流片验证,结果表明:在0.24 V工作电压下,加法器与乘法器能效分别达1.55 fJ/Op与14.1 fJ/Op,延迟均低于100 ns,有效弥补了现有方案在宽电压适应性或能效多维优化方面的不足。
生成式人工智能(GenAI)的快速发展受深度学习(DL)、大语言模型(LLM)技术突破的驱动,对底层计算硬件平台及其执行算法提出了日益严苛的性能与能效要求。矩阵乘法(GEMM)作为基础性运算,支撑着深度神经网络训练与推理中绝大多数计算任务,其内核的效率直接影响着模型训练时长、推理延迟及关联运营成本等核心指标,这些因素对AI解决方案的实际部署与可扩展性至关重要。目前,针对人工智能领域矩阵扩展指令优化的工作还有提升的空间,对于国产微处理器的矩阵运算算法进行优化具有较大意义。文中面向国产微处理器的矩阵扩展指令,围绕GEMM开展了性能优化。通过指令优化、流水线调整、外积扩展等方式提高了GEMM的运算效率,并验证了测试优化方案的正确性和可行性。实验结果表明,该优化方法能够提升单精度浮点数矩阵乘法运算效率达10%以上。
作为神经形态计算的代表方法,脉冲神经网络因其高效的计算特性,在感知与控制任务以及软硬件协同计算中得到了广泛应用。然而,SNN中广泛应用的传统积分泄露神经元模型仅能将输入特征编码为二值脉冲信号,严重限制了其特征表达能力和在复杂视觉任务(如目标检测)中的性能。基于多值逻辑神经元模型提出了一种三值激活层的脉冲神经网络。通过对卷积层的激活层范围重新设定,三值激活层能够在二值激活的基础上,大幅提高了目标检测算法的模型性能。在公开数据集上的实验结果表明,与二值激活对比,所提出的三值激活方法在三类交通标志上的目标位置识别精度可以从80.8%提高到92.5%。此外,为了将以上脉冲神经网络运行在基于新型纳米器件的多值逻辑计算系统中,对参数量化后的模型性能进行了评估,将模型参数量化到整数范围之后,模型的性能仅下降1%多一点。与ANN相比,在精度下降了4.2%的同时,参数量减少了81.6%。
随着半导体工艺进入纳米尺度,SoC芯片复杂度激增,传统调试方法在效率与灵活性上面临严峻挑战。DDR内存作为SoC与外部系统交互的核心组件,其功能正确性与性能稳定性对芯片可靠性至关重要。针对现代SoC中高速接口DDR控制器的调试需求,提出一种基于GDB与OpenOCD协同的智能化调试方案。通过深度整合GDB与OpenOCD框架实现多器件JTAG统一管理,支持跨模块并行调试,显著提升SoC可观测性。针对DDR调试难题,创新设计模块化参数配置架构,实现控制器时序参数动态重构,调试周期缩短了50%。同时构建系统化验证体系,开发涵盖16项场景的访存压力测试套件,全面验证DDR功能与性能。本方案通过软硬件协同设计提升了调试效率与可控性,为国产芯片自主调试提供关键技术参考。
在资源受限的近传感智能感知系统中,深度神经网络(DNN)的部署面临着能效和面积方面的严峻挑战。存内计算架构(CIM)通过存储阵列内的并行化乘累加(MAC)原位计算,规避冯·诺依曼架构的数据搬运开销,能量效率和面积效率得到显著提升。但随着MAC计算位宽和规模的增加,高精度的数/模转换(DAC)和模/数转换(ADC)以及长距离的数据路由将导致不可接受的能量和延迟开销,限制了存内计算的能量效率。针对上述情况,提出一种高能效全模拟存内计算架构。设计采用分组复用计算电容方案,在无需DAC的情况下实现多比特激活值的并行输入,并利用C-2C电容阶梯对有符号多比特权值进行比例加权,从而在模拟域内完成多比特MAC运算。每个多比特MAC结果仅需单次A/D转换即可完成量化,显著降低了数据转换的延迟与功耗代价。该架构采用台积电22 nm工艺实现,功耗为0.128 mW,面积为0.06 mm2,测得的吞吐率为76.8 GOPS,实现了600 TOPS/W的能量效率和1.28 TOPS/mm2的面积效率。
碳基电子器件凭借高载流子迁移率成为突破硅基集成电路物理极限的重要路径。然而,其核心工艺平台(如PKUCNTFET)尚未成熟,设计规则与传统硅基工艺差异显著,导致现有硅基SRAM编译器无法复用。SRAM作为处理器关键部件,在碳基研发中仍依赖耗时的手工设计,严重制约了碳基处理器与存储器的开发。文中首次提出并实现了一款面向碳基工艺的可重构SRAM编译器,创新性地采用全定制单元设计,构建基本复用器件模块,并基于模块化架构(参数解析→电路生成→版图输出)实现全流程自动化。通过集成Hanan网格算法优化多层互连,结合A*搜索与通孔碰撞检测降低布线延迟,有效解决了碳基工艺适配与多工作模式灵活配置的核心挑战。实验结果表明,编译器生成的SRAM阵列通过严格LVS/DRC检查,支持单端口读/写、双端口同步读/写及一读一写三种可配置工作模式,可自动生成8~256位宽、64~4 096位深度的阵列,并覆盖27个PVT工艺角的Liberty时序建模,为碳基集成电路的实验室开发提供了高效、自主可控的存储解决方案。
基于失效物理(Physics of Failure,PoF)分析方法,提出了规范化的系统级封装(System in Package,SiP)产品的可靠性评价标准。完成了国内外基于失效物理的SiP可靠性评价方法的适用性分析,并利用计算机仿真技术和手段设计了包含模型构建、应力剖面分析、可靠性预计与寿命预测等在内的SiP可靠性评价总体方案,给出了基于失效物理的SiP可靠性评价标准中的核心内容,包括评价流程、工作内容及详细要求等。还探讨了评价方案在某型SiP实际产品中的应用情况,表明该方案有效性强且工程适用,与基于加速寿命试验的产品可靠性评价结果吻合度较高,研究成果有助于解决当期SiP可靠性评价缺乏统一有效方法、评价针对性差、寿命试验周期长、缺乏失效数据、试验成本高等难题。
随着嵌入式系统对非易失性存储需求的日益增长,嵌入式闪存(eFlash)控制器的功能验证成为确保系统可靠性的关键环节。针对传统定向测试在eFlash控制器验证效率低、时序兼容性差问题,基于通用验证方法学(UVM),设计并实现了一种面向AHB-Lite总线的eFlash控制器高效验证平台,平台利用UVM的核心组件实现分层架构,利用自动化脚本和集成寄存器模型(RAL),在保证验证完备性的同时,采用随机约束测试与覆盖率驱动策略缩短了验证周期。验证结果表明,该验证平台能够有效验证eFlash控制器的各项功能,并且实现代码覆盖率100%、功能覆盖率100%。
随着对芯片算力和性能需求的不断提升,多芯粒集成技术已成为提升芯片集成度与算力的重要途径。芯粒互联接口是实现芯粒架构的关键,其兼容性设计,特别是支持多种互联协议的能力,是当前面临的核心挑战。鉴于AXI协议在片上系统中的广泛应用,研究芯粒互联接口如何高效兼容AXI协议具有重要意义。基于课题组自主定义的芯粒互联标准,在协议层设计了一套完整的AXI协议跨芯粒传输架构电路。该架构采用基于本地代理的流控机制实现了AXI协议通道握手的跨芯粒传输。文中详细阐述了如何将AXI协议信号映射到互联接口的数据包中,从而完成AXI协议的跨芯粒传输。通过搭建UVM验证环境,验证了架构电路功能的正确性。同时,搭建FPGA验证平台对电路性能进行测试:在读/写数据位宽为1 024位、对4 KB存储空间执行突发写操作的AXI事务场景下,理论上的最小延迟开销为64个周期,测得所设计实现架构下突发写事务的传输延迟为85个时钟周期。在互联接口频率为1 GHz下,互联接口的带宽利用率达到84.92%。本文研究为其他芯粒互联标准设计协议层适配AXI协议或类似协议提供了一个系统性的参考。