随着神经网络模型日益复杂,片上网络(Network-on-Chip, NoC)在异构计算系统中扮演着关键通信角色。然而,传统NoC仿真工具普遍缺乏对矩阵处理单元与RISC-V可编程核等异构计算单元的支持,难以满足大规模人工智能任务对实时性、吞吐量与能效的需求。为应对上述挑战,提出并实现了一种面向异构计算的行为级NoC仿真框架,具备高精度节点建模、动态流水线机制、混合任务感知路由算法以及全链路可视化调试能力。实验结果表明,本文框架在平均延迟、吞吐量与可视化调试效率方面相较传统方法均显著提升,尤其在混合任务流和硬件故障场景下展现出更高的稳定性与可扩展性,为下一代智能计算平台的NoC设计与优化提供了重要支撑。
针对装备电子系统智能化的需求,基于“鸿芯”智能可重构平台中的可编程逻辑设计了一款神经网络加速器软核及配套的量化编译软件,实现了神经网络模型面向自研加速器软核的统一量化编译与加速运行,同时拓展“鸿途”嵌入式实时操作系统功能,实现了对神经网络硬件加速运行的支持。经实验测试,神经网络加速器软核性能与AMD Xilinx DPU软核相当,“鸿途”嵌入式实时操作系统运行ResNet18、ResNet50的性能相比AMD Xilinx PetaLinux环境提升了4倍,提升了“鸿芯”智能可重构平台中的人工智能能力。
针对算法加速器模型与RTL抽象层次不一致、验证环境构建复杂和跨工具链与多语言协同等问题,设计并实现了基于AST与DPI的算法加速器敏捷验证平台。使用AST解析算法模型C程序的语法树结构,将特定算法函数映射为SV DPI接口生成UVM参考模型和直接测试向量,自动化解析RTL代码生成基于UVM的验证环境,并通过生成的DPI接口将参考模型与真实输出进行比较以验证功能正确性。该平台有效降低了验证人员的算法加速器验证门槛,通过一套自动化工具可直接生成工业产出可用的验证环境,极大缩短了验证周期。
针对无人系统在自主可控、实时响应与智能协同方面的核心需求,提出一种基于锐华嵌入式实时操作系统(ReWorks)和开源欧拉操作系统(openEuler)的全栈国产化无人智能控制系统解决方案。通过构建“AI大脑+实时小脑”的双系统异构架构,结合ROS2通信框架与microROS嵌入式扩展,实现智能决策与硬实时控制的深度协同。在龙芯2K1000、飞腾D2000等国产硬件平台上验证,结果表明该方案的实时性能指标显著优于Linux,为水下机器人、无人机等无人系统应用场景提供了全栈自主可控的技术路径。
介绍了PVAC模型的嵌入式部署,旨在预测急性呼吸衰竭患者发生呼吸机相关后遗症(VAC)的风险。PVAC模型通过USMOTE(0.9)算法处理不平衡数据,并结合AdaBoost分类器实现了71.11%的准确率和68.89%的精确度。为了克服现有AI医疗系统依赖云端服务器的局限性,采用PYNQ-Z2开发板实现了PVAC模型的完全嵌入式部署。该方案具有离线独立运行、硬件加速提升计算效率和成本优势三大特点。实验结果表明,软硬件协同方案相比纯软件方案,总执行时间从46.3 ms显著降低至10.2 ms,提速幅度达到78%,ARM处理器的负载从98%大幅降至28%,而模型预测准确率仅下降0.2%,基本保持原有性能水平,不仅验证了PVAC模型嵌入式化的可行性,还为其他医疗AI应用的本地化部署提供了参考。未来可进一步优化决策树结构,利用FPGA动态可重构特性支持更复杂的模型,扩展对时序信号的处理能力,开发低功耗模式来延长设备使用时间、提升系统的实用性、扩大适用范围。
内存访问延迟仍然是现代处理器上大量应用的主要瓶颈。为了优化内存访问性能,利用程序在内存访问中的局部性非常重要。数据布局优化技术通过在数据结构上的合并、拆分、重组等操作可以显著改善内存访问的局部性。首先概述了布局优化技术所涉及的存储架构及数据组织的技术背景;之后介绍了数据编排技术所要解决的关键问题,编排技术所采用的核心思想及其实现所依赖的主要技术。由于各类数据在存储及访问方式上存在较大差异,根据数据类型的不同,重点对相关研究工作进行了系统性的归纳与总结,比较了不同工作的优势与不足,并分析了未来值得探索的研究方向。
PCIe接口总线可以实现CPU与FPGA之间的低延时、高带宽数据传输,关键在于DMA引擎的设计,使CPU不参与数据传输。然而,现如今主流基于PCIe接口的CPU+FPGA数据传输方案中均采用国外厂商Xilinx的FPGA设备,国产FPGA商用IP核严重匮乏,使得将该方案移植到国产FPGA平台具备一定的挑战性。文中使用国产FPGA设计了基于PCIe接口的DMA引擎和对应的驱动程序,隐藏了PCIe协议栈中事务层报文的解析,降低了国产FPGA在PCIe接口应用中的开发难度。实测结果表明,在PCIe 2.0 x2模式下,该DMA引擎的读带宽为784 MB/s,写带宽为800 MB/s,分别达到理论总带宽的82%和84%。
随着工业控制中逐步采用嵌入式系统建立以数据为中心的数字化工厂,以支持生产管理、调度决策以及生产资料配置过程智能化的需求。其中,高效、可靠的数据传输方法在数字化建设中发挥着重要底层支撑作用,是整个嵌入式系统有序运行的前提。数据分发服务作为一种高性能通信中间件,提供了一种在不同系统之间数据共享的规范。然而,目前完整的数据分发服务在嵌入式平台上还存在着无法让嵌入式设备直接作为通信节点加入数据分发服务的分布式网络、网络资源冲突的场景下会造成紧急消息的实时性无法得到保证的问题。为了解决这一问题,基于软件与硬件协同设计的优化策略,针对DDS运行特征提出了一种通过专用SRAM快速加载DDS模块,通过DMA技术提高数据交互能效,包括基于模块解耦的多层次并行计算技术、基于Master-Works模式的高可用软件设计策略。在STM32H4上进行了测试和验证,结果表明,设计方法适用于网络环境下的数据分发服务实时性分析,与集中式数据中心相比,数据的丢包率降低5%,传输效率提升8%左右。
传统硬件验证依赖人工分析波形信号,面临效率低、易出错、事务级行为难以追溯等问题,文中提出一种基于VCD数据和PyVCD库的多核处理器中CHI协议验证的辅助工具,可以提高事务波形分析的效率。VCD(Value Change Dump)是国际标准的Verilog波形数据文件格式,PyVCD是一个开源的纯Python代码库,用于解析VCD文件。通过tcl脚本从各种仿真工具中导出指定信号的波形数据,并将其转换为VCD格式。再使用PyVCD库对波形进行算法分析,实现波形结构化解析与事务重构算法,将分布的Flit数据聚合为完整事务对象序列。获取波形数据并将不同节点不同通道的离散Flit组合为完整的事务。在获得事务对象序列后,将事务对象转换为ASCII字符串,生成字符信号序列并生成VCD文件,用于在波形软件中查看事务级波形,解析协议中事务的性能参数,而且开发了Goldmemory工具,分析系统中多个节点的事务对象序列,自动判断数据错误等场景。基于该方法的平台已在多核处理器工程中部署,通过波形分析CHI事务,大幅提高了仿真验证的效率,同时能够快速定位架构设计的性能瓶颈以实现架构的快速迭代优化。
当前,集成神经网络处理器的SoC芯片在运行YOLO算法时都将后处理部分放至CPU端执行,致使算法整体耗时增加,文中提出一种基于FPGA芯片使用RTL逻辑实现YOLO后处理的硬件加速方案。首先,优化算法执行流程,极大减少冗余计算;接着,分析并限制特征图数值分布,合理定义变量范围;随后,梳理ram查表流程,完成非线性函数的映射;然后,详述整体后处理算法的数据流控制逻辑架构,针对关键功能模块提出部分实用技巧;最后,基于国产ZYNQ芯片对该加速方案进行板端测试,多维度评估性能并分析原因。实验结果表明,该实现方案占用逻辑资源不到3%,计算精度损失约0.2%,运算效率相对CPU提升了7倍;接入实时视频采集进行测试,FPGA系统运行稳定,目标框检测标识无误。
提出一种基于国产65 nm硅中介层和2.5D封装工艺的技术解决方案,用于集成高端人工智能加速卡的HBM3E功能单元。通过硅中介层金属密度梯度设计与有机基板材料选取,有效缓解翘曲和热应力问题。仿真与实测结果高度吻合,为实现高端封装技术的国产化奠定了技术基础。