综合新闻

计算机学院成果荣获IEEE ASP-DAC 2026 LSI设计比赛特别奖

近日,由上海交通大学可扩展计算研究所蒋力研究员和刘方鑫助理研究员担任共同通讯作者、博士后研究员汪宗武为第一作者的研究成果 —— FPGA 亲和边缘 LLM 推理加速器(TFLOP: An FPGA-Affinity Edge LLM Accelerator with Unified LUT-based Optimization),获得 ASP-DAC University LSI Design Contest 2026 比赛特别奖(ASP-DAC 2026 Special Feature Award)。ASP-DAC 为亚洲及南太平洋设计自动化会议,是集成电路设计自动化(EDA)及大规模集成电路(LSI)设计领域的国际顶级会议之一。

图片111.png

研究背景

如今,以 GPT 和 Llama 为代表的大型语言模型(LLM)爆发式发展,推动人工智能能力实现质的飞跃,但这些模型往往依赖云端高算力支持,难以直接部署在对能耗、算力有严格限制的边缘设备上,同时云端处理模式还面临数据隐私泄露的风险。如何填补边缘侧算力与大模型需求之间的巨大鸿沟,已成为国内外产业界和学术界研究的一大热点。为解决这一难题,上海交通大学可扩展计算研究所团队针对边缘设备的资源约束特性,提出了 TFLOP FPGA 加速器设计方案,这是团队在端侧大模型硬件加速领域的重要研究突破。在 ASP-DAC 2026 会议的 LSI 设计比赛中,团队代表携该作品参赛并斩获特别奖。University LSI Design Contest 竞争激烈,旨在选拔和表彰在芯片设计与实现方面具有极高创新性和实用价值的优秀设计,此次获奖正是对该成果核心价值的高度认可。

方案特性

该研究提出的 TFLOP 加速器方案,通过软硬件协同优化设计,有效兼顾了模型精度与硬件效率,为边缘 LLM 部署提供了高效解决方案。算法层面,团队深入分析 LLM 权重和 KV Cache 的数据分布特征,创新引入通道耦合的非均匀量化算法,融合乘积量化(Product Quantization, PQ)技术,成功解决离群值处理难题,实现近乎无损的 3-bit 权重量化,性能显著优于传统整型量化方法;架构层面,针对非均匀量化带来的计算不规则性,设计双模式基于查找表(LUT)的通用矩阵向量乘法(GEMV)处理单元,通过复用硬件资源,高效支持 “行切分” 和 “列切分” 两种互逆计算模式,在极低硬件开销下实现算子性能最优化。

图片1.png

图:方案设计框架及layout

团队基于 Xilinx U280 FPGA 完成的原型验证与部署测试结果表明,TFLOP 系统仅占用 FPGA 一半的硬件资源,整体功耗控制在 15W 左右,生成吞吐量高达 120 tokens/s;与 NVIDIA A100 GPU 相比,在特定 LLM 推理生成任务中实现 2.7 倍加速比,展现出卓越的能效比和低延迟特性,为资源受限的边缘设备高效运行大型语言模型提供了切实可行的解决方案。

计算机学院
计算机学院(网络空间安全学院、密码学院)
吴迪