交大要闻

上海交大获FPGA“最佳论文”和“名人堂”奖项

3月1日,在美国举办的国际可重构计算领域顶级会议——FPGA 2025上,上海交通大学荣获“最佳论文”(Best Paper Award)和“名人堂”(Hall of Fame)奖项。

“最佳论文”奖项

“最佳论文”颁发给了上海交通大学、清华大学和无问芯穹联合团队提出的视频生成大模型推理IP工作《FlightVGM:Efficient Video Generation Model Inference with Online Sparsification and Hybrid Precision on FPGAs》,这是FPGA会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。

11.png

大模型部署成本的核心制约在于运行效率,该指标由算法、软件及硬件效率共同决定。在算法与软件迭代速率边际递减的产业背景下,硬件效能突破将成为降低模型推理成本的重要“胜负手”。此次获奖的工作首次在FPGA上实现了视频生成模型(Video Generation Models, VGMs)的高效推理,也是该团队继去年在FPGA上加速大语言模型FlightLLM(FPGA’24)后的最新系列工作。与NVIDIA 3090 GPU相比,FlightVGM 在AMD V80 FPGA上实现了1.30倍的性能提升与4.49倍的能效提升(峰值算力差距超过21倍)。

12.png

研究背景

在视频生成领域,扩散Transformer(DiT)正逐渐成为一种重要的框架。DiT模型通过一个扩散过程生成视频,它将噪声图像逐步恢复为清晰的视频帧,从而展现了强大的生成能力。最初,DiT被提出是为了探索在大规模数据处理中的可扩展性,随着技术的不断发展,DiT的架构也不断被优化,逐步提高了生成视频的质量和分辨率,使得生成的视频更加清晰、精细。尽管如此,这种方法的计算需求非常高,尤其是在生成高分辨率和较长时长的视频时,所需的计算量和内存消耗大幅增加,因此如何提升生成效率并优化计算过程,成为该领域的关键问题之一。

核心见解:从视频压缩到视频生成

视频压缩技术(如H.264、H.265)通过离散余弦变换(DCT)等技术,识别并消除视频帧间和帧内的冗余信息,从而实现高达1000倍的压缩率。这一思想的核心在于,视频数据在时间和空间维度上存在大量重复模式,例如相邻帧之间的背景几乎不变,或同一帧内的纹理具有高度相似性。通过检测并跳过这些冗余信息,压缩算法能够显著减少数据量,同时保持视频质量。

13.png

FlightVGM创新性地将这一思想引入视频生成模型的加速中。视频生成模型(VGMs)在推理过程中同样表现出显著的时空冗余性。例如,相邻帧之间的Token在语义上高度相似,而同一帧内的不同区域也可能共享相同的视觉特征。然而,现有GPU架构无法充分利用这种冗余性。FPGA虽然具备稀疏计算的优势,但其峰值算力远低于GPU,且其计算单元(例如V80的DSP58)的传统设计无法动态适配混合精度需求,限制了其在视频生成加速中的应用。FlightVGM通过以下三项技术,解决上述挑战:

1.“时间-空间”激活值在线稀疏化方法:基于视频压缩中的相似性检测思想,FlightVGM设计了帧间和帧内的冗余激活稀疏机制。通过余弦相似度计算,动态跳过相似部分计算,显著降低了计算负载。

2.“浮点-定点”混合精度DSP58拓展架构:借鉴视频压缩中的分块处理思想,FlightVGM对视频生成模型的不同模块进行精度分层处理。关键模块(如注意力机制)保留FP16精度,非关键模块(如线性层)量化至INT8,最大化硬件利用率。

3.“动态-静态”自适应调度策略:针对激活值在线稀疏化导致的负载不均衡问题,FlightVGM针对实际工作负载自适应调整不同操作负载的执行顺序,从而提高计算利用率。

14.png

实验结果

(1)算法评估

与基准模型相比,FlightVGM对于模型精度的影响几乎可以忽略(仅平均损失为0.008),而使用全INT8量化时,平均损失为0.042。同时,在实际视频生成效果上,FlightVGM生成的视频与原始模型仍有较好的保持。

15.png

(2)性能评估

对于NVIDIA 3090 GPU,在FP16精度下,AMD V80 FPGA的峰值算力差距超过了21倍。然而,基于V80 FPGA实现的FlightVGM仍在性能和能效上超过了GPU。这是因为FlightVGM充分利用了VGM固有的稀疏相似性和混合精度数据分布特性,并通过软硬件协同开辟了“算法-软件-硬件”的全新优化空间并成功在其中找到了一个足够好的解。而GPU由于硬件架构的限制,难以达到相同的加速效果,且缺乏稀疏化和定制化计算数据流优化的支持。

16.png

应用与展望

2024年,上海交大与无问芯穹、清华的联合工作FlightLLM——全球首个大语言模型定制推理IP 就曾被FPGA高评价录取,今年则再次以VGM模型定制推理IP FlightVGM 拿下最佳论文奖,这一系列工作均是在通过创新硬件架构提升效率。据悉,相关研究成果现已被集成到无问芯穹自研大模型推理IP LPU(Large-model Processing Unit)之中,并已与合作伙伴开展产业合作验证。

随着VGM计算需求的增长,FlightVGM展示了如何通过FPGA的软硬件协同创新,实现更高能效的文生视频大模型推理。未来,通过探索AIE(AI Engine)+ HBM(High Bandwidth Memory)的全新FPGA架构,FPGA有望为视频生成任务提供更高效的计算支持,成为未来计算平台的重要选择。

作者简介

论文的第一作者刘军是上海交通大学博士生,共同一作曾书霖是清华大学博士后,通讯作者为汪玉和戴国浩。汪玉是IEEE Fellow、清华大学电子工程系教授、系主任和无问芯穹发起人,戴国浩是上海交通大学人工智能学院副教授、无问芯穹联合创始人兼首席科学家。

03_副本.png

戴国浩,副教授、博导,主要研究方向为稀疏计算电路与系统。分别于2014年和2019年在清华大学电子工程系获得工学学士和博士学位。在相关领域的国际顶级会议和期刊发表论文80余篇,谷歌学术施引两千余次。担任领域内多个国际会议TPC和期刊审稿人、Ph.D. Forum at DAC 2024联席主席等职务,发表论文曾获FPGA 2025、ASP-DAC 2025、DATE 2024、ASP-DAC 2019最佳论文奖,DATE 2023、DAC 2022、DATE 2018最佳论文奖提名。曾参与指导学生获ACM 2021 SRC 全球第三,MICRO 2020 SRC全球第一。个人荣获2024年算力中国·青年先锋人物奖、2022年WAIC 云帆奖、2021年NeurIPS BIGANN竞赛全球冠军等荣誉。

“名人堂”奖项

上海交通大学信息与电子工程学院|集成电路学院长聘教轨助理教授张宸因其在FPGA领域的开创性研究,荣获2025年“名人堂”奖项。从2017年开始,由TCFPGA组委会投票选拔的历届获奖者中,张宸老师是首个以第一作者身份获此殊荣的亚太地区学者。

封面.jpg

3月1日在美国加利福尼亚州蒙特雷市,大会主席André DeHon(中)为论文第一作者张宸(右)及论文通讯作者、导师Jason Cong(左)颁发奖状

张宸的获奖论文题为Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks,是其在北京大学信息科学技术学院攻读博士学位期间,与丛京生院士、孙广宇副教授、李鹏副研究员等合作完成的重要成果。该论文首次提出了一种全面、系统的优化框架,通过创新的基于循环的分析技术,结合基于屋顶线模型的设计空间建模方法,为人工智能加速器的设计提供了完整而准确的架构优化理论。

该研究不仅推动了FPGA加速器设计的理论发展,更对整个AI硬件架构领域产生了深远影响。据统计,该论文在过去十年间获得了超过2500次引用,其中包括图灵奖获得者David Patterson教授在内的60余位各国院士、IEEE/ACM Fellow以及知名院系主任和实验室主任的引用。研究成果被谷歌、英伟达、英特尔、微软、AMD等全球顶尖科技公司广泛采用,对包括谷歌TPU、英伟达GPU在内的多个知名AI处理器的设计产生了重要影响。

获奖证书.jpg

“FPGA名人堂”奖项每年评选一次,旨在表彰过去十年内在FPGA和可重构计算领域最具影响力的研究工作。遴选范围涵盖领域几乎所有主流顶级国际会议和期刊论文,包括FPGA、DAC、ICCAD、FPL、FPT、T-CAD、VLSI等。该奖项的评选标准极为严格,不仅要求研究成果具有突出的学术影响力,还需对产业界产生实质性影响。

无标题.png

张宸,上海交通大学长聘教轨助理教授,博导,主要研究方向是人工智能计算架构与芯片系统。曾先后在微软研究院和阿里巴巴平头哥半导体公司任职,深入从事人工智能处理器设计方法的相关研究,参与了多项国内外重要人工智能系统与芯片研制工作。在国际顶级会议和期刊上发表了超过30篇论文,第一作者或通讯作者发表的论文总引用超过4171次,近5年总引用量达3345次。相关成果获得FPGA会议(32年)历史高被引论文第一名、T-CAD 2019 Donald O. Pederson最佳论文奖(中国大陆首个)、ICCAD’2016当年发表论文中引用量第一名、MICRO 2023体系结构年度最佳论文等奖项。曾入选AI 2000世界最有影响力学者,并被评选为Stanford & Elsevier世界前2%高被引科学家(计算机硬件与架构领域)。此外,还获得微软研究院院长特别奖、ChinaSys新星奖(全国共2名)等荣誉。

电子信息与电气工程学院、人工智能学院
电子信息与电气工程学院、人工智能学院
张悦
钱露