交大要闻

上海交大计算机学院并行与分布式系统研究所学生获2025 AMD推理优化全球挑战赛唯一特等奖

近日,AMD的上海交通大学开放日活动上进行了一项特殊的颁奖仪式:由上海交通大学计算机学院并行与分布式系统研究所(IPADS)王延葵、郝英屹两位同学组成的RadeonFlow团队在2025 AMD分布式推理算子优化全球挑战赛(AMD Developer Challenge: Distributed Inference)上,从超过600名参赛者中脱颖而出,荣获唯一的特等奖。

本次挑战赛由AMD发起并全程赞助,面向全球开发者开放,旨在探索如何在AMD GPU 平台 上优化多 GPU 通信算子(communication kernels),提升大语言模型(LLM)在分布式推理场景下的性能表现。参赛者可自由组队,提交针对多种算子形态的优化方案,包括 AllGather、ReduceScatter、All2All、GEMM + ReduceScatter、AllGather + GEMM 等典型通信操作。为此,AMD专门在交大校园内举办了一场颁奖仪式,以表彰这支因故未能前往美国领奖的冠军队伍。

图片1.png

IPADS研究所王延葵(左二)、郝英屹(右二)代表RadeonFlow接受颁奖

其实,这已经不是他们第一次获奖。在2025年上半年AMD举办的”智算极速争锋”推理优化国际挑战赛(AMD Developer Challenge: Inference Sprint)上,两位同学与来自南京大学的刘泽森同学一起获得了唯一特等奖,并受邀到美国领奖,由AMD CEO 苏姿丰(Lisa Su)亲自为他们颁奖。

图片2.png

IPADS研究所王延葵(右一)代表RadeonFlow接受苏姿丰颁奖

参赛感言:

图片3.png

王延葵(并行与分布式系统研究所成员、硕士三年级):

首先感谢AMD分布式推理挑战赛为我们提供的实践平台以及IPADS研究所的大力支持。

在这次比赛中,我们围绕 GEMM 这一深度学习中最核心的计算原语,从算法到MI300X微架构层面上进行优化探索和学习,并在我们的项目中实现了包括L2 Cache缓存优化、指令流水线、指令调度等优化。特别是针对不同尺寸的矩阵乘法设计了不同的软件流水线,以平衡VGPR/LDS的使用与流水线效率。未来,我们期待与厂商开展更多合作,共同探索先进硬件上的极致性能优化路径,推动AI基础软件与硬件协同创新的持续突破。

02.png

郝英屹(并行与分布式系统研究所成员、博士二年级):

感谢 AMD 分布式推理算子优化挑战赛给予的认可,也感谢 IPADS 研究所在系统研究方面营造的浓厚学术氛围。我们在比赛中实践了 AMD MI300X 上的汇编级高性能 GEMM 调优,并针对 LLM 训推的两个关键集合通信原语进行了深度优化:对于 EP 通信,我们实现了融合 All2All 算子,并基于细粒度同步和层次化 barrier 降低延迟 ;对于 TP 通信,我们通过计算-通信协同设计实现了AllGather-GEMM 和 GEMM-ReduceScatter 算子的高效计算-通信重叠,最大化隐藏通信开销。通过本次实践,我们进一步掌握了多 GPU 分布式系统的性能调优路径,积累了在先进硬件上开展极致优化的宝贵经验。期待未来继续与行业同行,共同推动计算技术的突破与创新。

计算机学院
计算机学院(网络空间安全学院、密码学院)
吴迪
孙佳