上海交大计算机学院并行与分布式系统研究所学生获2025 AMD推理优化全球挑战赛唯一特等奖_交大要闻

交大要闻

上海交大计算机学院并行与分布式系统研究所学生获2025 AMD推理优化全球挑战赛唯一特等奖

2025年12月31日

近日，AMD的上海交通大学开放日活动上进行了一项特殊的颁奖仪式：由上海交通大学计算机学院并行与分布式系统研究所（IPADS）王延葵、郝英屹两位同学组成的RadeonFlow团队在2025 AMD分布式推理算子优化全球挑战赛（AMD Developer Challenge: Distributed Inference）上，从超过600名参赛者中脱颖而出，荣获唯一的特等奖。

本次挑战赛由AMD发起并全程赞助，面向全球开发者开放，旨在探索如何在AMD GPU 平台上优化多 GPU 通信算子（communication kernels），提升大语言模型（LLM）在分布式推理场景下的性能表现。参赛者可自由组队，提交针对多种算子形态的优化方案，包括 AllGather、ReduceScatter、All2All、GEMM + ReduceScatter、AllGather + GEMM 等典型通信操作。为此，AMD专门在交大校园内举办了一场颁奖仪式，以表彰这支因故未能前往美国领奖的冠军队伍。

图片1.png

IPADS研究所王延葵（左二）、郝英屹（右二）代表RadeonFlow接受颁奖

其实，这已经不是他们第一次获奖。在2025年上半年AMD举办的”智算极速争锋”推理优化国际挑战赛（AMD Developer Challenge: Inference Sprint）上，两位同学与来自南京大学的刘泽森同学一起获得了唯一特等奖，并受邀到美国领奖，由AMD CEO 苏姿丰（Lisa Su）亲自为他们颁奖。

图片2.png

IPADS研究所王延葵（右一）代表RadeonFlow接受苏姿丰颁奖

参赛感言：

图片3.png

王延葵（并行与分布式系统研究所成员、硕士三年级）:

首先感谢AMD分布式推理挑战赛为我们提供的实践平台以及IPADS研究所的大力支持。

在这次比赛中，我们围绕 GEMM 这一深度学习中最核心的计算原语，从算法到MI300X微架构层面上进行优化探索和学习，并在我们的项目中实现了包括L2 Cache缓存优化、指令流水线、指令调度等优化。特别是针对不同尺寸的矩阵乘法设计了不同的软件流水线，以平衡VGPR/LDS的使用与流水线效率。未来，我们期待与厂商开展更多合作，共同探索先进硬件上的极致性能优化路径，推动AI基础软件与硬件协同创新的持续突破。

郝英屹（并行与分布式系统研究所成员、博士二年级）：

感谢 AMD 分布式推理算子优化挑战赛给予的认可，也感谢 IPADS 研究所在系统研究方面营造的浓厚学术氛围。我们在比赛中实践了 AMD MI300X 上的汇编级高性能 GEMM 调优，并针对 LLM 训推的两个关键集合通信原语进行了深度优化：对于 EP 通信，我们实现了融合 All2All 算子，并基于细粒度同步和层次化 barrier 降低延迟；对于 TP 通信，我们通过计算-通信协同设计实现了AllGather-GEMM 和 GEMM-ReduceScatter 算子的高效计算-通信重叠，最大化隐藏通信开销。通过本次实践，我们进一步掌握了多 GPU 分布式系统的性能调优路径，积累了在先进硬件上开展极致优化的宝贵经验。期待未来继续与行业同行，共同推动计算技术的突破与创新。

作者：

计算机学院

供稿单位：

计算机学院（网络空间安全学院、密码学院）

责任编辑：

吴迪

主编：

孙佳