综合新闻

计算机学院学子在“CCF算力网系统与应用大赛”中获一等奖

近日,在第二届CCF分布式计算大会暨中国算力网大会上,上海交通大学计算机学院高晓沨老师指导的队伍(董宏基、Chen Remi Lei、赵宇昂、Chan Tin Ping、Lee Zheng)在“CCF算力网系统与应用大赛”中,以《面向XPU的异构异域大模型任务调度》获得一等奖。该团队由中国、法国和马来西亚的学生共同组成,其多元构成生动体现了上海交大在计算机科学领域国际化人才培养的卓越成果。

CCF比赛证书.jpg

赛事介绍

第二届CCF分布式计算大会暨中国算力网大会(CCF Computility 2025)由中国计算机学会(CCF)主办,以 “算力网:新质生产力背景下的分布式系统” 为主题,为分布式系统和算力网相关的从业者提供最专业的学术研讨、技术交流和成果展示的平台。会议将深入探讨分布式计算与算力网的最新进展,围绕前沿科研问题与产业发展展开高水平交流与思想碰撞。

第二届“CCF算力网系统与应用大赛”依托CCF Computility 2025举办,面向全国高校本科生、研究生及算力网相关企业工程师开放。顺应“东数西算”等国家级工程推进,赛事聚焦算力网的新型分布式架构与关键技术,重点面向大型算力中心联网、多云协同、云边端一体化等典型形态,以及万物互联、科学计算、通用人工智能/大模型等代表性应用场景。大赛将依托统一算力平台与真实需求场景,鼓励参赛者围绕异构协同、跨域调度、资源治理与QoS/QoE保障开展系统创新与应用落地。在由国内外知名学者组成的指导委员会支持下,赛事致力于联结产学研用、激发青年创新活力,形成可复制的标杆案例与方案,推动算力网走向更高效、更智能、更可用,为数字化与智能化转型提供新质生产力支撑。

项目介绍

项目名:面向XPU的异构异域大模型任务调度

项目介绍:

《面向XPU的异构异域大模型任务调度》项目中,团队直击“东数西算”背景下算力网的关键瓶颈:异构XPU带来的调度复杂性与跨域通信造成的拥塞。团队提出一套拓扑感知、拥塞感知并重的调度框架:TORBINPACK + Reordering。框架以“机柜/ToR”为基本装箱单元,最大限度抑制跨域通信。随后在任务选择阶段,加入可解释的多目标动态优先级。该优先级综合三类信号:预测运行时、等待公平性以及网络冲突惩罚项。因此既能统一度量异构资源,也能在调度前预防热点链路。整体设计在国产XPU异构、异域部署条件下,系统性降低Spine↔ToR方向的拥塞风险,显著提升算力资源利用率与SLA的可预测性。

在真实负载轨迹驱动的多规模集群评测中(624至5520 XPU),该方案在网络拥塞核心指标TCI(Throughput Conflict Index,衡量Spine→ToR下行链路通信冲突强度的指数)上相较先进调度器(如NetPack/Crux等)获得大幅领先:在中小规模高并发场景中TCI最大降幅达84%,在更大规模与高通信密度场景中仍保持21%以上的稳定优化;同时保持接近线性的任务伸缩性与极低的调度开销,实现效率、公平与可扩展性的优异平衡。

参赛人员介绍

01.png

董宏基

董宏基,计算机学院二年级硕士生,研究方向包括云计算虚拟机性能预测与调度等。

02.png

Rémi Lei Chen

Rémi Lei Chen, 法国留学生,计算机学院三年级博士生,研究方向为网络数据中心架构。

03_副本.png


赵宇昂

赵宇昂,计算机学院一年级博士生,研究方向包括时间序列预测、大模型加速等。

04.png

Chan Tin Ping

Chan Tin Ping,马来西亚留学生,计算机学院三年级硕士生,研究方向为虚机调度。

05.png

Lee Zheng

Lee Zheng,马来西亚留学生,计算机学院一年级研究生。研究方向为时序预测。

指导老师介绍

06.jpg

高晓沨

高晓沨,上海交通大学计算机学院长聘教授、博导,全国五一劳动奖章、国家级青年人才计划获得者,中国计算机学会分布式计算与系统专委会副主任。研究方向数据工程、网络优化,发表中国计算机学会(CCF)推荐A/B类期刊会议论文200余篇,谷歌引用7000余次。主持项目50余项,任国家科技部重点研发计划、国家自然科学基金重点项目负责人。与腾讯、华为等头部信息科技公司深度合作,致力于战略行业数字化转型,与中远海运、中航沈飞、中海油等重要央国企合作研究,获中国产学研合作创新奖。指导学生参加数学建模竞赛,在三大国际赛事中均获最高奖项,获美国数学及应用联合会Doug Faires终身成就与特别贡献奖。

计算机学院
计算机学院(网络空间安全学院、密码学院)
吴迪