探索发现 · 交大智慧

上海交大赵世振团队在光电混合数据中心无死锁路由方向取得重要进展

近日,计算机网络系统顶级会议USENIX NSDI 2023在美国波士顿召开。今年恰逢NSDI召开成立20周年庆典,也是自2020年以来计算机网络系统领域首次以全线下模式举办的国际盛会。上海交通大学电子信息与电气工程学院约翰·霍普克罗夫特计算机科学中心长聘教轨副教授赵世振受邀参会,报告团队的最新研究成果。

赵世振团队设计了一种称为“扁平胖树”的网络架构,能够彻底消除光电混合数据中心的路由死锁,为光电混合数据中心支持无损RDMA协议奠定基础,相关论文“Flattened Clos: Designing High-performance Deadlock-free Expander Data Center Networks Using Graph Contraction”(扁平“胖树”:高性能无死锁的数据中心直连拓扑架构)已被该会议接收。本篇论文所有作者均来自上海交通大学,赵世振与其指导的硕士生张琦周为共同第一作者。

640.jpeg

研究背景

RDMA在近年来由于其高带宽、低时延、低CPU占用率的特性而得到了各大数据中心提供商(包括微软、阿里巴巴等)的关注。微软、阿里巴巴也在积极部署RDMA,并在传统胖树架构的数据中心内总结出一套较为有效的方案。然而,现有光电混合数据中心的路由方案并不能有效支持RDMA。主要原因是:传统RDMA需要底层网络开启PFC(Priority-based Flow Control)来保证网络无丢包;现有光电混合数据中心的路由算法大多存在循环缓冲区依赖(Cyclic Buffer Dependency,CBD),开启PFC可能导致网络出现死锁。因此,如何设计路由算法消除光电混合数据中心的CBD,是在光电混合网络中支持RDMA的一个关键问题。

研究成果

为了消除CBD,论文提出了一个基于“图映射”的拓扑/路由联合设计方案。首先,将每个电交换机拆分为k个虚拟交换机,并将这k个虚拟交换机放在不同的“层”中。利用光交换机重构逻辑拓扑,可以确保只有相邻层的虚拟交换机能够互连。这样就把光电混合网络的逻辑拓扑映射成了一个具有层级结构的拓扑。然后,在路由寻找中,要求每条路径必须满足“Up-Down”的要求,即每条路径均是先从底层虚拟交换机发往上层虚拟交换机,然后再从上层虚拟交换机发往底层虚拟交换机。随后进行一个“图收缩”操作,把虚拟层级结构图中的每条Up-Down路径反映射成一条原图路径。上述方法生成的路径可以严格证明不存在CBD,因此可以完全避免网络死锁。

2.jpg

通过虚拟分层+上下路由消除死锁

现有工作中存在另外一种基于Edge-Disjoint Spanning Tree(EDST)的路由方法,可以在光电混合网络中消除CBD。然而,这种方法找出的路径长度远大于基于“图映射”的路由方法。实验表明,对于大型光电混合数据中心,基于“图映射”的路由方法能够提供比基于EDST的路由方法高10余倍的网络吞吐。

3.jpg

相比EDST路由吞吐提升10+倍,KSP路由虽然吞吐高,但无法消除死锁

关于会议

USENIX网络系统设计与实现会议(USENIX Symposium on Networked Systems Design and Implementation,NSDI)是计算机网络系统领域久负盛名的顶级会议,侧重于网络和分布式系统的设计、实现和测试,强调跨学科及实用性,广受学术界及产业界关注。大会论文收录严格,NSDI 2023收录率仅为16%,被录用的稿件反映了计算机网络系统领域国际最前沿的研究水平。

01.jpg

赵世振,上海交通大学长聘教轨副教授,博士生导师。2010年毕业于上海交通大学电子信息与电气工程学院,获学士学位。2015年毕业于普渡大学电子与计算机工程专业,获博士学位。2015-2019年初就职于美国谷歌网络组。2019年起加入上海交通大学约翰·霍普克罗夫特计算机科学中心。目前主要从事光电混合数据中心网络架构的研究,相关研究成果发表在NSDI,SIGMETRICS,ICNP,INFOCOM,TON等国际知名会议与期刊。

论文链接https://www.usenix.org/conference/nsdi23/presentation/zhao-shizhen

电子信息与电气工程学院
电子信息与电气工程学院