封小韵:算力网络,驱动AI发展的核心动力
专题:2024中国高新技术论坛
“2024 中国高新技术论坛”于11月14日在深圳举行。思科大中华区副总裁封小韵出席并演讲。
以下为演讲实录:
封小韵:刚才两位院士的介绍非常精彩,给我特别特别大的压力。既然大家压力这么大,我希望这部分跟大家的汇报这个有点轻松也有点新的话题上给大家有一些新的感受。
我的题目是“算力网络,驱动AI发展的核心动力”。我知道在座各位都是各自行业的专家,所以你们可能不太认可凭什么说算力网络是驱动AI发展的核心动力。这就对了,我就是要把这个题目抛出来,想跟大家交流一下,希望接下来这十几分钟大家在我的介绍里有一些新的认知,跟原来不一样的看法,这是我这次希望带给大家的一些新知。
大家如果对我刚才的观点有自己的看法,我是从大家都有共识的点开始讲。
AI三要素,可能大家都没有什么异议,模型和应用,刚才刘院士讲了非常多实际场景的应用,数据和基础架构。这三点共识大家应该都同意。
思科是做基础架构的,在基础架构里三个重要组成部分:能源、服务器、芯片(GPU及网络)。
网络有什么了不起的?我引用了全球最顶级的做大模型数据训练负责人对GPU和基础架构的看法。GPU像金子一样又贵又少,肯定不能让它闲着,用什么来让它满负荷运转?那就是数据。怎么样才能做到不断喂养数据给它让它满负荷运转?只有网络。AI的网络跟传统所谓数据中心网络有什么区别?上图讲到的是AI对网络的三种不同应用。大规模GPU并行计算要求这个网络是无损的,现在的GPU都是用O2O的集合通讯方式,现在训练时要求每一个GPU训练出来的结果大家同步等待,就有了延迟稳定需求。
这个图就可以看到,传统数据的流量模式在个体流量上是大量异步小带宽,叠加之后变成均衡的流量结果,前面三个要求带来的完全不一样的模型显示。
小结:AI对网络的要求就三个符号:00、++、--。00,对网络的要求无损耗,不丢包;++,网络带宽要越来越大;--,时延要越来越少,越来越减。什么样的网络技术才能满足AI的算力网络要求?普通传统数据中心网络流量跟AI网络流量完全不一样,技术层面上,这一两年可能大家在AI网络上花的钱最多的是IB,用INFINIBAND来做。我这张图是把传统以太网技术跟IB关键技术上的参数维度列出来。
红色代表的是以太网的优势,灰色代表的是IB的优势(见PPT)。一般关键因素上都是以太网全面领先,碾压性的领先。但为什么大家还是花这么多钱用IB更多?因为几个关键因素:带宽、时延、无损以及跟GPU尤其是英伟达自己的GPU的适配性,都是IB做得更好,所以现在IB的价格贵很多,IB的人才非常少。IB的普及性以及弹性、可收缩性非常有限,大家都是花大价钱做这件事情。
某一个程度上讲,阻碍了AI算力发展的,一方面是GPU像金子一样贵,另外是算力网络使得这个算力的发展雪上加霜。
好消息是刚才我说到的几个关键因素里,以太网这一两年有了非常大的发展,在一些关键因素的表现上已经非常接近,甚至可以说很快就要追上了。这个追赶的动作是怎么发生的?以太网凭什么能够在短时间内有这些变化?
我希望通过这三张图能够解释刚才红圈部分的变化是怎么发生的。
左边的图可以看到,现在无论是前端还是后端,算力网络上以太网的使用量已经超过了IB。马斯克最近10万卡的集群,大量是用的以太网算力网络来做。为什么大家敢用以太网来做?第二幅图红色部分可以看到,带宽和时延这几年的变化。以太网已经从某种程度上超越了IB。
刚才说到一个很重要的原因,GPU的适配性,尤其是跟英伟达,业界俗称全家桶,它的GPU、IB一路这样下来。今年超级以太网联盟会发布怎么样让GPU和内部系统的Scale统一起来,通过以太网来实现,思科也是里面的创始成员。因为我们以太网的发展有现在这三个不同的动作,使得刚才我说的那几个因素追得越来越近了。
我汇报一下思科现在的算力网络大概做到了什么程度。
以前跟思科打过交道的都知道我们传统做系统包括软件,以及到光模块,全部产品都已经非常完善了。用思科的AI算力网络,价格已经可以做到非常低,跟IB比起来可以说是1:N之间的关系。
下面说说软件,基于AI网络特点,有了一些软件和技术上全调度的算法。我放了一张调度算法图,具体内容在白皮书里详细技术介绍,可以会后再交流。
AI算力网络,除了刚才讲到的网络流量本身,它还有好几个层面需要考虑。不同层面有一些不同的应对方式,包括数据和安全。
我希望刚才非常精简和快速的介绍能跟大家汇报一下最近我们在以太网上的进展,怎么样跟IB做追赶和匹配,使得大家做AI算力网络时易用性、适配性、价格和普适程度,都能大力降下来,从而推动AI算力的发展。
最后,在这么多技术专家跟前,我要讲一个小小的话题,也是作为我今天这个内容的结束。
技术的尽头都是哲学,前段时间诺贝尔奖得主Hintin讲他最自豪的事情是他的学生把西蒙干掉。(56:31)目前我们看到在硅谷AI进进出出的人员变更,很多时候都是这两派之争的结果,这里面的战略、理念包括他们的哲学思想,深深影响现在的政策。这两派的竞争很激烈,但有几个点是共识的,包括AI对风险、伦理道德以及全球合作上都要有投入、控制和共识。
为什么思科要加入《人工智能罗马倡议》以及以中国作为基地的世界互联网大会刚刚提出的《发展负责任的生成式人工智能研究报告及共识文件》,思科都在里面积极参与。AI发展到最后还是要为人类服务,如果AI发展得太快,对人类造成伤害或者一些不可逆转的结果,应该引起我们的反思,并且用我们能力范围内好好思考这些问题。
最后,希望高交会办得越来越好,促进AI行业的发展,让AI发展的同时对人类越来越好,谢谢各位!
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。