如何让算力使用像水电一样?

“我们的未来不再是经历进化,而是爆炸。”——雷蒙德·库茨魏尔

此刻,人类来到了一个新的「技术奇点」。在此之前,每一次科技革命,背后都是新一代通用技术的诞生。2022 年底,ChatGPT横空出世,宣告了人工智能技术走向通用,也意味着一场「算力」的文艺复兴,正在到来。

什么是算力?

小到一块电子表,大到手机、电脑,都在进行着计算,区别在于运算量大小。FLOPS – 每秒浮点运算次数,常常被用来衡量算力。一台笔记本电脑大概在GFLOPS级别:每秒进行 10 亿次运算。

一百万台笔记本电脑一起,连续计算整整十年,才能满足一次GPT-3.5的模型训练需要的算力,大概是3640PFLOP/s-day。

手机达成全球1亿用户用了16年,互联网用了7年,而ChatGPT仅仅用了2个月——这背后是每个人对通用人工智能(AGI)这一崭新生产力的热切渴望,也迫使着所有行业需要接受这种新的生产范式,并立刻开始转变。

通用人工智能为我们勾勒了未来的雏形,但除了几大科技巨头外,几乎没有企业承担得起大模型训练的高昂成本。

要想通过那道技术的窄门,必须实现「普慧算力」的目标,让算力成为像水、电一样普遍、通用的公共资源。

过去20年,企业经历了上ERP、上云,来到上AI的关键时机,究竟该如何部署一切,才能迎接企业生产力革命的第三次浪潮?

这是坐落于北京的联想集团机房,机柜构成的密林,叫做数据中心。

互联网上几乎所有运算,都在遍布全球的无数个数据中心当中进行。这些轰然咆哮的机柜,构成了这个世界上成本最高昂,也是最难调度的庞大集群之一。作为全球性革命的最底层,这个隐蔽的世界究竟如何运转?

在这里,你能找到这台堪称国内AI训练领域天花板的联想服务器。而只有拆开它,我们才能看到它的真正实力。

首先是性能,为了能用更少的空间实现更高的性能,它使用世界上性能第一梯队的GPU,插满八张后,这台服务器的算力数值能达到可怕的32PFLOPS。即便如此,要训练一个强大的AI,也需要许多台服务器。

人工智能大模型采用的是分布式计算,计算参数由CPU、以太网络组成的数据网络分发到由GPU、高速网络组成的AI训练网络,经过AI训练网络训练后,训练结果再回传到数据网络汇总,完成一次训练。

只需要一百多台(ChatGPT-3.5训练数据推算理论值)这样的联想AI服务器全力开工,就能在一个月内完成GPT-3.5模型的训练。

高效的前提是这百余台服务器能够全力以赴,任意一台服务器的任何GPU出现故障,都会影响整个模型的训练。

高可靠性,才是服务器设计过程中面对的最严苛挑战。

在这样一个高度为7U的紧凑空间中,需要预留庞大的散热通道,两排风扇构成的风扇墙负责将计算过程中产生的超高温带走。而为了支撑这台高性能猛兽,还需要4个3kW 电源,相当于80台冰箱的能耗,为此,还需要做好冗余设计。

大模型训练,一旦断电就会功亏一篑。所以,这台联想AI服务器不仅设计了多电源冗余,在电源故障时,备用电源随时供电。另外,在城市供电波动甚至断电时,这台服务器还能通过市电冗余设计,实时切换供电线路。

硬件仅仅是一个开始,为了榨干每一分算力,更多的挑战藏在肉眼不可见之处。

这是BMC——主板管理控制器。BMC掌握着一台服务器的基本生命体征,通过它的操作界面就可以一目了然地看到包括温度、电压、风扇转速、乃至CPU、GPU的功耗在内的百余个参数,每个参数的变化,都会最终影响算力的输出。

这些参数影响有多大?在一场大模型训练过程中,用户发现一台服务器的功率只达到了额定的50%,算力与功率直接相关,如果一直保持这种严重低功耗的状态,算力就在白白流失。

为此,联想集团的技术人员在这数百条参数中仔细排查,终于在一项名为功耗控制的设置中找到了问题的关键,将它关闭。它可以不限制GPU满功耗运转,实现算力满载。

但是,利用BMC实现单台服务器调优还远远不够,通用人工智能所渴望的算力瀚海,不仅仅是一台机柜、一间机房,而是遍布全国乃至全球数万台服务器构建的庞大算力集群。

联想集团自主研发的LiCO – 联想智能计算平台,它才是释放每台GPU的工作潜能,最终榨干全部算力的关键角色。

当AI大模型的算力需求纷纷涌来,LiCO能精确找准任务适配的服务器调度方案。面对单个庞大的任务量,LiCO能调度多台服务器共同运算。而对于一些企业小规模、多用户的任务需求,LiCO也能将单台服务器的GPU独立拆分给每个任务。

在高度并发的需求汹涌而来时,它甚至可以打破数据中心的物理界限,将一个实体GPU池化为任意数量的虚拟GPU,单卡执行多个任务,必要时,甚至能第一时间调度全球任意公有云算力进行支援。

而LiCO的强大之处,绝不仅仅体现在它对遍布这个世界的每块GPU了如指掌。

对于大多数企业来说,搭建模型,才是算力之上更难以负担的成本。在这一方面,联想集团早已准备就绪:提供预置解决方案,常用的AI模型已经部署完成。所有用户打开LiCO,就可以轻松构建属于自己的ChatGPT和Midjourney。

从搭建平台、调度算力到定制方案、普及模型,将所有算力变为通用能源,并为所有企业部署 AI 的过程中,联想集团更像是一个恪守底层的算力基础设施建设者。当下,全球算力告急,联想正在张开坚实的臂膀,以「普慧」算力,迎接即将到来的全新发展机遇。

现在,这些算力正在崭露头角,每一刻都在产生新的极限,而联想,正在把它们变成现实。

当我们问及当下最成熟的人工智能应用ChatGPT和Midjourney,在算力的增长下,人工智能技术会将我们引向什么样的未来?它们给出的,是我们难以想象的画卷。

其实,我们谁也无法猜测人工智能会将我们引向什么样的未来,但至少,未来已经藏在这些不断咆哮着的机柜当中。

本站内容及图片来自网络,版权归原作者所有,内容仅供读者参考,不承担相关法律责任,如有侵犯请联系我们609448834

(0)
酷族派酷族派
上一篇 2023年9月2日
下一篇 2023年9月2日

相关推荐