如何让算力使用像水电一样？

“我们的未来不再是经历进化，而是爆炸。”——雷蒙德·库茨魏尔

此刻，人类来到了一个新的「技术奇点」。在此之前，每一次科技革命，背后都是新一代通用技术的诞生。2022 年底，ChatGPT横空出世，宣告了人工智能技术走向通用，也意味着一场「算力」的文艺复兴，正在到来。

什么是算力？

小到一块电子表，大到手机、电脑，都在进行着计算，区别在于运算量大小。FLOPS – 每秒浮点运算次数，常常被用来衡量算力。一台笔记本电脑大概在GFLOPS级别：每秒进行 10 亿次运算。

一百万台笔记本电脑一起，连续计算整整十年，才能满足一次GPT-3.5的模型训练需要的算力，大概是3640PFLOP/s-day。

手机达成全球1亿用户用了16年，互联网用了7年，而ChatGPT仅仅用了2个月——这背后是每个人对通用人工智能（AGI）这一崭新生产力的热切渴望，也迫使着所有行业需要接受这种新的生产范式，并立刻开始转变。

通用人工智能为我们勾勒了未来的雏形，但除了几大科技巨头外，几乎没有企业承担得起大模型训练的高昂成本。

要想通过那道技术的窄门，必须实现「普慧算力」的目标，让算力成为像水、电一样普遍、通用的公共资源。

过去20年，企业经历了上ERP、上云，来到上AI的关键时机，究竟该如何部署一切，才能迎接企业生产力革命的第三次浪潮？

这是坐落于北京的联想集团机房，机柜构成的密林，叫做数据中心。

互联网上几乎所有运算，都在遍布全球的无数个数据中心当中进行。这些轰然咆哮的机柜，构成了这个世界上成本最高昂，也是最难调度的庞大集群之一。作为全球性革命的最底层，这个隐蔽的世界究竟如何运转？

在这里，你能找到这台堪称国内AI训练领域天花板的联想服务器。而只有拆开它，我们才能看到它的真正实力。

首先是性能，为了能用更少的空间实现更高的性能，它使用世界上性能第一梯队的GPU，插满八张后，这台服务器的算力数值能达到可怕的32PFLOPS。即便如此，要训练一个强大的AI，也需要许多台服务器。

人工智能大模型采用的是分布式计算，计算参数由CPU、以太网络组成的数据网络分发到由GPU、高速网络组成的AI训练网络，经过AI训练网络训练后，训练结果再回传到数据网络汇总，完成一次训练。

只需要一百多台（根据ChatGPT-3.5训练数据推算理论值）这样的联想AI服务器全力开工，就能在一个月内完成GPT-3.5模型的训练。

高效的前提是这百余台服务器能够全力以赴，任意一台服务器的任何GPU出现故障，都会影响整个模型的训练。

高可靠性，才是服务器设计过程中面对的最严苛挑战。

在这样一个高度为7U的紧凑空间中，需要预留庞大的散热通道，两排风扇构成的风扇墙负责将计算过程中产生的超高温带走。而为了支撑这台高性能猛兽，还需要4个3kW 电源，相当于80台冰箱的能耗，为此，还需要做好冗余设计。

大模型训练，一旦断电就会功亏一篑。所以，这台联想AI服务器不仅设计了多电源冗余，在电源故障时，备用电源随时供电。另外，在城市供电波动甚至断电时，这台服务器还能通过市电冗余设计，实时切换供电线路。

硬件仅仅是一个开始，为了榨干每一分算力，更多的挑战藏在肉眼不可见之处。

这是BMC——主板管理控制器。BMC掌握着一台服务器的基本生命体征，通过它的操作界面就可以一目了然地看到包括温度、电压、风扇转速、乃至CPU、GPU的功耗在内的百余个参数，每个参数的变化，都会最终影响算力的输出。

这些参数影响有多大？在一场大模型训练过程中，用户发现一台服务器的功率只达到了额定的50%，算力与功率直接相关，如果一直保持这种严重低功耗的状态，算力就在白白流失。

为此，联想集团的技术人员在这数百条参数中仔细排查，终于在一项名为功耗控制的设置中找到了问题的关键，将它关闭。它可以不限制GPU满功耗运转，实现算力满载。

但是，利用BMC实现单台服务器调优还远远不够，通用人工智能所渴望的算力瀚海，不仅仅是一台机柜、一间机房，而是遍布全国乃至全球数万台服务器构建的庞大算力集群。

联想集团自主研发的LiCO – 联想智能计算平台，它才是释放每台GPU的工作潜能，最终榨干全部算力的关键角色。

当AI大模型的算力需求纷纷涌来，LiCO能精确找准任务适配的服务器调度方案。面对单个庞大的任务量，LiCO能调度多台服务器共同运算。而对于一些企业小规模、多用户的任务需求，LiCO也能将单台服务器的GPU独立拆分给每个任务。

在高度并发的需求汹涌而来时，它甚至可以打破数据中心的物理界限，将一个实体GPU池化为任意数量的虚拟GPU，单卡执行多个任务，必要时，甚至能第一时间调度全球任意公有云算力进行支援。

而LiCO的强大之处，绝不仅仅体现在它对遍布这个世界的每块GPU了如指掌。

对于大多数企业来说，搭建模型，才是算力之上更难以负担的成本。在这一方面，联想集团早已准备就绪：提供预置解决方案，常用的AI模型已经部署完成。所有用户打开LiCO，就可以轻松构建属于自己的ChatGPT和Midjourney。

从搭建平台、调度算力到定制方案、普及模型，将所有算力变为通用能源，并为所有企业部署 AI 的过程中，联想集团更像是一个恪守底层的算力基础设施建设者。当下，全球算力告急，联想正在张开坚实的臂膀，以「普慧」算力，迎接即将到来的全新发展机遇。

现在，这些算力正在崭露头角，每一刻都在产生新的极限，而联想，正在把它们变成现实。

当我们问及当下最成熟的人工智能应用ChatGPT和Midjourney，在算力的增长下，人工智能技术会将我们引向什么样的未来？它们给出的，是我们难以想象的画卷。

其实，我们谁也无法猜测人工智能会将我们引向什么样的未来，但至少，未来已经藏在这些不断咆哮着的机柜当中。

本站内容及图片来自网络,版权归原作者所有,内容仅供读者参考,不承担相关法律责任,如有侵犯请联系我们609448834