模型之下，算力之困

作者：宋婧来源：中国电子报、电子信息产业网发布时间：2023-07-27 15:45 我要评论

伴随国内“百模大战”愈演愈烈，AI产业化前夜似乎已在不知不觉中来临。海量数据爆发，计算量指数级增长，传统基础设施架构下的算力早已无法满足模型时代的算力需求。据OpenAI测算，全球AI训练所用的计算量呈现指数级增长，平均每3.43个月便会增长一倍，目前计算量已扩大30万倍，远超算力增长速度。国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》显示，当前我国超过30个城市正在建设或提出建设智算中心，但仍然无法满足相关的需求。智能算力的供需矛盾日益凸显，由AI大模型引发系列连锁反应正在让科技圈从“狂热”走向“冷静”。

算力之困已经爆发了？

打造一个大模型究竟需要多少算力？公开数据显示，ChatGPT初始所需的算力就是1万块英伟达A100（一种AI芯片），价格大约是1亿美元。后续的调优训练每天算力消耗大概是3640PFLOPS，需要7至8个算力达到500PFLOPS的数据中心支持，建设成本约为三四十亿元。

“大模型的用户量、访问速度、网络带宽、训练模式等都会影响到其算力需求的大小。”中国科学院计算技术研究所研究员张云泉在接受《中国电子报》记者采访时表示，“要训练一个中国版的ChatGPT，首先要部署价值至少1亿美元的硬件设施，还要准备大笔训练调优的费用。”

腾讯云异构计算产品负责人宋丹丹对《中国电子报》记者介绍称，大模型对算力的要求分为训练和推理两个阶段。训练需要短时间内的并行算力，而且要在短时间内能够做到交付，对算力的量、算力的稳定性和性能、弹性扩缩容能力有高要求。进入推理阶段，对于单位算力的性价比、成本、算力所处的位置、端应用服务是否能够快速连接等要求比较高。这就要求企业具备海量的可扩缩容的高性能算力，并且这些算力能够稳定交付。

腾讯云自研的星星海服务器在云上支持AI企业的大模型训练需求

近日，广发证券分析师对国内AI大模型的训练和推理阶段算力需求，以及相应的成本进行了测算。结果显示，在暂不考虑软件层面算法优化带来的模型消耗算力成本下降的前提下，国内大模型在训练与推理阶段或将产生相当于1.1万台或3.8万台（乐观假设下）高端AI服务器的算力需求，以单片A100售价10万元、AI加速卡价值量占服务器整机约70%计算，则对应约126亿元或434亿元增量AI服务器市场规模。

“实际上，算力之困已经爆发了。”张云泉坦言，国内目前大模型存在技术水平不高、同质化等问题，主要是算力层面和国外差距比较大，没有算力基础，后面算法等都无法进一步发展。这些大模型企业不是不愿意尽快更新迭代，而是算力不够用，只能精打细算。

浪潮云首席技术官孙思清在接受《中国电子报》记者采访时表示，从通用算力到智能算力，算力需求的变化其实与场景需求密切相关。伴随模型参数规模越来越大，智能化程度越来越高，对并行计算能力以及包括存储、网络等在内的底层基础硬件能力，以及扩展性、灵活性的要求也越高。此外，算力还要与大模型本身进行更好的适配。在这样的形势下，智能算力需求激增。

记者了解到，近几个月腾讯云智算商机相比去年同期增长10倍以上。另据一些服务器厂商透露，目前智算服务器出货量超过通用CPU了。不过，孙思清表示，未来，随着软硬件升级和大模型核心技术的提升，同等规模的大模型所需算力也许会逐渐减少。

提升算力利用率要做“加法”

随着AI大模型同雨后春笋一般层出不穷，人工智能应用加速向各行各业渗透，新一轮算力革命加速启动。工信部最新数据显示，中国算力总规模居全球第二，保持30%左右的年增长率。新增算力设施中，智能算力占比已超过50%。在多个权威市场分析机构的排名中，美国和中国都属于算力的领跑者，主要差距在于计算效率和应用水平。

“我国算力的利用率只有30%。”中国工程院院士邬贺铨坦言。他认为，算力利用率低一方面是因为虽然算力有了，但是存储没有跟上，算力不能得到很好发挥，建议进行数据优化；另一方面是因为算力使用门槛相对较高，只有极少数企业能做，建议降低门槛，让算力使用更简单便捷。

提升算力供给能力是重中之重。孙思清表示，硬件层面，CPU、GPU等核心硬件的性能越来越高，将有效提升算力供给能力；软件层面，模型算法和计算框架的优化，也能缓解一定的算力压力，减少对算力的依赖。

浪潮云基于运维安全大模型建立新型OpsCenter服务交付体

“不同于超算需要的64位双精度浮点运算，智能算力多为32及以下的低精度运算，它是分阶段的，可以通过硬件加速来实现算力提升。”张云泉表示。比如，随着数据量的增长和计算任务的复杂化，CPU、GPU需要具备更高的计算和处理能力，存储器需要具备更大的容量和更快的读写速度。同时，算力提升还需要更大的网络带宽、速度更快的网络设备，从而更快地完成大规模数据传输和处理。

“智算即异构计算。相对于只用CPU的通用计算，在服务器里CPU+GPU就是异构计算。背后的逻辑，是让最适合的专用硬件去做最适合的事。”宋丹丹表示，“对于整个算力的优化是分层级解决的。除了计算资源自身的架构和性能提升，也就是卡的迭代外，我们会在虚拟化层，通过GPU虚拟化或者计算池化等等一系列的技术，会把算力做更多的多机多卡互联，然后把它以云服务、容器、Serverless或者实例的模式更灵活地对外使用。在平台层，通过任务流的模式，以深入上层服务的方式进一步优化计算效率。”

优化算力调度要做“减法”

如果能让复杂的算力资源匹配与调度过程变得简单化，无疑会实现事半功倍的效果。有观点认为，公有云可以更大程度的调度多元算力，让算力资源的调配变得更快速、更简单、更便捷。

日前，复旦大学率先选择将智能计算平台CFFF部署在公有云上。据复旦大学浩清教授、人工智能创新与产业研究院院长漆远透露，有赖于公共云模式，跑在CFFF平台上的项目可享受到超千卡并行的智能算力，千卡并行的有效算力达到行业领先的92%，可拓展性达到万卡，万卡并行有效算力也可达90%。

复旦大学率先在公有云上部署智算平台CFFF

中国工程院院士、阿里云创始人王坚指出，从计算到智算，公共云提供的是像电一样的计算服务，把算力基础设施部署在公共云上将加速推动产业步入开放发展的新阶段。在他看来，AI大模型的训练和运营需要集约化、在线的算力基础设施。集约化的算力基础设施是基础支撑，要求更高的计算并行性、更高的计算效率、更低的计算成本，并且要求适配各类专用计算芯片。在线化对算力提出更高要求，从模型训练和应用看，需要形成“用户膨胀、使用反馈、模型进化”的飞轮效应，海量用户在线使用和大规模API调用集成等都需要在线化的算力资源。这种集约化、在线化的需求，与公共云集中建设运维、弹性伸缩、按需服务的商业模式不谋而合。

“云是大模型最好的承载方式，也是训练和应用大模型的最佳平台。”宋丹丹指出，一方面，云上具备领先的软硬件架构、面向未来的技术架构和研发体系。对AI企业而言，从本地搭建服务器架构可能不是一个合适的选择。借助云上丰富的能力和产品，如云上的算力、网络、向量数据库，企业可以聚焦于大模型研发本身，业务开发的敏捷度也能进一步提升。另一方面，打造大模型需要的算力规模，对企业现金流的挑战很大。云上的算力形式，可以根据用户需求灵活分配计算资源，同时也提升了大模型的训练和推理效率。

孙思清认为，公有云集约化的特点有助于算力共享模式的实现。大模型的训练并不是一直满负荷进行的，空闲的时候，可以利用云的模式将算力池化，与其他有算力需求的企业共享。但同时他也指出，现实操作起来存在困难，数据归属、隐私保护、合规性等问题都需要考虑。

他表示，算力可以当作“水电”来用，但数据不可以。“水电”能动，但“水厂”“电厂”不能动，分布式算力并不能适用所有场景。此外，算力互联还需建立标准化的运营体系，算力如何计量、如何付费、如何结算都需要探讨。

张云泉表示，具体问题要具体分析，不能一概而论。几十亿参数规模的大模型放在云上可以，几百亿、上千亿规模的大模型肯定不行。中等规模以下的智算中心可以部署在公有云上，但大规模的智算中心如果部署在公有云上，网络延迟会很大，难以支撑高端计算。另外，运营商也会考虑到用云成本以及上云后是否会被云厂商“锁定”等问题。

他认为，优化算力调度不能光靠算力网络的互联互通来解决问题。首先要尽快推进接口协议，定义标准、建立标准；其次要优化算力调度管理软件，同时建设安全体系；此外，要选择成熟芯片和生态完善的技术路线，这样智算中心用起来效率才能达到比较高的水平。建议组建生态联合体，共同打造1~2个大规模的智算中心，协同训练少数几个通用大模型，共享算力资源。”

“未来，大模型将走向相对开放的生态，开源是一个重要趋势。”孙思清说道。他建议，政府层面应做好算力资源的统筹，重点聚焦合规性管控和集约化建设，把握好节奏，避免“一窝蜂”导致大量算力的浪费。企业层面应持续加打技术创新与场景实践力度，分工合作，协同发展。

责任编辑：宋婧

工业和信息化部主管中国电子报社主办

人工智能

模型之下，算力之困

相关链接

视频

深入学习贯彻党的二十大精神，工信系统在行动——重庆：绘就万亿级新能源汽车新蓝图

总编对话瓴羊CEO朋新宇：智能化就是大模型加上好数据

专题

2022年中国家电市场报告

聚焦2023年全国两会

2023年全国工业和信息化工作会议

第5届中国—东盟信息港论坛

2022“三品”全国行

会议

2023世界超高清视频产业发展大会

2022世界显示产业大会

2022世界集成电路大会

2022世界VR产业大会

2022CITE第十届中国电子信息博览会开幕峰会

2021世界VR产业大会云峰会

本周排行

工业和信息化部主管 中国电子报社主办

人工智能

模型之下，算力之困

相关链接

视频

深入学习贯彻党的二十大精神，工信系统在行动——重庆：绘就万亿级新能源汽车新蓝图

总编对话瓴羊CEO朋新宇：智能化就是大模型加上好数据

专题

会议

本周排行

工业和信息化部主管中国电子报社主办