工业和信息化部主管 中国电子报社主办
收藏本站 投稿

人工智能

模型之下,算力之困

伴随国内“百模大战”愈演愈烈,AI产业化前夜似乎已在不知不觉中来临。海量数据爆发,计算量指数级增长,传统基础设施架构下的算力早已无法满足模型时代的算力需求。据OpenAI测算,全球AI训练所用的计算量呈现指数级增长,平均每3.43个月便会增长一倍,目前计算量已扩大30万倍,远超算力增长速度。国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》显示,当前我国超过30个城市正在建设或提出建设智算中心,但仍然无法满足相关的需求。智能算力的供需矛盾日益凸显,由AI大模型引发系列连锁反应正在让科技圈从“狂热”走向“冷静”。

算力之困已经爆发了?

打造一个大模型究竟需要多少算力?公开数据显示,ChatGPT初始所需的算力就是1万块英伟达A100(一种AI芯片),价格大约是1亿美元。后续的调优训练每天算力消耗大概是3640PFLOPS,需要7至8个算力达到500PFLOPS的数据中心支持,建设成本约为三四十亿元。

“大模型的用户量、访问速度、网络带宽、训练模式等都会影响到其算力需求的大小。”中国科学院计算技术研究所研究员张云泉在接受《中国电子报》记者采访时表示,“要训练一个中国版的ChatGPT,首先要部署价值至少1亿美元的硬件设施,还要准备大笔训练调优的费用。”

腾讯云异构计算产品负责人宋丹丹对《中国电子报》记者介绍称,大模型对算力的要求分为训练和推理两个阶段。训练需要短时间内的并行算力,而且要在短时间内能够做到交付,对算力的量、算力的稳定性和性能、弹性扩缩容能力有高要求。进入推理阶段,对于单位算力的性价比、成本、算力所处的位置、端应用服务是否能够快速连接等要求比较高。这就要求企业具备海量的可扩缩容的高性能算力,并且这些算力能够稳定交付。

腾讯云自研的星星海服务器在云上支持AI企业的大模型训练需求

近日,广发证券分析师对国内AI大模型的训练和推理阶段算力需求,以及相应的成本进行了测算。结果显示,在暂不考虑软件层面算法优化带来的模型消耗算力成本下降的前提下,国内大模型在训练与推理阶段或将产生相当于1.1万台或3.8万台(乐观假设下)高端AI服务器的算力需求,以单片A100售价10万元、AI加速卡价值量占服务器整机约70%计算,则对应约126亿元或434亿元增量AI服务器市场规模。

“实际上,算力之困已经爆发了。”张云泉坦言,国内目前大模型存在技术水平不高、同质化等问题,主要是算力层面和国外差距比较大,没有算力基础,后面算法等都无法进一步发展。这些大模型企业不是不愿意尽快更新迭代,而是算力不够用,只能精打细算。

浪潮云首席技术官孙思清在接受《中国电子报》记者采访时表示,从通用算力到智能算力,算力需求的变化其实与场景需求密切相关。伴随模型参数规模越来越大,智能化程度越来越高,对并行计算能力以及包括存储、网络等在内的底层基础硬件能力,以及扩展性、灵活性的要求也越高。此外,算力还要与大模型本身进行更好的适配。在这样的形势下,智能算力需求激增。

记者了解到,近几个月腾讯云智算商机相比去年同期增长10倍以上。另据一些服务器厂商透露,目前智算服务器出货量超过通用CPU了。不过,孙思清表示,未来,随着软硬件升级和大模型核心技术的提升,同等规模的大模型所需算力也许会逐渐减少。

提升算力利用率要做“加法”

随着AI大模型同雨后春笋一般层出不穷,人工智能应用加速向各行各业渗透,新一轮算力革命加速启动。工信部最新数据显示,中国算力总规模居全球第二,保持30%左右的年增长率。新增算力设施中,智能算力占比已超过50%。在多个权威市场分析机构的排名中,美国和中国都属于算力的领跑者,主要差距在于计算效率和应用水平。

“我国算力的利用率只有30%。”中国工程院院士邬贺铨坦言。他认为,算力利用率低一方面是因为虽然算力有了,但是存储没有跟上,算力不能得到很好发挥,建议进行数据优化;另一方面是因为算力使用门槛相对较高,只有极少数企业能做,建议降低门槛,让算力使用更简单便捷。

提升算力供给能力是重中之重。孙思清表示,硬件层面,CPU、GPU等核心硬件的性能越来越高,将有效提升算力供给能力;软件层面,模型算法和计算框架的优化,也能缓解一定的算力压力,减少对算力的依赖。

浪潮云基于运维安全大模型建立新型OpsCenter服务交付体

“不同于超算需要的64位双精度浮点运算,智能算力多为32及以下的低精度运算,它是分阶段的,可以通过硬件加速来实现算力提升。”张云泉表示。比如,随着数据量的增长和计算任务的复杂化,CPU、GPU需要具备更高的计算和处理能力,存储器需要具备更大的容量和更快的读写速度。同时,算力提升还需要更大的网络带宽、速度更快的网络设备,从而更快地完成大规模数据传输和处理。

“智算即异构计算。相对于只用CPU的通用计算,在服务器里CPU+GPU就是异构计算。背后的逻辑,是让最适合的专用硬件去做最适合的事。”宋丹丹表示,“对于整个算力的优化是分层级解决的。除了计算资源自身的架构和性能提升,也就是卡的迭代外,我们会在虚拟化层,通过GPU虚拟化或者计算池化等等一系列的技术,会把算力做更多的多机多卡互联,然后把它以云服务、容器、Serverless或者实例的模式更灵活地对外使用。在平台层,通过任务流的模式,以深入上层服务的方式进一步优化计算效率。”

优化算力调度要做“减法”

如果能让复杂的算力资源匹配与调度过程变得简单化,无疑会实现事半功倍的效果。有观点认为,公有云可以更大程度的调度多元算力,让算力资源的调配变得更快速、更简单、更便捷。

日前,复旦大学率先选择将智能计算平台CFFF部署在公有云上。据复旦大学浩清教授、人工智能创新与产业研究院院长漆远透露,有赖于公共云模式,跑在CFFF平台上的项目可享受到超千卡并行的智能算力,千卡并行的有效算力达到行业领先的92%,可拓展性达到万卡,万卡并行有效算力也可达90%。

复旦大学率先在公有云上部署智算平台CFFF

中国工程院院士、阿里云创始人王坚指出,从计算到智算,公共云提供的是像电一样的计算服务,把算力基础设施部署在公共云上将加速推动产业步入开放发展的新阶段。在他看来,AI大模型的训练和运营需要集约化、在线的算力基础设施。集约化的算力基础设施是基础支撑,要求更高的计算并行性、更高的计算效率、更低的计算成本,并且要求适配各类专用计算芯片。在线化对算力提出更高要求,从模型训练和应用看,需要形成“用户膨胀、使用反馈、模型进化”的飞轮效应,海量用户在线使用和大规模API调用集成等都需要在线化的算力资源。这种集约化、在线化的需求,与公共云集中建设运维、弹性伸缩、按需服务的商业模式不谋而合。

“云是大模型最好的承载方式,也是训练和应用大模型的最佳平台。”宋丹丹指出,一方面,云上具备领先的软硬件架构、面向未来的技术架构和研发体系。对AI企业而言,从本地搭建服务器架构可能不是一个合适的选择。借助云上丰富的能力和产品,如云上的算力、网络、向量数据库,企业可以聚焦于大模型研发本身,业务开发的敏捷度也能进一步提升。另一方面,打造大模型需要的算力规模,对企业现金流的挑战很大。云上的算力形式,可以根据用户需求灵活分配计算资源,同时也提升了大模型的训练和推理效率。

孙思清认为,公有云集约化的特点有助于算力共享模式的实现。大模型的训练并不是一直满负荷进行的,空闲的时候,可以利用云的模式将算力池化,与其他有算力需求的企业共享。但同时他也指出,现实操作起来存在困难,数据归属、隐私保护、合规性等问题都需要考虑。

他表示,算力可以当作“水电”来用,但数据不可以。“水电”能动,但“水厂”“电厂”不能动,分布式算力并不能适用所有场景。此外,算力互联还需建立标准化的运营体系,算力如何计量、如何付费、如何结算都需要探讨。

张云泉表示,具体问题要具体分析,不能一概而论。几十亿参数规模的大模型放在云上可以,几百亿、上千亿规模的大模型肯定不行。中等规模以下的智算中心可以部署在公有云上,但大规模的智算中心如果部署在公有云上,网络延迟会很大,难以支撑高端计算。另外,运营商也会考虑到用云成本以及上云后是否会被云厂商“锁定”等问题。

他认为,优化算力调度不能光靠算力网络的互联互通来解决问题。首先要尽快推进接口协议,定义标准、建立标准;其次要优化算力调度管理软件,同时建设安全体系;此外,要选择成熟芯片和生态完善的技术路线,这样智算中心用起来效率才能达到比较高的水平。建议组建生态联合体,共同打造1~2个大规模的智算中心,协同训练少数几个通用大模型,共享算力资源。”

“未来,大模型将走向相对开放的生态,开源是一个重要趋势。”孙思清说道。他建议,政府层面应做好算力资源的统筹,重点聚焦合规性管控和集约化建设,把握好节奏,避免“一窝蜂”导致大量算力的浪费。企业层面应持续加打技术创新与场景实践力度,分工合作,协同发展。

责任编辑:宋婧


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

服贸会

专题

2022年中国家电市场报告

3月29日,中国电子信息产业发展研究院(又称赛迪研究院)发布了《2022年中国家电市场报告》(以下简称《报告》)。《报告》显示,2022年,我国家电市场零售总额为8352亿元,同比下降5.2%,但线上渠道和下沉市场家电零售额增长明显,稳住了市场总盘,体现了我国家电市场的韧性。

聚焦2023年全国两会

北京3月5日电 第十四届全国人民代表大会第一次会议5日上午在北京人民大会堂开幕。近3000名新一届全国人大代表肩负人民重托出席盛会,认真履行宪法和法律赋予的神圣职责。

2023年全国工业和信息化工作会议

1月11日,全国工业和信息化工作会议在北京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大精神,认真贯彻落实中央经济工作会议精神和党中央、国务院决策部署,总结2022年工作,部署2023年重点任务。

第5届中国—东盟信息港论坛

2022年9月16日,由国家互联网信息办公室、国家发展和改革委员会、工业和信息化部、广西壮族自治区人民政府联合主办的第五届中国—东盟信息港论坛将在广西南宁开幕。该论坛主要围绕数字经济发展和智能互联、数据互通、合作互利等开展交流研讨、建言献策,进一步推进互联网经贸服务、人文交流和技术合作。

2022“三品”全国行

为贯彻落实《国务院关于印发扎实稳住经济一揽子政策措施的通知》要求,加快推进数字化助力消费品工业“三品”战略实施,进一步提振消费信心、挖掘消费潜力,巩固增强消费对经济发展的基础性作用,工业和信息化部近期组织开展2022“三品”全国行活动。中国电子报特开辟2022“三品”全国行专栏,报道活动进展、专家观点、政策解读,敬请关注。

世界超高清视频(4K/8K)产业发展大会

会议

2023世界超高清视频产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2023世界超高清视频产业发展大会在广州召开。5月9日,广州市委副书记、市长郭永航,中央广播电视总台副台长胡劲军,国家广播电视总局副局长朱咏雷,工业和信息化部总工程师赵志国,广东省委副书记、省长王伟中出席开幕式并先后致辞。

2022世界显示产业大会

11月30日,由四川省人民政府、工业和信息化部主办的2022世界显示产业大会在四川省成都市开幕。全国政协副主席、民革中央常务副主席郑建邦以视频方式出席开幕式并致辞。四川省委书记王晓晖出席开幕式并宣布大会开幕。

2022世界集成电路大会

11月17日,由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。安徽省委书记、省人大常委会主任郑栅洁出席会议。安徽省委副书记、省长王清宪,工业和信息化部党组成员、副部长王江平出席开幕式并致辞。

2022世界VR产业大会

11月12日,由工业和信息化部、江西省人民政府共同主办的2022世界VR产业大会在江西南昌召开。国务委员王勇出席大会开幕式并发表重要讲话。江西省委书记、省人大常委会主任易炼红,工业和信息化部党组成员、副部长王江平,江西省委常委、南昌市委书记李红军出席开幕式并致辞。

2022CITE第十届中国电子信息博览会开幕峰会

8月16日,第十届中国电子信息博览会(CITE 2022)在深圳举办。深圳市人民政府副市长张华,广东省工业和信息化厅党组成员、副厅长曲晓杰,工业和信息化部电子信息司副司长史惠康出席开幕式并先后致辞。

2021世界VR产业大会云峰会

10月19日—20日,由工业和信息化部和江西省人民政府共同主办的2021世界VR产业大会云峰会在南昌举办。国务委员王勇出席大会开幕式并发表讲话,江西省委书记易炼红,工业和信息化部副部长王志军,江西省委常委、南昌市委书记李红军出席开幕式并致辞。

世界显示产业大会

本周排行