工业和信息化部主管 中国电子报社主办
收藏本站 投稿

人工智能

如何驯服AI大模型“能耗巨兽”

640 - 2023-11-29T100157.089.png

来源:恩智浦官网

AIGC及其背后的大模型,是不折不扣的“能耗巨兽”。在部署大模型的过程中,AI工作负载带来的功耗和成本挑战,已然成为产业链的“阿喀琉斯之踵”。近期,蚂蚁集团联合多所高校发布的《围绕绿色计算发展机遇的一项调查》(以下简称“调查”)指出,绿色措施、节能人工智能、节能计算系统和可持续发展的人工智能用是构建绿色计算的四个关键,强调了人工智能的节能降耗对于计算产业的意义。与此同时,恩智浦、英特尔、英伟达等半导体企业也在积极应对大模型带来的能耗挑战,从架构创新、软硬件协同方案、网络平台等多个层面,为大模型部署提质降耗。

为“大脑”分担任务 半导体厂商的架构创新方法论

大模型作为近年来最重要的新兴计算场景,对芯片的算力和内存需求都提出了极大挑战。北京大学集成电路学院研究员贾天宇向《中国电子报》记者表示,在传统摩尔定律难以为继的背景下,半导体企业需要通过利用架构设计、制造工艺、先进封装等多个层级协同的设计手段来满足大模型的计算需求。例如,通过采用异构计算、存算一体、三维堆叠等先进计算理念降低芯片的能耗,提高单一芯片的性能和能效。此外,针对大模型的大算力需求,芯片的可扩展性也变得尤为重要。重视多芯片的系统级扩展和互联技术,也成为半导体企业技术研发中不可忽视的重要内容。

“在控制大模型带来的能耗和成本方面,半导体企业可以通过优化计算架构、提升能效等措施,降低大模型的能耗和成本。但针对大规模的大模型训练,需要与软件生态、数据中心建设等多环节配合,共同为企业和开发者提供更具成本效益的解决方案。”贾天宇说。

如贾天宇所说,架构创新素来被视为实现芯片技术突破的发动机。在采访中,多家半导体企业负责人都向记者阐述了基于架构创新和优化为大模型增效降耗的思路。

长期以来,人工智能及其热门应用常常被喻为“大脑”,比如自动驾驶被喻为“车轮上的大脑”。但是,人脑并不是仅仅依靠大脑工作,脑干、小脑也承担了许多任务,比如控制心跳和体温,保持身体的稳定性、协调性等。如果大脑进行所有的决策和控制,人体就很难负担大脑需要的能量。

比照包含大脑、小脑、脑干的人脑系统,恩智浦半导体执行副总裁兼首席技术官Lars Reger为记者描述了一种更加高效节能的计算体系:以AI算力芯片为“大脑”,进行高效能的计算和加速;以网关处理器为“小脑”,实现不同功能区的互联和集成,以及异构网络中的数据处理;以MCU、感知芯片、联网芯片作为“脑干”,实现感知和实时任务处理。

“有的车厂CEO告诉我们,由于能耗的问题,他们不得不降低汽车的续航,这主要是因为现有的技术架构不够高效。所以在开发系统时,我们要确保在正常运行的情况下,不需要时刻激活大脑的功能,只要小脑就可以了。比如我们在开车的时候,更多是基于平时的规则和训练下意识地驾驶,只有遇到挑战的时候才需要用到大脑。”Lars Reger向《中国电子报》记者表示。

据悉,恩智浦已经将这套计算理念集成到了智能驾驶的技术架构中,架构中“小脑”和“脑干”部分由恩智浦的技术来保障的。S32G作为网关处理器,扮演小脑的角色;S32K等用于车身各部分控制的MCU、S32R等传感芯片、S32Z等域控制和区域控制芯片以及以太网连接产品,共同构成“脑干”,以应对能耗对续航的局限和挑战。此外,《中国电子报》记者获悉,恩智浦即将推出最新的5纳米级旗舰产品,能够把数据从车辆传输到控制单元。

跟着最新算法走 随时提供软硬件协同方案

随着业界对大模型的研发和部署逐步深入,新的压缩、调优方式层出不穷,从算法和框架层面实现对大模型的提效降耗。但算法、框架的更新,需要半导体厂商及时跟上,提供相应的软硬件协同方案,才能实现新算法、新框架的部署。

比如,大模型的调优方式,正在从完全微调走向更加简捷、低功耗的微调方式。蚂蚁集团联合多所高校发布的《围绕绿色计算发展机遇的一项调查》提到,传统的调优方式会微调所有模型参数,使通用大型语言模型适应特定的目标任务,这一过程称为完全微调。然而,当大模型的参数规模从百万、千万向数亿乃至万亿规模发展,完全微调会带来更长的程序代码运行时间和高昂的存储成本。为了解决这个问题,更加简捷的微调方法已成为大模型的研究热点。比如PEFT(高效参数微调)仅更新模型参数的子集或附加的模块,使大模型适配下游任务,以降低微调所需的计算和存储资源;基于提示的微调则训练大模型根据特定提示或指令生成响应,引导大模型做出更理想的决策和行动。由于无需添加更多的训练数据,基于提示的微调能节省大量的时间和成本,以实现更加绿色的计算。

围绕基于提示的微调等最新微调方式,英特尔基于AI加速引擎和配套的软件工具,进一步减少了微调所需的工作量。第四代英特尔至强可扩展处理器中内置了矩阵乘法加速器AMX,能够更快速地处理 BFloat16(BF16)或INT8数据类型的矩阵乘加运算,从而提升模型训练和推理的性能。尤其对于ChatGLM-6B等在开源微调代码中支持CPU 自动混合精度的大模型,开发者在启动微调时加入CPU自动混合精度的使能参数,就可以直接利用矩阵乘法加速器提升大模型的微调计算速度。

英特尔院士、大数据技术全球CTO戴金权向《中国电子报》记者表示,解题大模型功耗和成本压力的关键,是根据不同大模型的最新 技术需求,提供软硬件协同的支撑方案。

“我们可以通过提供跨平台的XPU架构和开放的AI软件架构及优化,为预训练、微调、推理等不同的AI和大模型应用,提供高效的开发部署平台。”戴金权告诉记者。据他介绍,英特尔在硬件架构方面,正在基于Gaudi AI加速器,数据中心Max GPU,内置AMX加速的第四代至强处理器,以及边缘和客户端处理器为用户提供XPU异构计算支持。在软件架构层面,英特尔和社区在PyTorch、DeepSpeed、HuggingFace Transformers等开源项目开展合作,加入了在Intel XPU平台上的众多优化。同时,英特尔的开源软件工具IPEX、BigDL、INC、OpenVINO等,对大模型提供专门的支持和加速。

加速与降耗并行 打造更加节能的基础设施

数据中心是AIGC和大模型主要的基础设施之一,也是节能技术的重点发力领域。随着全球的热点IT应用地区都在强调绿色数据中心,如何在降低能耗的同时释放更高效能,成为英伟达、AMD等数据中心芯片供应商的必答题。

围绕数据中心的减碳需求,AMD宣布了到2025年为人工智能训练和高性能计算应用程序带来30倍能效提升的目标。据AMD测算,30倍的能效提升将在2025年节省数十亿千瓦时的电力,使系统在五年内完成单次计算所需的电力减少97%。这一方面需要核心制程的提升,另一方面需要架构的改进和技术的创新来提高算力。比如基于一颗第三代AMD EPYC服务器处理器和四个AMD Instinct MI250x GPU的加速节点,AMD实现了在2020年的基准水平之上提高6.79倍能效。

英伟达也将加速计算作为减少功耗的主要策略。加速库是英伟达加速计算的核心,目前英伟达面向计算机视觉、数据处理、机器学习和 AI 等领域布局了300 个加速库和400 个 AI 模型。

除了提升计算单元的能效,计算单元构成的AI集群,也对数据中心的整体功耗有着重要影响。在计算单元互联以构建AI集群,以及集群、设备互联构建AI计算网络的过程中,会产生大量网络数据。若采用传统的以太网架构,会导致数据流的拥塞和延迟,使系统无法有效利用GPU,从而提升了大模型训练的时间和成本。

在网络平台层面,英伟达推出专门面向AI负载的以太网架构Spectrum-X。该架构基于内置Spectrum-4 AISC芯片的交换机与Blue-Field DPU,提升AI集群的资源利用和数据传输效率。在对GPT-3的训练中,NVIDIA Spectrum-X 网络平台相比传统以太网网络架构,实现了的 1.7 倍的加速效果。尤其针对数据中心常用的功率封顶措施,Spectrum-4 ASIC能够简化网络设计,提高了每瓦的性能,帮助数据中心控制网络功率预算。

从计算架构的革新,软硬件方案的更新,到基础设施算力和互联方式的迭代,半导体厂商正在从多个维度缓解大模型带来的能耗压力。而大模型的到来,也在倒逼算力系统的创新,为基础软硬件的各个节点带来新的市场机会。

责任编辑:赵强


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

深入学习贯彻党的二十大精神·工信系统在行动

当前,全国工业和信息化系统正进一步深入学习党的二十大精神,将二十大精神贯彻落实到具体举措和实际行动。为深入学习宣传贯彻党的二十大精神,中国电子报推出“深入学习贯彻党的二十大精神·工信系统在行动”专栏,通过调研采访报道各地贯彻落实党的二十大精神的具体举措、典型案例,反映各地实干担当、求真务实的精神风貌。敬请关注。

学习贯彻习近平新时代中国特色社会主义思想主题教育

学习贯彻习近平新时代中国特色社会主义思想主题教育开展以来,全国工信系统牢牢把握“学思想、强党性、重实践、建新功”的总要求,多措并举扎实推进主题教育高质量开局、高标准起步。

聚焦2023年全国两会

北京3月5日电 第十四届全国人民代表大会第一次会议5日上午在北京人民大会堂开幕。近3000名新一届全国人大代表肩负人民重托出席盛会,认真履行宪法和法律赋予的神圣职责。

2023年全国工业和信息化工作会议

1月11日,全国工业和信息化工作会议在北京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大精神,认真贯彻落实中央经济工作会议精神和党中央、国务院决策部署,总结2022年工作,部署2023年重点任务。

第5届中国—东盟信息港论坛

2022年9月16日,由国家互联网信息办公室、国家发展和改革委员会、工业和信息化部、广西壮族自治区人民政府联合主办的第五届中国—东盟信息港论坛将在广西南宁开幕。该论坛主要围绕数字经济发展和智能互联、数据互通、合作互利等开展交流研讨、建言献策,进一步推进互联网经贸服务、人文交流和技术合作。

世界超高清视频(4K/8K)产业发展大会

会议

2023世界VR产业大会

10月19日,由工业和信息化部、江西省人民政府共同主办的2023世界VR产业大会在江西南昌开幕。江西省委书记、省人大常委会主任尹弘,工业和信息化部副部长徐晓兰,江西省委常委、南昌市委书记李红军出席开幕式并致辞。开幕式由江西省委副书记、省政府省长叶建春主持。

2023世界显示产业大会

9月7日-8日,由四川省人民政府、工业和信息化部主办的2023世界显示产业大会在四川省成都市召开。四川省委副书记、省长黄强,工业和信息化部党组成员、副部长张云明,重庆市政府党组成员、副市长江敦涛,德国联邦经济发展和对外贸易协会主席米夏埃尔·舒曼出席开幕式并先后致辞。

2023世界超高清视频产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2023世界超高清视频产业发展大会在广州召开。5月9日,广州市委副书记、市长郭永航,中央广播电视总台副台长胡劲军,国家广播电视总局副局长朱咏雷,工业和信息化部总工程师赵志国,广东省委副书记、省长王伟中出席开幕式并先后致辞。

2022世界显示产业大会

11月30日,由四川省人民政府、工业和信息化部主办的2022世界显示产业大会在四川省成都市开幕。全国政协副主席、民革中央常务副主席郑建邦以视频方式出席开幕式并致辞。四川省委书记王晓晖出席开幕式并宣布大会开幕。

2022世界集成电路大会

11月17日,由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。安徽省委书记、省人大常委会主任郑栅洁出席会议。安徽省委副书记、省长王清宪,工业和信息化部党组成员、副部长王江平出席开幕式并致辞。

世界显示产业大会

本周排行