工业和信息化部主管 中国电子报社主办
收藏本站 投稿

半导体

郑纬民院士谏言国产GPU发展两大关键问题

12月13日,在第二届数据安全治理年会上,中国工程院院士郑纬民表示,我国人工智能企业正面临“国外一卡(GPU)难求,国产卡使用意愿低”的现状,应从软硬件两方面突破瓶颈,完善国产GPU硬件生态,优化大模型基础设施。

我国人工智能产业面临软硬件两方面瓶颈

郑纬民提出了算力“三大定律”:人类已经进入以算力为核心生产力的数字经济时代,算力就是生产力,这是“时代定律”;当下,算力每12个月就增长一倍,算力资源增速显著,已经打破摩尔定律,这是“增长定律”;算力每投入1元,就带动3-4元GDP经济增长,这是“经济定律”。

近年来,我国人工智能产业呈指数级增长。郑纬民表示,预计到2025年,中国人工智能产业规模将超过4500亿元,带动产业规模超1.6万亿元。

郑纬民直言,我国人工智能产业正面临着软件、硬件两方面的瓶颈。

从硬件角度看,一方面,我国国产芯片产量不足。郑纬民表示,2021年,我国人工智能服务器芯片总用量100万片,其中,美国英伟达占95%左右,国产芯片出货量不到5万片;另一方面,国产GPU硬件竞争力不足,并未真正受到市场认可。

从软件角度看,我国在算法等技术方面仍然有所欠缺,当前,谷歌和Meta的人工智能算法开发框架占中国人工智能市场份额的90%以上。

郑纬民坦言,目前我国人工智能企业正处于“国外一卡难求,国产卡使用意愿低”的现状。要解决当下面临的问题,一是营造完善的国产GPU硬件生态,二是优化大模型基础设施架构。

完善硬件生态要做好10个关键软件

郑纬民认为,要完善国产GPU硬件生态系统,需要做好10个关键软件:能够降低编写人工智能模型复杂度的编程框架;为多机多卡提供人工智能模型并行训练能力的并行加速;能够提供跨机跨卡的通信能力、支持人工智能模型训练所需各种通信模式的通信库;提供人工智能模型所需基本操作高性能实现的算子库;能够在异构处理器上对人工智能程序自动生成高效目标代码的AI编译器;提供异构处理器上编写并行程序支持的编程语言;提供在大规模系统上高效调度人工智能任务能力的调度器;针对人工智能应用特点提供高效内存分配策略的内存分配系统;提供在硬件发生故障后快速恢复模型训练能力的容错系统;以及支持训练过程所需数据读写的存储系统

郑纬民表示,相比芯片的“硬实力”,其生态才是更加影响使用体验的因素。“只要生态做得好,国产芯片只需要达到国外芯片性能的60%,客户就会满意。”郑纬民说。

“4个平衡”优化大模型基础设施

郑纬民强调,在设计大模型基础设施时,要思考“4个平衡”的优化问题。

一是半精度运算性能与双精度运算性能的平衡设计。在计算机系统的内存中,半精度、单精度和双精度是决定数据计算精确度的度量标准,双精度比半精度更精密,但同时要占据更多存储空间。郑纬民提出,大模型设计中不仅要考虑16位的半精度运算性能,还要考虑支持64位的双精度运算。他表示,最优的双精度与半精度运算性能比为1:100。

二是网络平衡设计。郑纬民指出,在网络设计方面,高带宽、低延迟的网络是极大规模预训练模型运行的必要条件。“在训练过程中,我们采用数据并行、模型并行和专家并行三种不同的并行方式,但这三种方式对互联有不同的要求。”郑纬民表示,“只有把通信做好,大模型才能顺畅跑通。”

三是体系结构感知的内存平衡设计。通俗而言,大模型在训练过程中使用的大量数据会产生大量的内存访问请求;对内存平衡的优化,目的是提升模型访存性能,从而提高模型训练效率。

四是输入输出子系统平衡设计。郑纬民指出,机器在执行大规模训练任务时,发生硬件、软件错误在所难免。针对这样的情况,容错检查点成为了大模型训练中的一道“保险闸”。容错检查点设置不足,会导致模型训练效率降低;检查设置过于频繁,则会浪费大量时间和存储空间。因此,优化检查点存储在大模型训练中的重要性不言而喻。

“只要以上四点平衡的问题得到解决,一块GPU就能发挥两块的作用。”郑纬民总结道。

责任编辑:赵强


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

深入学习贯彻党的二十大精神·工信系统在行动

当前,全国工业和信息化系统正进一步深入学习党的二十大精神,将二十大精神贯彻落实到具体举措和实际行动。为深入学习宣传贯彻党的二十大精神,中国电子报推出“深入学习贯彻党的二十大精神·工信系统在行动”专栏,通过调研采访报道各地贯彻落实党的二十大精神的具体举措、典型案例,反映各地实干担当、求真务实的精神风貌。敬请关注。

学习贯彻习近平新时代中国特色社会主义思想主题教育

学习贯彻习近平新时代中国特色社会主义思想主题教育开展以来,全国工信系统牢牢把握“学思想、强党性、重实践、建新功”的总要求,多措并举扎实推进主题教育高质量开局、高标准起步。

聚焦2023年全国两会

北京3月5日电 第十四届全国人民代表大会第一次会议5日上午在北京人民大会堂开幕。近3000名新一届全国人大代表肩负人民重托出席盛会,认真履行宪法和法律赋予的神圣职责。

2023年全国工业和信息化工作会议

1月11日,全国工业和信息化工作会议在北京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大精神,认真贯彻落实中央经济工作会议精神和党中央、国务院决策部署,总结2022年工作,部署2023年重点任务。

第5届中国—东盟信息港论坛

2022年9月16日,由国家互联网信息办公室、国家发展和改革委员会、工业和信息化部、广西壮族自治区人民政府联合主办的第五届中国—东盟信息港论坛将在广西南宁开幕。该论坛主要围绕数字经济发展和智能互联、数据互通、合作互利等开展交流研讨、建言献策,进一步推进互联网经贸服务、人文交流和技术合作。

世界超高清视频(4K/8K)产业发展大会

会议

2023全球数字贸易创新大赛

11月22—23日,2023全球数字贸易创新大赛总决赛在杭州举行。大赛是第二届全球数字贸易博览会重要活动之一,今年为首次举办。大赛设置人工智能元宇宙和区块链Web3.0两个赛道,吸引了近200家优秀企业及项目团队参与,其中,100余家入围半决赛,24家进入总决赛。

2023世界VR产业大会

10月19日,由工业和信息化部、江西省人民政府共同主办的2023世界VR产业大会在江西南昌开幕。江西省委书记、省人大常委会主任尹弘,工业和信息化部副部长徐晓兰,江西省委常委、南昌市委书记李红军出席开幕式并致辞。开幕式由江西省委副书记、省政府省长叶建春主持。

2023世界显示产业大会

9月7日-8日,由四川省人民政府、工业和信息化部主办的2023世界显示产业大会在四川省成都市召开。四川省委副书记、省长黄强,工业和信息化部党组成员、副部长张云明,重庆市政府党组成员、副市长江敦涛,德国联邦经济发展和对外贸易协会主席米夏埃尔·舒曼出席开幕式并先后致辞。

2023世界超高清视频产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2023世界超高清视频产业发展大会在广州召开。5月9日,广州市委副书记、市长郭永航,中央广播电视总台副台长胡劲军,国家广播电视总局副局长朱咏雷,工业和信息化部总工程师赵志国,广东省委副书记、省长王伟中出席开幕式并先后致辞。

2022世界集成电路大会

11月17日,由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。安徽省委书记、省人大常委会主任郑栅洁出席会议。安徽省委副书记、省长王清宪,工业和信息化部党组成员、副部长王江平出席开幕式并致辞。

世界显示产业大会

本周排行