工业和信息化部主管 中国电子报社主办
联系合作 投稿

半导体

Google TPU芯片效能超越CPU与GPU?

网路巨擘Google日前指出,该公司的Tensor处理器(TPU)在机器学习的测试中,以数量级的效能优势超越英特尔(Intel)的Xeon处理器和Nvidia的绘图处理器(GPU)。在一份长达17页的报告中,Google深入剖析其TPU和测试基准显示比目前的商用芯片更快至少15倍的速度,并提供更高30倍的效能功耗比(P/W)。

去年五月,Google宣布其ASIC设计是为了加快各种应用在其纳米中心服务器的推论作业。现在,该公司将在今年6月的一场电脑架构大会中,透过一篇论文首度公开对于此芯片及其效能的深入研究。

这份报告提供了有关加速器与Google多元神经网路工作负载的深度观察,并建议工程师在此快速成长的领域中投注更多的学习。

曾带领超过70位工程师团队设计TPU 的知名硬件工程师Norman P. Jouppi说:“我们希望聘请一些优秀的工程师,并让他们了解我们正在进行高品质的工作,同时也让云端客户知道我们的实力。”

该计划的其中一位负责人员是美国加州柏克莱大学(U.C. Berkeley)退休教授David Patterson,他同时也是一位资深的处理器架构师,在日前一场矽谷的工程师聚会中介绍了这份报告。Google还在部落格中发布Jouppi所撰写关于此芯片的文章。

如今Google的纳米中心仍采用此芯片。不过,关于该芯片使用的范围与未来计划加强的部份,Jouppi并不愿透露任何细节。

这款40W功率的TPU是一款采用28纳米制程、70MHz时脉运算的芯片,专为加速Google TensorFlow 演算法而设计。其主要的逻辑单元包含65,536个8位元的乘积累加运算单元和24MB快取存储器,并提供每秒92兆次运算速度。

在2015年采用Google机器学习芯片而进行的测试中,相较于英特尔(Intel)的Haswell服务器处理器(CPU)和Nvidia的K80绘图处理器(GPU),采用TPU时的运作速度提高了15到30倍,效能提高了30到80倍。该报告中指出:“TPU的相对增量效能功耗比为41到83——这就是我们为什么客制化ASIC的原因,它让TPU比GPU高出25到29倍的的效能功耗比。”

2015年的测试使用了英特尔 22纳米制程的18核心Haswell E5-2699 v3 CPU,其时脉频率(速度)为2.3GHz,热设计功耗(TDP)为145W。Nvidia K80 GPU功耗为150W,时脉频率最高到875MHz。

TPU内部揭密

在该报告中提到,TPU所达到的数量级效能优势,很少有别的厂商能做到,也可能让TPU成为特定领域架构的原型。预计接下来将会有许多追随者,而使得标准更为提高。

事实上,TPU的目标不在于提高纳米处理量,而是专注于达到7毫秒(ms)的延迟,使专用加速器发挥功效,因此,它舍弃了高吞吐量的多工通用处理器所需的许多元件,而用于执行其他许多任务。

但此ASIC芯片在能耗比的表现上不及英特尔和Nvidia的芯片。在10%%的负载状况下,TPU的最大功率消耗为88%%。相形之下,K80在10%%负载下消耗66%%的功率,而英特尔Haswell的最大功耗为56%%。

Google解释,这是由于仅15个月的设计时程相对较短,使得TPU无法加入许多节能方面的功能。

纳米缓冲区约占TPU的37%%,媒体存取控制(MAC)组合占30%%。虽然TPU比起Nvidia GPU的尺寸更小、功耗更低,但其上的MAC数量却是K80的25倍,芯片上存储器容量则为其3.5倍。

TPU搭载PCIe Gen3 x16汇流排,并提供256位元的内部纳米路径。主机CPU将加速器视为浮点运算处理器,透过PCIe汇流排传达指令。

TPU使用与GPU加速器相同的Tensorflow软体,开发人员可维持核心驱动器的稳定,必要时调整使用者空间的驱动程式,以因应不断改变的应用。

Google发现,持续增加的存储器频宽对于效能表现的影响最大。平均来说,加速时脉速度的效益不大,而当MAC扩增到512x512矩阵时,加快时脉速度的效能还将微幅下降。

该报告中指出,从2015年的测试以来,英特尔已经推出14纳米CPU,Nvidia也推出16纳米GPU了。然而,TPU也可能将其外部DDR3存储器升级到像K80所使用的GDDR5存储器。

报告中指出:“未来的CPU与GPU在执行推论时将会更快速。采用2015版GPU存储器而重新设计的TPU将会提高两倍到三倍的速度,而且比K80高出70倍、比Haswell更高200倍的效能功耗比。”

Google宣称在英特尔CPU上执行8位元运算相当辛苦。报告中提到:“我们原本只有一款CPU执行8位元运算的结果,因为有效地使用其AVX2整数运算指令,效果提升了3.5倍。”

由于其采用纳米处理量为导向的架构,即使是改良过的GPU要达到Google的 7nm延迟目标,仍然充满挑战。同时,“这款TPU仍有很大的改进空间,所以这不是一个容易达成的目标。”

开发人员掌握多元化讯息

该报告中提到,研究人员受到热门的ImageNet比赛吸引,已经变得过于投入卷积神经网路(CNN)。现实世界的应用采用更广泛的神经网路类型,报告并强调,多层感知(MLP)占Google AI开发工作的61%%。“虽然大部份的架构师一直在加速CNN设计,但这部份只占5%%的工作负载。”

“虽然CNN可能很常见于边缘装置,但卷积模型的数量还赶不上纳米中心的多层感知(MLP)和长短期存储器(LSTM)。我们希望架构师尽可能地加速MLP和LSTM设计,这种情况类似于当许多架构师专注于浮点运算效能时,大部份的主流工作负载仍由整数运算主导。”

Jouppi说:“我们已经开始与一些大学合作,扩大提供免费模式。”但他并未透露内容细节。

这篇报告回顾了二十多年来神经网路的相关纳米,包括其竞争对手——微软(Microsoft)基于FPGA的Catapult计划,加速了网路作业。最初的25W Catapult在200MHz时脉上运作3,926个18位元MAC,并且以200MHz 时脉速度执行5MB存储器。Google表示,以Verilog语言设计的韧体比起使用TensorFlow软体来说效率更低。

TPU计划于2013年开始,当时并以FPGA进行了试验。该报告中提到:“我们舍弃FPGA,因为我们当时发现它和GPU相比,在效能上不具竞争力,而TPU比起GPU在相同速度或甚至更快的速度下,可以达到更低的功耗。”

尽管二十多年来,神经网路终于在最近从商用市场起飞了。

Jouppi说:“我们所有人都被这蓬勃发展的景象吓到了,当初并未预期到会有如此大的影响力。一直到五、六年以前,我都还一直抱持怀疑态度…而今订单开始逐月增加中。”

相较于传统途径,深度神经网路(DNN)已经让语音辨识的错误率降低了30%%,这是二十年来最大的进步。这让ImageNet影像辨识竞赛中的错误率从2011年的26%%降至3.5%%。

该报告结论还提到,“神经网路加速器存在的理由在于效能,而在其演进过程中,如何达到良好的直觉判断,目前还为时过早。”

责任编辑:赵晨


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

2023中国电子报编辑选择奖

12月26日,“2023中国电子报编辑选择奖”获奖名单正式出炉。本次评选采用企业自荐和编辑推荐两种方式,综合考量影响力、创新性、成长性等多个维度,围绕企业、技术、产品、解决方案等赛道评出20个奖项。

2024年全国工业和信息化工作会议

12月21日,全国工业和信息化工作会议在京召开。会议坚持以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大和二十届二中全会精神,深入学习贯彻习近平总书记关于新型工业化的重要论述,认真落实中央经济工作会议和全国新型工业化推进大会部署要求,总结2023年工作,部署2024年任务。

深入学习贯彻党的二十大精神·工信系统在行动

当前,全国工业和信息化系统正进一步深入学习党的二十大精神,将二十大精神贯彻落实到具体举措和实际行动。为深入学习宣传贯彻党的二十大精神,中国电子报推出“深入学习贯彻党的二十大精神·工信系统在行动”专栏,通过调研采访报道各地贯彻落实党的二十大精神的具体举措、典型案例,反映各地实干担当、求真务实的精神风貌。敬请关注。

学习贯彻习近平新时代中国特色社会主义思想主题教育

学习贯彻习近平新时代中国特色社会主义思想主题教育开展以来,全国工信系统牢牢把握“学思想、强党性、重实践、建新功”的总要求,多措并举扎实推进主题教育高质量开局、高标准起步。

聚焦2023年全国两会

北京3月5日电 第十四届全国人民代表大会第一次会议5日上午在北京人民大会堂开幕。近3000名新一届全国人大代表肩负人民重托出席盛会,认真履行宪法和法律赋予的神圣职责。

世界超高清视频(4K/8K)产业发展大会

会议

2023全球数字贸易创新大赛

11月22—23日,2023全球数字贸易创新大赛总决赛在杭州举行。大赛是第二届全球数字贸易博览会重要活动之一,今年为首次举办。大赛设置人工智能元宇宙和区块链Web3.0两个赛道,吸引了近200家优秀企业及项目团队参与,其中,100余家入围半决赛,24家进入总决赛。

2023世界VR产业大会

10月19日,由工业和信息化部、江西省人民政府共同主办的2023世界VR产业大会在江西南昌开幕。江西省委书记、省人大常委会主任尹弘,工业和信息化部副部长徐晓兰,江西省委常委、南昌市委书记李红军出席开幕式并致辞。开幕式由江西省委副书记、省政府省长叶建春主持。

2023世界显示产业大会

9月7日-8日,由四川省人民政府、工业和信息化部主办的2023世界显示产业大会在四川省成都市召开。四川省委副书记、省长黄强,工业和信息化部党组成员、副部长张云明,重庆市政府党组成员、副市长江敦涛,德国联邦经济发展和对外贸易协会主席米夏埃尔·舒曼出席开幕式并先后致辞。

2023世界超高清视频产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2023世界超高清视频产业发展大会在广州召开。5月9日,广州市委副书记、市长郭永航,中央广播电视总台副台长胡劲军,国家广播电视总局副局长朱咏雷,工业和信息化部总工程师赵志国,广东省委副书记、省长王伟中出席开幕式并先后致辞。

2022世界集成电路大会

11月17日,由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。安徽省委书记、省人大常委会主任郑栅洁出席会议。安徽省委副书记、省长王清宪,工业和信息化部党组成员、副部长王江平出席开幕式并致辞。

世界显示产业大会

本周排行