拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

编辑:好困 小咸鱼

编辑:好困 小咸鱼

【新智元导读】AMD周一发布了最新一代数据中心GPU Instinct MI200加速器,性能最高提升了4.9倍。并推出了首款采用3D Chiplet技术的服务器CPU Milan-X。此外,AMD还拿下了元宇宙公司Meta数据中心这一大单,当天AMD股价上涨最高超过13%。

AMD又要Yes了!

11月8号,AMD宣布拿下Facebook母公司Meta的数据中心这个大单,这也意味着Meta的新数据中心中会使用AMD的EPYC处理器。

此消息一出,AMD的股价最高涨幅13%,市值突破1800亿美元,创下历史新高。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

上周五收盘时,AMD的股价今年已经涨了快50%,而在过去两年里,AMD的股价每年都上涨一倍。

在x86处理器芯片市场上,AMD多年来一直落后于英特尔,但自2017年以来,AMD稳步扩大了市场份额,现在拥有x86芯片近四分之一的市场份额。

AMD最近一个季度数据中心芯片的销售额同比增长了一倍,占AMD销售额的20%。

其实,在Meta选择成为AMD的客户之前,谷歌、亚马逊、微软、IBM等等美国科技公司,还有国内的阿里、腾讯、百度三家都选择了AMD的芯片来构建自己的云服务平台。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

在AMD上一代EPYC服务器CPU——Milan广受好评后,这一次,AMD带着全新的诚意再次亮相。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

EPYC Milan-X

这一代的EPYC服务器CPU名为Milan-X,由四款处理器组成。

EPYC 7773X有64个内核和128个线程,EPYC 7573X有32个内核和128个线程,EPYC 7473X有24个内核和48个线程,而EPYC 7373X有16个内核和32个线程。

Processor

Cores/Threads

Base Clock

Boost Clock

TDP

L3 Cache (L3 + 3D V-Cache)

Epyc 7773X

64/128

2.2 GHz

3.5 GHz

280 W

768 MB

Epyc 7573X

32/64

2.8 GHz

3.6 GHz

280 W

768 MB

Epyc 7473X

24/48

2.8 GHz

3.7 GHz

240 W

768 MB

Epyc 7373X

16/32

3.05 GHz

3.8 GHz

240 W

768 MB

Milan-X是世界上第一款使用3D V-Cache垂直小芯片堆叠技术的服务器芯片。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

相较于2D芯片堆叠技术,AMD全新的3D垂直小芯片堆叠技术可以将芯片内互连密度提升超过200倍。

相较于「Micro Bump 3D」的3D堆叠技术,AMD的方案依然可以将互连密度提升超过15倍,互联能耗效率提升超过3倍,这些都使其成为最灵活的主动式硅堆叠技术。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

Milan-X最高配置64个内核,每个芯片的L3缓存直接暴涨3倍,总量达到平均768MB,最高可至804MB。这意味着双插槽服务器系统中的L3缓存可能会达到令人瞠目结舌的1.5GB。

同时,EPYC Milan-X依旧可以被放入前代EPYC服务器的SP3插座中(需要更新BIOS),这无疑会大大减少鉴定时间,加快上市时间。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

AMD还分享了几个受益于Milan-X的工作负载的例子,并且获得「平均超过50%性能提升」这样一个令人印象深刻的测试结果。

此外,AMD表示,32核的Milan-X就可以为包括计算流体力学(CFD)、有限元分析(FEA)、结构分析(SA)和电子设计自动化(EDA)等领域提供大约30%至40%的性能增益。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

MI200=4.9×A100

英伟达在GPU市场的领先地位一直是不可撼动的,而这次,AMD还真要挑战一下。

AMD曾经发布过专为机器学习和高性能计算优化的GPU架构:CDNA,采用7nm制程和第二代Infinity架构。

在当时,采用CDNA架构的AMD Instinct MI100就已经可以达到11.5TFlops的算力,也是当时第一个超过10TFlops(FP64)的数据中心GPU。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

而在11月8号的发布会上,AMD推出全新的CDNA 2 GPU架构和MI200 Instinct图形处理器,要与英伟达的A100芯片一较高下。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

CDNA 2 GPU架构将使用台积电的N6节点工艺,虽然只是工艺技术上一个小的演进,但确实有了更高的时钟效率。此外,N6的设计规则也与N7兼容,也就是说N7上的设计可以相对容易地移植到N6上。

同时,CDNA 2 GPU采用最新的第三代Infinity架构,专为超大规模而生。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

MI200是MI100的更新迭代版本,基于CDNA 2架构,相对于MI100的第一个重大变化是采用了多芯片封装。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

MI200芯片将包含多达580亿个晶体管,相比之下,Nvidia的A100在一个GPU核心中拥有542亿个晶体管。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

根据AMD发布的规格,MI200的时钟频率将高达1.7GHz,而MI100的时钟频率为1.5GHz。内存也升级为HBM2e,运行速度为3.2Gbps,结合双芯片GPU布局意味着MI200的整体带宽从1.2TBps增加到3.2TBps。

MI100是第一个提供超过10TFLOPS的FP64向量计算的GPU,凭借其更高的时钟、双GPU和加倍的FP64速率,MI200的FP64向量峰值速率为47.9TFLOPS。比Nvidia A100的FP64向量计算的速率快了4.9倍。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

MI200还增加了FP64矩阵的支持,其峰值速率是向量单元速率的两倍:95.7TFLOPS。同样,较Nvidia A100的FP64向量性能19.5TFLOPS,也提升4.9倍。

在FP16方面,AMD的表现相对没那么夸张了,Nvidia的A100的FP16/BF16算力为312TFLOPS,而MI200为383TFLOPS。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

由于Nvidia的稀疏性允许GPU跳过一些操作,特别是乘以0这个操作。因此,在部分情况下,A100的计算性能可以提高一倍,并在性能上保持领先。

当然,这些只是纸面上的数据。

由于AMD的MI200是通过自家的ROCm来支持TensorFlow、PyTorch和ONNX等机器学习框架,并没有CUDA,所以在可用性上,还需要留一个问号。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

目前MI200 OAM有两种型号,性能较高的MI250X每个芯片有110个CU,而较低的MI250则下降到每个芯片104个CU,因此,MI250的计算性能会降低了大约5%。

此外,之后AMD还将推出一个PCIe版本的MI200。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

不过,还有一些关键信息仍然是缺失的,比如电源要求。Nvidia A100的SXM型号的TDP为400W,这将对MI200 OAM的带来一定的压力,因为有传言说MI250 OEM的TDP可能高达550W。

Zen 4路线图

AMD还公布了新一代Zen 4的进展。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

新的第四代EYPC处理器包括,采用5纳米制程的96核的Genoa,以及同样采用5纳米工艺都128核Bergamo。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

Genoa采用「Zen 4」内核,而AMD为Bergamo配备了一种新型的「Zen 4c」内核,针对云原生这种特殊的使用情况进行了优化,这意味着AMD的Zen 4芯片将配备两种类型的内核。

相比于前一代EPYC Milan芯片的7纳米工艺,全新的5纳米制程将提供高达2倍的密度和功率效率,以及1.25倍的性能提升。

这么看来,消费级的Ryzen Zen 4芯片应该也可以得到相似的提升。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

Genoa

先来看看采用Zen 4架构的Genoa芯片。

EPYC Genoa芯片将有多达96个Zen 4内核,支持DDR5和PCIe 5.0,以及允许设备间连贯内存连接的CXL 1.1接口。

这款芯片将解决HPC和通用数据中心、企业和云计算工作负载的问题,并将扩展每核和多线程性能。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

Bergamo

同样,Bergamo也是基于5纳米工艺,每颗芯片将有多达128个内核。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

为了更好地适应云原生计算的工作负载,AMD推出了一种新全新的Zen 4内核——「Zen 4c」。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

Zen 4c与Zen 4兼容,并使用相同的指令集和插槽。也就是说可以无缝地将Bergamo芯片放入搭载了Genoa的服务器中。

由于去掉了某些不需要的功能,Zen 4c的核心会比标准Zen 4要小,但计算密度将会得到提升。

此外,Zen 4c拥有一个经过密度优化的缓存层次结构,以增加核心数量,从而解决需要更高线程密度的云工作负载。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

Infinity架构3.0

这次,AMD除了发布Genoa、Bergamo、3D V-Cache驱动的Milan-X和Instinct MI200 MCM(多芯片模块)GPU之外,还有一个关键的元素——贯穿所有这些技术的Infinity Fabric 3.0。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

Infinity Fabric可以说是AMD异构系统架构(HSA)系统梦想的延伸,为AMD的CPU和GPU解决方案上的芯片内和芯片间通信提供动力。

Infinity架构聚合了AMD在新产品上采用的多种互连技术,并最终形成了一种连贯的CPU+GPU技术,极大地提高系统性能(特别是HPC性能)。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

2020年,AMD推出Infinity起因其实很简单:在计算中移动数据的开销是巨大的。

而Infinity架构将尽可能地减少存储库(无论是VRAM、系统RAM还是CPU缓存)之间的数据移动。

如果硬件能知道信息都在哪里,并能在「需要」时进行访问,就可以实现巨大的性能提升。

于是,新的Infinity架构可以让Epyc CPU和Instinct GPU加速器之间进行一致的通信。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

有了Infinity架构,AMD不再需要回避PCIe 4.0的带宽限制,而且可以连接的GPU数量增加到8个。

增加带宽,减少延迟,以及通过减少数据移动提高效率,是AMD Infinity架构设计的支柱。

上一代Infinity Fabric架构迫使CPU和GPU之间的通信通过PCIe总线完成(非一致性),这意味着理论峰值带宽将无法超过该链路的极限(PCIe 4.0的16 GT/s)。此外,双插槽系统中能够通过PCIe互连的GPU的最大数量也被限制在了4块。

而新的Infinity架构使整个通信过程可以基于Infinity Fabric 3.0链路来完成,这意味着无需进行PCIe非相干通信,当然在需要时也可以回退到PCIe。

此外,显卡之间的对话速度也得到了极大的改善,其中每个Infinity Fabric链接的带宽为100 GB/s,能提供足够的吞吐量来支持整个系统。

拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

怎么样,你觉得AMD这次Yes了吗?

参考资料:

https://www.zdnet.com/article/amd-rolls-out-instinct-mi200-gpus-for-hpc-and-ai-workloads/

https://www.reuters.com/technology/amd-lands-meta-customer-takes-aim-nvidia-with-new-supercomputing-chips-2021-11-08/ https://www.tomshardware.com/news/amd-unveils-zen-4-cpu-roadmap-96-core-5nm-genoa-128-core-begamo

https://www.youtube.com/watch?v=ECHhuvuiNzs&list=PLx15eYqzJifc9P7wwwQ9mKwtl7_pKrvf5

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/78742.html

(0)

相关推荐

  • 未来哪些职业会消失,未来十年哪些职业面临失业

    随着当今科学技术的飞速发展,除了给人们生活带来便利外,也使不少人生活受到威胁,就好比人工智能的异军突起,在其高效完成任务的同时,一些职业也因人工智能的发展而逐渐退出历史舞台。

    科技 2021年10月27日
  • 华为鸿蒙系统全量包知多少

    全量包,顾名思义,全量包就是完整的系统安装包,增量包或者补丁包是在原有系统的基础上添加补丁或做修改的升级包。当然两者最后结果是一样的,也就是更新系统安装包。通俗的讲:全量包包含全部,增量包只是不同部分,我们平时更新的基本上都是补丁包,就像一件衣服,本来挺好,但是时间长了,补丁落补丁也会臃肿不堪(这也是为何更新大版本后会明显流畅的原因)

    科技 2021年11月17日
  • 孕期糖尿病第一天

    已经是27周了,今天是控糖第一天。

    生活 2021年9月13日
  • 2022年中国芯片行业产业链全景图上中下游市场及企业分析

    中商情报网讯:近年来,中国集成电路产业快速发展,市场规模和技术水平都在不断提高。芯片是信息产业的核心之一。随着人工智能、智能制造、汽车电子、物联网、5G等为代表的新兴产业快速崛起,...

    科技 2021年11月10日
  • 发霉的食物,去掉坏的部分就能吃吗?听听医生怎么说

    提起食物发霉,相信大家都不陌生。尤其是温暖又有点潮湿的室内,好多食物一旦储存不当,发霉速度相当快。前一天晚上才买的几个馒头,没吃完又忘了放进冰箱里,第二天中午馒头表面可能已经起了霉点。

    生活 2021年10月1日
  • 寒露时节感到口干舌燥,饮食上有改善方法吗?

    问:最近已经进入寒露时节,常常感到口干舌燥,从饮食上有改善方法吗?

    生活 2021年10月8日