GPU的技术壁垒到底有多高?——强如Intel,可望不可即
1. 投资策略
GPU技术壁垒极高,国产化之路道阻且长。GPU设计是一项系统工程,包含硬件架构、算法、软件生态等多个组成,缺一不可,壁垒极高,CPU巨头Intel近二十年多次尝试踏足高端GPU领域,皆未成功。相对于FPGA和ASIC,不论是从功能上,还是硬件上,GPU设计难度都更高。GPU的自主研发之路是艰难且漫长的,由于没有像ARM一样的第三方IP授权厂商,GPU设计商必须完全自主研发,从零做起,难度较大。国内唯一一家实现GPU大规模商用生产的厂商景嘉微,技术完全自主研发,产品性能领先。
2. 为什么GPU这么难做?
GPU的设计,是一个系统工程,需要硬件、算法、生态相互勾稽支持,才能显示出最强的性能。
2.1. 硬件结构精密复杂
GPU硬件构成极其复杂,仿若浩瀚的宫殿。高级图形处理是十分复杂的流程,主要包括:
1)顶点处理,读取描述3D图形外观的顶点数据,建立3D图形骨架
2)光栅化,把一个矢量图形转换为一系列像素点
3)纹理贴图,将多边形的表面贴上相应的图片
4)最终输出,由ROP(光栅化引擎)最终完成像素的输出。
支持这些强大功能的,是硬件层的复杂系统结构,几乎每一步都有专门的硬件单元支持。我们以英伟达采用Turing架构的TU102 GPU为例,它包含4608个CUDA Core(普通运算单元,包含1个INT32单元和1个FP32单元),576个Tensor Core(深度学习矩阵运算单元),72个RT Core(光追单元)等细微构成,相互协同工作,完成复杂的并行运算。
每个硬件单元之间的协同调度都是长期改进的结果,是工程技术的积淀。GPU复杂而精密的硬件结构不是一蹴而就的,是经过数十年不断改进而来的。从英伟达2010年发布第一个完整的GPU计算架构Fermi以来,英伟达架构每两年更新一次,不断改进原有架构,加入新的单元,才造就如今英伟达GPU的霸主地位。如2012年加入了GPUDirect技术,对计算进行加速;2014年强化了计算核心;2016年加入了NVlink,实现了多GPU协同工作;2017年加入了Tensor Core用于深度学习,2018年加入了RT Core,在硬件上支持了光追技术等。
2.2. 软件技术与生态攀枝错节
图形渲染要用到计算图形学。计算机图形学主要研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。计算图形学是一个广泛的学科,其中包括物理模拟、模型处理和渲染,需要运用大量的数学和物理知识。
GPU巨头积累了大量的算法库。模拟真实世界是十分困难的,树叶抖动、头发丝被风吹起、水波荡漾这样看似平常的场景,在计算机上实现的背后是大量的图形算法。英伟达除了硬件上对图形计算做了支持,在算法上也进行相应配合,积累了大量的算法库,例如光追技术,NVIDIA不仅在硬件上加入了RT Core,对光影计算算法也进行了大量研究,最终才显现出了逼真的光影效果。
软件生态构建一:与行业伙伴形成合作,互相授权。英伟达与微软的DirectX图形接口适配,实现对在Windows上运行的游戏支持;与Autodesk,Adobe等工商业软件商达成合作,支持其基于英伟达最新产品进行算法开发;与各种游戏厂商达成协议,让游戏开发使用英伟达最先进的技术,同时,英伟达支持其新版游戏运行在其产品;与Intel相互授权,允许Intel售卖搭载英伟达GPU的产品。
软件生态构建二:构建开发者生态社区。2006年,英伟达推出了兼具图形显示和AI计算的GPU,同时发布了具有划时代意义的CUDA计算平台,该平台让开发者可以便捷的使用GPU进行深度学习开发。刚开始市场并不接受,但英伟达颇具战略眼光地采取了一系列措施推广CUDA,学术上,鼓励高校和研究所用CUDA从事GPU相关研究工作,设立CUDA研发中心;商业上,资金支持创业公司使用CUDA;内容上,开源许多软件库,吸引开发者;硬件上,即使是便宜的Gefore游戏卡也支持CUDA,把CUDA的入门设备降到千元级别。CUDA逐渐成为高端计算和图形领域的权威标准,一举奠定了英伟达的霸主地位,现在,CUDA在全球的影响堪比IOS,即使AMD的GPU和英伟达GPU性能相差不多,但是在人工智能领域的受欢迎的程度却有天壤之别。
2.3. 图形显示技术壁垒高于AI计算
硬件结构上,图形显示功能模块更多。图形处理和高性能计算本质都是大规模的矩阵运算,但是图形处理需要专门针对于图像处理的硬件单元,如光栅处理单元,纹理单元,光线追踪核心等,硬件结构更为复杂。从功能模块上来看,AI计算芯片可以看作具有图形显示功能GPU的“删减版”。
算法上,图形处理需要涉及计算图形学,要求更高。AI计算,主要是解决数学问题,而图形处理需要涉及计算机图形学,计算图形学涉及物理模拟、模型处理、渲染等步骤,需要综合物理、光学等多个学科,算法难度更高。
2.4. GPU比FPGA和ASIC更强也更难
GPU通用性最强,应用最广。GPU芯片硬件结构为多核并行结构,计算通用性最强,适用于单指令多线程的多种算法。FPGA灵活性最高,可以实现硬件编程,但是单核性能上不如GPU。ASIC专为特定算法设计,性能极致优化,但灵活性较差,算法一旦改变,性能大幅下降。目前深度学习算法尚未固定,GPU应用最为广泛,需求最大。
GPU研发更难。功能上,GPU兼具图形显示与AI计算,性能更强。相比于纯做FPGA和ASIC,GPU还具有图形显示功能,硬件结构更为复杂。图形显示模块涉及到物理、数学等多个学科,算法和硬件单元设计难度更高。算力上,GPU内核算力更强。GPU做图形渲染需要双浮点精度,而仅用于AI计算的FPGA和ASIC最多只需要单浮点精度,GPU单核算力高于FPGA和ASIC。
2.5. GPU研发是一条孤独的奋斗之路
GPU的研发是没有第三方授权IP的。不像CPU领域,有ARM这样的第三方IP授权厂商,可以帮助芯片设计公司做CPU设计,桌面级GPU领域并没有第三方IP授权厂商,英伟达和AMD分别有自己的硬件架构和指令集,不对外授权。也就是说,如果新的厂商想研发GPU,必须完全自研,从零做起。
Intel一直想踏足高端GPU领域,但仍未成功。英特尔最早的GPU研发可以追溯到1997年,英特尔通过收购C&T获得了2D显示核心技术,3D技术源于拥有20%股权的Real3D。1998年,依靠Real3D的技术,英特尔推出了第一款独立GPU i740,但后续因为研发结果不理想等原因,Intel未再继续研发独立GPU。2007年,看到英伟达开启GPGPU战略、推出CUDA,英特尔为保持优势,计划重新推出独立GPU产品Larrabee,但由于研发进度不及预期、性能不佳等原因,Intel于2010年5月宣布取消独立GPU研发计划。2020年,Intel又推出了全新的独立GPU架构Xe,但直到2021年10月,Intel仍未推出自己消费级的独立GPU产品。
3. GPU投资机会及相关标的
GPU技术壁垒极高,国产化之路道阻且长。GPU设计是一项系统工程,包含硬件架构、算法、软件生态等多个组成,缺一不可,壁垒极高,CPU巨头Intel近二十年多次尝试踏足高端GPU领域,皆未成功。相对于FPGA和ASIC,不论是从功能上,还是硬件上,GPU设计难度都更高。GPU的自主研发之路是艰难且漫长的,由于没有像ARM一样的第三方IP授权厂商,GPU设计商必须完全自主研发,从零做起,难度较大。国内唯一一家实现GPU大规模商用生产的厂商景嘉微,技术完全自主研发,产品性能领先。
4. 风险提示
国产化政策低于预期;GPU新品研发不达预期。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/85739.html