GPU作为显示卡的“大脑”,是芯片领域的核心产品之一,并且GPU作为支撑众多科技领域发展的底层核心,是数据计算的核心底座,在商业计算、人工智能等诸多板块均有着较为广泛的使用,是科技行业的重要支撑。当前国内GPU市场仍由外商主导,近年来,受政策、资本和需求的三重共振,国产GPU赛道景气,国内企业加速追赶海外大厂。2022年美国通过涉台法案、对中国禁售高端计算芯片等,使中美摩擦尤其是科技领域限制进一步加大,GPU国产替代紧迫性和重要性进一步提升。
以下我们将对GPU行业进行分析,从概念入手,对GPU具备的优势、核心功能、行业发展历程、市场情况等方面展开具体论述,同时,将针对GPU产业链、重点布局企业及竞争格局进行分析,希望对大家了解GPU行业有所启发。(更多投研内容可关注公众号《 投研锋向 》加入社群,体验更多0预期差纪要信息)
01
行业概述
1、GPU定义
GPU一般指图形处理器(graphics processing unit,缩写GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。
GPU是显卡的处理器。显卡全称显示适配卡,又称显示适配器,用于协助CPU进行图像处理,作用是将CPU送来的图像信号经过处理再输送到显示器上,由主板连接设备、监视器连接设备、处理器和内存组成,GPU即是显卡处理器。
2、GPU在并行运算层面具备一定优势
当前主要兴起的计算芯片分别为GPU、ASIC、FPGA等,其中GPU最初专用于图形处理制作,后逐渐应用于计算。GPU的工作通俗地来说就是完成3D图形的生成,将图形映射到相应的像素点上,对每个像素进行计算确定最终颜色并完成输出,一般分为顶点处理、光栅化计算、纹理贴图、像素处理、输出五个步骤。GPU采用流式并行计算模式,可对每个数据行独立的并行计算。
CPU基于低延时设计,由运算器(ALU)和控制器(CU),以及若干个寄存器和高速缓冲存储器组成,功能模块较多,擅长逻辑控制,串行运算。GPU基于大吞吐量设计,拥有更多的ALU用于数据处理,适合对密集数据进行并行处理,擅长大规模并发计算,因此GPU也被应用于AI训练等需要大规模并发计算场景。
GPU内部大量的运算单元核心,尽管单个核心缓存较小,逻辑功能简单,仅能执行有限类型的逻辑运算操作,但其多核心架构天然适合执行复杂的数学和几何计算,且科学计算领域通用性较高,相比CPU,综合性能更好。当前缺点在于功耗过高,效率不足。
3、GPU按应用端细分
GPU按应用端划分为PC GPU、服务器GPU、智能驾驶GPU、移动端GPU。
PC GPU可以进一步划分为独立显卡和集成显卡。独立显卡是一种与处理器(CPU)分离的GPU,具备的专用内存,不与CPU共享,拥有自己的内存源和电源,因此性能更高,功率更大,产生热量更多。独立显卡常见于台式机、笔记本电脑,小型PC也可以包含独立显卡,主要的厂商包括英伟达和AMD。集成显卡是一种内置于处理器的GPU。集成GPU使用与CPU共享系统内存,由于集成显卡内置于处理器中,性能较低,因此通常功耗更低,产生的热量更少。集成显卡的处理器通常位于外形较小的系统中,例如笔记本电脑,主要产商包括Intel和AMD。
服务器GPU通常应用在深度学习、科学计算、视频编解码等多种场景,主要的厂商包括英伟达和AMD,英伟达占主导地位。
自动驾驶领域,GPU通常用于自动驾驶算法的车端AI推理,英伟达占据主导地位。
4、GPU的核心功能
(1)图形渲染
GPU凭借其较强的并行计算能力,已经成为个人电脑中图像渲染的专用处理器。图形渲染具体实现要通过五阶段:顶点着色、形状装配、光栅化、纹理填充着色、测试与混合。
GPU渲染流程为三维图像信息输入GPU后,读取3D图形外观的顶点数据后,1)在流处理器中构建3D图形的的整体骨架,即顶点处理;2)由光栅化处理单元把矢量图形转化为一系列像素点,即光栅化操作;3)在纹理映射单元实现纹理填充;4)在流处理器中完成对像素的计算和处理,即着色处理;5)在光栅化处理单元中实现测试与混合任务。至此,实现一个完整的GPU渲染流程。
(2)通用计算
2003年,GPGPU(General Purpose computing on GPU,基于GPU的通用计算)的概念首次被提出,意指利用GPU的计算能力在非图形处理领域进行更通用、更广泛的科学计算。GPGPU概念的提出,为GPU更为广泛的应用开拓了思路,GPGPU在传统GPU的基础上进行了优化设计,部分GPGPU会去除GPU中负责图形处理加速的硬件组成,使之更适合高性能并行计算。
GPGPU在数据中心被广泛地应用在人工智能和高性能计算、数据分析等领域。GPGPU的并行处理结构非常适合人工智能计算,人工智能计算精度需求往往不高,INT8、FP16、FP32往往可以满足大部分人工智能计算。GPGPU同时可以提供FP64的高精度计算,使得GPGPU适合信号处理、三维医学成像、雷达成像等高性能计算场景。
5、GPU中常见的数据格式和应用场景
计算机中常用的数据格式包括定点表示和浮点表示。定点表示中小数点位置固定不变,数值范围相对有限,GPU中常用的定点表示有INT8和INT16,多用于深度学习的推理过程。浮点表示中包括符号位、阶码部分、尾数部分。符号位决定数值正负,阶码部分决定数值表示范围,尾数部分决定数值表示精度。FP64(双精度)、FP32(单精度)、FP16(半精度)的数值表示范围和表示精度依次下降,运算效率依次提升。
除此以外还有TF32、BF16等其他浮点表示,保留了阶码部分但是截断了尾数部分,牺牲数值精度换取较大的数值表示范围,同时获得运算效率的提升,在深度学习中得到广泛应用。
6、应用程序接口是GPU和应用软件的连接桥梁
GPU应用程序接口(API):API是连接GPU硬件与应用程序的编程接口,有利于高效执行图形的顶点处理、像素着色等渲染功能。早期由于缺乏通用接口标准,只能针对特定平台的特定硬件编程,工作量极大。随着API的诞生以及系统优化的深入,GPU的API可以直接统筹管理高级语言、显卡驱动及底层的汇编语言,提高开发过程的效率和灵活性。
GPU应用程序接口主要涵盖两大阵营,分别是Microsoft DirectX和Khronos Group技术标准。DirectX提供一整套多媒体解决方案,3D渲染表现突出,但是只能用于windows系统。OpenGL的硬件匹配范围更广,同时在CAD、游戏开发、虚拟现实等高端绘图领域得到广泛应用。此外还包括苹果的MetalAPI等。
7、CUDA架构实现了GPU并行计算的通用化
GPGPU相比于CPU,其并行计算能力更强,但是通用灵活性相对较差,编程难度相对较高。在CUDA出现之前,需要将并行计算映射到图形API中从而在GPU中完成计算。
CUDA大幅降低GPGPU并行计算的编程难度,实现GPU的通用化。CUDA是英伟达2007年推出的适用于并行计算的统一计算设备架构,该架构可以利用GPU来解决商业、工业以及科学方面的复杂计算问题。CUDA架构的里程碑意义在于,GPU的功能不止局限于图形渲染,实现了GPU并行计算的通用化,把“个人计算机”变成可以并行运算的“超级计算机”。英伟达在推出了CUDA以后,相当于把复杂的显卡编程包装成了一个简单的接口,可以利用CUDA直观地编写GPU核心程序,使得编程效率大幅提升。现在主流的深度学习框架基本都是基于CUDA加速GPU并行计算。
CUDA采用了一种全新的计算体系结构来调动GPU提供的硬件资源,本质上是应用程序和GPU硬件资源之间的接口。CUDA程序组成包括CUDA库、应用程序编程接口(API)及运行库(Runtime)、高级别的通用数学库。
CUDA经过多年优化,形成了独特软硬件配合的生态系统。其中包括诸多编程语言的开发环境,各种API的第三方工具链,自带的应用于代数运算和图形处理的CUDA库、庞大的应用程序库,从而实现轻松高效的编写、调试优化过程。
CUDA提供了对其它编程语言的支持,如C/C++,Python,Fortran等语言。CUDA支持Windows、Linux、Mac各类操作系统。
02
行业发展阶段回顾
GPU的发展大致经历了五个阶段:
1、前GPU时代,图形处理器初具雏形
1981年世界上第一台个人电脑IBM5150由IBM公司发布,其搭配黑白显示适配器与彩色图形适配器,是最早的图形显示控制器。20世纪80年代初期,出现了以GE芯片为标志的图形处理器,GE芯片具备四位向量的浮点运算功能,可以实现图形渲染过程中的矩阵,裁剪,投影等运算,其出现标志着计算机图形学进入以图形处理器为主导的阶段。后续随着GE等图形处理器功能不断完善,图形处理功能逐渐由CPU向GPU(前身)转移。
2、GeForce256横空出世,GPU正式诞生
20世纪90年代,NVIDIA进入个人电脑3D市场,并于1999年推出具有标志意义的图形处理器GeForce256,真正意义上的GPU第一次出现。相较过往图形处理器,第二代GPU GeForce 256将T&L硬件(用于处理图形的整体角度旋转与光晕阴影等三维效果)从CPU中分离出来并整合进GPU中,使得GPU可以独立进行三维顶点的空间坐标变换,将CPU从繁重的光照计算中解脱出来。即便是低端CPU,搭配了支持硬件T&L的显卡也可以流畅地玩游戏,这使得英伟达在市场竞争中能以产品价格获得较大优势,市占率持续提升。
顶点编程确立GPU编程思路:经过了2000年的显卡厂商洗牌。2002年第三代GPU芯片陆续推出(如英伟达的GeForce 4Ti与ATI的8500),其均具备顶点编程能力,可以通过赋予特定算法在工作中改变三维模型的外形。顶点编程能力的出现确立了GPU芯片的编程思路,使后续GPU芯片用于其他计算领域成为可能。但本时期GPU尚不支持像素级编程能力(片段编程能力),其编程自由度尚不完备。
3、GPU用于通用计算,GPGPU概念出现
2003年SIGGRAPH大会上首次提出将GPU运用于通用运算,为GPGPU的出现打下基础。其后3年,通过用统一的流处理器取代GPU中原有的不同着色单元的设计释放了GPU的计算能力,第四代GPU均具有顶点编程和片段编程能力,完全可编程的GPU正式诞生。由于GPU的并行处理能力强于CPU,因此GPU可以在同一时间处理大量顶点数据,使其在人体CT、地质勘探、气象数据、流体力学等科学可视化计算处理上具备较大优势,足以满足各项实时性任务。后续伴随线性代数、物理仿真和光线跟踪等各类算法向GPU芯片移植,GPU由专用图形显示向通用计算逐渐转型。
4、架构持续迭代,AI计算关注度渐起
2010年英伟达发布了全新GPU架构Fermi,其是支持CUDA的第三代GPU架构(第一代与第二代分别是G80架构与GT200架构)。彼时英伟达在Fermi架构的设计上并未对AI计算场景做特定设置,但GPU芯片在AI计算领域相较CPU芯片已拥有了较大优势。随后在2012、2014年陆续发布的Kepler架构、Maxwell架构中,尽管英伟达并未在硬件层面对AI计算做特定优化,但在软件层面却引入了深度神经网络加速库cuDNN v1.0,使英伟达GPU的AI计算性能与易用性得到提升。
Pascal架构发布,AI计算专精版本到来:Pascal架构在2016年3月被推出,是英伟达面向AI计算场景发布的第一版架构。其硬件结构中加入了诸如FP16(半精度浮点数计算)、NVLink(总线通信协议,用于可用于单CPU配置多GPU)、HBM(提升访存带宽)、INT8格式支持(支持推理场景)等技术,而软件层面也发布了面向推理加速场景的TensorRT与开源通信函数库NCCL,Pascal架构在AI计算领域的前瞻性布局使得英伟达后续架构在竞争中具有着较大优势。
5、细分场景不断追赶,GPU迎来高速发展期
继Pascal架构后,面对Google TPU在AI计算层面带来的压力,英伟达先后更新了Volta(2017)、Turing(2018)、Ampere(2020)架构。AI计算领域的技术代差在Volta架构通过引入第一代Tensor Core在训练场景进行了拉平,随后Turing架构的第二代Tensor Core在推理场景上进行了拉平,直到Ampere时代,NV才算再次巩固了自己在AI计算领域的龙头地位。双方激烈竞争下,GPU迎来高速发展期。
03
影响GPU性能的关键因素
1、微架构设计是GPU性能提升的关键所在
评估GPU物理性能的参数主要包括:微架构、制程、图形处理器数量、流处理器数量、显存容量/位宽/带宽/频率、核心频率。其中微架构设计是GPU性能提升的关键所在。
GPU微架构(Micro Architecture)是兼容特定指令集的物理电路构成,由流处理器、纹理映射单元、光栅化处理单元、光线追踪核心、张量核心、缓存等部件共同组成。图形渲染过程中的图形函数主要用于绘制各种图形及像素、实现光影处理、3D坐标变换等过程,期间涉及大量同类型数据(如图像矩阵)的密集、独立的数值计算,而GPU结构中众多重复的计算单元就是为适应于此类特点的数据运算而设计的。
微架构的设计对GPU性能的提升发挥着至关重要的作用,也是GPU研发过程中最关键的技术壁垒。微架构设计影响到芯片的最高频率、一定频率下的运算能力、一定工艺下的能耗水平,是芯片设计的灵魂所在。英伟达H100相比于A100,1.2倍的性能提升来自于核心数目的提升,5.2倍的性能提升来自于微架构的设计。
2、GPU微架构的硬件构成
流处理器:是GPU内基本运算单元,通常由整点运算部分和浮点运算部分共同组成,称为SP单元,从编程角度出发,也将其称为CUDA核心。流处理器是DirectX10后引入的一种统一渲染架构,综合了顶点处理和像素处理的渲染任务,流处理器的数量和显卡性能密切相关。
纹理映射单元:作为GPU中的独立部件,能够旋转、调整和扭曲位图图像(执行纹理采样),将纹理信息填充在给定3D模型上。
光栅化处理单元:依照透视关系,将整个可视空间从三维立体形态压到二维平面内。流处理器和纹理映射单元分别把渲染好的像素信息和剪裁好的纹理材质递交给处于GPU后端的光栅化处理单元,将二者混合填充为最终画面输出,此外游戏中雾化、景深、动态模糊和抗锯齿等后处理特效也是由光栅化处理单元完成的。
光线追踪核心:是一种补充性的渲染技术,主要通过计算光和渲染物体之间的反应得到正确的反射、折射、阴影即全局照明等结果,渲染出逼真的模拟场景和场景内对象的光照情况。通过采样BVH算法,用来计算射线(光线、声波)与物体三角形求交,与传统硬件相比,RTCore可以实现几何数量级的BVH计算效率提升,让实时光线追踪成为可能。
张量核心:张量核心可以提升GPU的渲染效果同时增强AI计算能力。张量核心通过深度学习超级采样(DLSS)提高渲染的清晰度、分辨率和游戏帧速率,同时对渲染画面进行降噪处理以实时清理和校正光线追踪核心渲染的画面,提升整体渲染效果。同时张量核心通过低精度混合运算,极大加速了AI运算速度,让计算机视觉、自然语言处理、语言识别和文字转化、个性化推荐等过去CPU难以实现的功能也得以高速完成。
04
市场分析
1、GPU市场规模及预测
根据Verified Market Research的预测,2020年GPU全球市场规模为254亿美金,预计到2028年将达到2465亿美金,行业保持高速增长,CAGR为32.9%,2023年GPU全球市场规模预计为595亿美元。
2、PC显卡市场
独立显卡市场开始逐渐回暖。根据Jon Peddie Research的数据,2022年独立GPU出货量下降至3808万台,同比下降22.5%,22Q3单季度出货690万台,同比下降45.7%,是十年以来最大的一次下滑,独立显卡出货情况22Q4开始逐渐转暖。
集成显卡出货情况仍然不容乐观。2022年集成GPU出货量为2.83亿台,同比下滑29.8%。疫情期间的居家办公需求带动了笔记本电脑的消费增长,集成显卡的购买激增一定程度上过早消耗了市场需求,后疫情时代,笔记本电脑端需求减弱叠加供应商的过剩库存导致集成显卡出货不断走低。
2022年独立显卡出货遭遇巨大下滑的原因有三点:(1)受宏观经济影响,个人电脑市场处于下行周期;(2)部分独立GPU参与虚拟货币挖矿,以太坊合并对独立GPU出货造成巨大冲击;(3)下游板卡厂商开启降库存周期。
(1)原因一:个人电脑市场依旧处于下行周期
个人电脑市场保持疲软状态。根据IDC数据,2022年全年PC出货量为2.92亿台,同比下降15.5%,2022Q4全球PC出货量仅为6720万台,同比下降28.1%。IDC预测2023年个人电脑市场全年出货2.608亿台,全年同比下降10.7%。按照2023年的整体出货量情况,对四个季度的出货情况做了进一步预测,预计2023Q2-2023Q3后个人电脑出货将迎来逐季度好转。
下游PC厂商库存情况得到改善。当前个人电脑市场正处在PC厂商去库存周期,根据PC厂商的财报披露,华硕和联想的库存天数已经开始减少,其余三家(惠普、戴尔、宏碁)的库存天数并未显著降低,由于所有厂商都在积极采取行动减少产量,预计下游PC厂商库存情况会进一步改善,2023Q3可能恢复到正常库存情况。
(2)原因二:显卡挖矿市场出现转折,以太坊转向权益证明
以太坊ETH占据显卡挖矿主要市场。根据MESSARI数据,在采用GPU挖矿的前7名虚拟货币中,以太坊ETH挖矿收入占GPU矿工总收入的97%。比特币、莱特币等虚拟货币多采用功耗更低的ASIC矿机。
2022年9月15日,以太坊运行机制全面升级,从以太坊1.0的工作量证明机制(PoW)转向以太坊2.0的权益证明机制(PoS),在工作量证明机制中,需要通过累积显卡提升计算能力,计算能力越强获得记账收益的概率越大;在权益证明机制中,只需通过质押虚拟货币获得收益,质押的虚拟货币数量越大获得记账收益的概率越高。以太坊全面合并后不再需要购入大量显卡、投入计算资源用于挖矿,是显卡挖矿市场的重要转折点。
挖矿用显卡平均哈希率为46Mh/s。根据HiveOS矿池数据,通过不同型号显卡的哈希率和占比情况统计,估算得到衡量显卡挖矿能力的平均哈希率为46Mh/s。
以太坊合并后显卡需求降至零。根据以太坊全网算力,测算得到用于以太坊挖矿的GPU数量在2022年5月达到巅峰,大概为2573万张,2022年9月降至2008万张,在以太坊合并之后,显卡需求降至零。
如果按照20%回收比例测算,约500万张存量显卡将流入二手市场,预计带来的不利影响在2022Q4-2023Q1之间结束。
(3)原因三:GPU厂商库存迎来好转,高端显卡价格企稳回升
GPU厂商库存情况即将迎来好转。根据Bloomberg数据,GPU下游四家台湾板卡厂商(华硕、技嘉、微星、华擎)自2022年一季度原材料库存达到历史高位以后,连续两个季度库存环比降低,当前原材料库存相比最高峰下降28%。复盘历史可见,GPU厂商成本库存高峰多于台湾板卡厂商原材料库存2-3季度后到来,预计GPU厂商的成品库存将于2022Q4到达顶峰。
高端显卡价格开始企稳回升。根据Amazon上的显卡价格跟踪,英伟达和AMD的高端显卡在2022年10月以后均实现了不同程度的价格回升,例如RTX3080价格上涨30%,RTX3090价格上涨28%,显卡价格的回升意味着渠道商库存正逐步回归到正常水平,高端显卡受挖矿市场冲击更为剧烈,高端显卡价格上涨从侧面也能观察到挖矿市场带来的不利影响正在逐渐消失。
3、GPU在数据中心的应用蕴藏巨大潜力
在数据中心,GPU被广泛应用于人工智能的训练、推理、高性能计算(HPC)等领域。
预训练大模型带来的算力需求驱动人工智能服务器市场快速增长。巨量化是人工智能近年来发展的重要趋势,巨量化的核心特点是模型参数多,训练数据量大。Transformer模型的提出开启了预训练大模型的时代,大模型的算力需求提升速度显著高于其他AI模型,为人工智能服务器的市场增长注入了强劲的驱动力。根据Omdia数据,人工智能服务器是服务器行业中增速最快的细分市场,CAGR为49%。
战略需求推动GPU在高性能计算领域稳定增长。高性能计算(HPC)提供了强大的超高浮点计算能力,可满足计算密集型、海量数据处理等业务的计算需求,如科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序等,极大缩短了海量计算所用的时间,高性能计算已成为促进科技创新和经济发展的重要手段。
(1)大模型带来人工智能算力的旺盛需求
自然语言大模型参数巨量化是行业发展趋势所向。以ChatGPT为代表的人工智能模型表现出高度的智能化和拟人化,背后的因素在于自然语言大模型表现出来的涌现能力和泛化能力,模型参数到达千亿量级后,可能呈现性能的跨越式提升,称之为涌现能力;在零样本或者少样品学习情景下,模型仍表现较强的迁移学习能力,称之为泛化能力。两种能力都与模型参数量密切相关,人工智能模型参数巨量化是重要的行业发展趋势。
预训练大模型进入千亿参数时代,模型训练算力需求迈上新台阶。自GPT-3模型之后,大规模的自然语言模型进入了千亿参数时代,2021年之后涌现出诸多千亿规模的自然语言模型,模型的训练算力显著增加。ChatGPT模型参数量为1750亿,训练算力需求为3.14*1023flops,当前各种预训练语言模型还在快速的更新迭代,不断刷新自然语言处理任务的表现记录,单一模型的训练算力需求也不断突破新高。
(2)大模型带来AI芯片需求的显著拉动
大模型的算力需求主要来自于三个环节:
预训练得到大模型的训练环节。该环节中,算力呈现海量需求且集中训练的特点,大模型通常在数天到数周内在云端完成训练。模型的训练算力与模型参数量、训练数据量有关,以ChatGPT的训练为例,单次模型训练需要2000张英伟达A100显卡不间断训练27天。
适应下游领域时进一步fine-tune环节。算力需求取决于模型的泛化能力以及下游任务的难度情况。
大模型日常运行时的推理环节。大模型的日常运行中每一次用户调用都需要一定的算力和带宽作为支撑,单次推理的计算量为2N(N为模型参数量),例如1750亿参数的ChatGPT模型1ktokens的推理运算量为2*1750*108*103=3.5*1014 flops=350 Tflops。近期ChatGPT官网吸引的每日访客数量接近5000万,每小时平均访问人数约210万人,若高峰时期同时在线人数450万人,一小时内每人问8个问题,每个问题回答200字,测算需要14000块英伟达A100芯片做日常的算力支撑。大模型在融入搜索引擎或以app形式提供其他商业化服务过程中,其AI芯片需求将得到进一步的显著拉动。
4、AI服务器是GPU市场规模增长的重要支撑
根据Omdia数据,2019年全球人工智能服务器市场规模为23亿美金,2026年将达到376亿美金,CAGR为49%。根据IDC数据,2020年中国数据中心用于AI推理的芯片的市场份额已经超过50%,预计到2025年,用于AI推理的工作负载的芯片将达到60.8%。
人工智能服务器通常选用CPU与加速芯片组合来满足高算力要求,常用的加速芯片有GPU、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。GPU凭借其强大的并行运算能力、深度学习能力、极强的通用性和成熟的软件生态,成为数据中心加速的首选,90%左右的AI服务器采用GPU作为加速芯片。
受云厂商资本开支影响AI服务器市场或将短期增速放缓。
北美云厂商资本开支有所放缓。人工智能服务器多采取公有云、私有云加本地部署的混合架构,以北美四家云厂商资本开支情况来跟踪人工智能服务器市场需求变动,2022年四家云厂商资本开支合计1511亿美元,同比增长18.5%。Meta预计2023年资本开支的指引为300-330亿美元之前,与2022年基本持平,低于此前22Q3预计的340亿到390亿美元;谷歌预计2023年资本开支将于2022年基本持平,但是会加大AI及云服务的建设投资。
信骅科技短期营收下滑有所缓解。作为全球最大的BMC芯片企业,信骅科技(Aspeed)的营收变化情况一般领先云厂商资本开支一个季度,其月度营收数据可以作为云厂商资本开支的前瞻指标,信骅科技近期营收下滑有所缓解。
5、GPU在超算服务器中的市场规模保持稳定增长
GPGPU在高性能计算领域渗透率不断提升。在高性能计算领域,CPU+GPU异构协同计算架构得到越来越多的应用,全球算力前500的超级计算机中,有170套系统采用了异构协同计算架构,其中超过90%以上的加速芯片选择了英伟达的GPGPU芯片。
GPU在超算服务器中的市场规模保持稳定增长。根据Hyperion Research数据,全球超算服务器的市场规模将从2020年的135亿美金上升到2025年的199亿美金,按照GPU在超算服务器中成本占比为27.3%核算,GPU在超算服务器中的市场规模将从2020年的37亿上升至2025年的54亿美金,CAGR为8%。
6、自动驾驶领域GPU市场保持高成长性
在自动驾驶领域,各类自动驾驶芯片得到广泛的应用。根据Yole数据,全球自动驾驶市场2025年将达到780亿美金,其中用于自动驾驶的AI芯片超过100亿美元。
自动驾驶GPU市场保持较高高成长性。根据ICVTank的自动驾驶渗透数据,假设GPU在L2中渗透率15%,在L3-L5中渗透率50%,估算得到GPU在自动驾驶领域的市场规模,整体规模将从2020年的7.1亿美元上升至2025年的44亿美金,CAGR为44%。
05
产业链及竞争格局分析
1、GPU产业链
GPU行业的产业链主要涉及三个环节:设计、制造、封装。供给模式有IDM、Fab+Fabless和Foundry三种。IDM模式:指将GPU产业链的三个环节整体化,充分结合自主研发和外部代工,集设计、制造、封装为一体,公司垂直整合GPU整体产业链。Fab+Fabless:充分发挥各企业比较优势,仅负责芯片电路设计,将产业链其他环节外包,分散了GPU研发和生产的风险。Foundry:公司仅负责芯片制造环节,不负责上游设计和下游封装,可以同时为多家上游企业服务。
2、竞争格局
全球GPU市场中,基本被Nvidia、Intel和AMD三家垄断。据JPR统计,全球PC GPU在2022年Q2出货量达到8400万台,同比下降34%,预计2022-2026年GPU复合增长率为3.8%。从市场格局来看,Nvidia、Intel和AMD三家在2022年Q2市场占有率分别为18%、62%和20%,Intel凭借其集成显卡在桌面端的优势占据最大的市场份额。
独显市场中,Nvidia占据领先地位。不同于整体市场,在独显市场中,Nvidia与AMD双雄垄断市场,其2022年Q2市占率分别约为80%和20%,可以看到近年来Nvidia不断巩固自己的优势,其独立显卡市占率整体呈现上升趋势。
国内市场来看,国产GPU赛道持续景气。近年来,国产GPU公司如雨后春笋般涌现,璧韧科技、摩尔线程、芯动科技、天数智能等公司纷纷发布新品。但是IP授权来看,国内主要的GPU创业公司,如芯动、摩尔线程、壁仞等采用的是Imagination IP或芯原授权的IP。但是IP授权来看,国内主要的GPU创业公司,如芯动、摩尔线程、壁仞等采用的是Imagination IP或芯原授权的IP。芯动科技发布的首款高性能4K级显卡GPU芯片“风华1号”,使用了Imagination的IMG B系列GPU IP,是Imagination IP在中国市场的首个高端GPU应用。据报道,摩尔线程芯片设计的关键部分也来自Imagination Technologies。
Imagination是一家总部位于英国,致力于打造半导体和软件知识产权(IP)的公司。公司的图形、计算、视觉和人工智能以及连接技术可以实现出众的PPA(功耗、性能和面积)指标、强大的安全性、快速的上市时间和更低的总体拥有成本(TCO)。2017年9月,私募投资公司Canyon Bridge以5.5亿英镑收购Imagination,Canyon Bridge其背后投资方为中国国新。
3、美国对华禁令如何应对
根据路透社报道,2022年8月31日,美国政府要求英伟达的A100、H100系列和AMD的MI250系列及未来的高端GPU产品,是否可以售卖给中国客户,需要获得美国政府的许可。这几款芯片均为用于通用计算的高端GPGPU,通常应用在人工智能计算的云端训练和推理场景和超级计算机中,在中国的客户多为云计算厂商及高校和科研院所。
为应对封锁,短期来看可以选择英伟达和AMD的还没有被禁止的中低性能GPU芯片。对于云端计算,算力既可以通过产品升级得以提升,也可以通过增加计算卡的数量进行提升,因此短期内可以通过使用多个算力较低的CPU、GPU和ASIC芯片来复制高端GPU芯片的处理能力,基本可以满足云端训练和高性能计算的要求。长期来看,选择国产GPU进行替代。虽然芯片是算力的主要来源和最根本的物质基础,但是算力的生产、聚合、调度和释放是一个完整过程,需要复杂系统的软硬件生态共同配合,才能实现“有效算力”。因此短期内可能会因为无法兼容在人工智能领域广泛使用的CUDA架构而遭遇替换困难,但是长期来看,国产CPU、通用GPU、AI芯片将获得前所未有的发展机会,通过软硬件技术提升,逐步实现高端GPU领域的国产化替代。
06
相关公司
1、国外公司
(1)英伟达
英伟达是一家专注于GPU半导体设计的企业。公司成立于1993年,1999年英伟达推出GeForce256芯片,并首次定义了GPU的概念;随后创新性的提出CUDA架构,让此前只做3D渲染的GPU实现通用计算功能;进入2010年代后,英伟达在AI行业发展初期市场皆不看好的情况下,前瞻性预见了GPU在AI市场的应用并全力以赴开展相关布局;当前,公司以数据中心、游戏、汽车、专业视觉四大类芯片为收入基础,完成了硬件、系统软件、软件平台、应用框架全栈生态的建设。
追溯公司历史,英伟达以技术创新为基,持续推动GPU行业的发展,可以称得上是GPU时代奠基人。英伟达公司发展史可简单划分为四个阶段:
(1)蓄力阶段:1993年黄仁勋联合Sun Microsystem公司两位年轻工程师共同创立英伟达,早期致力于图形芯片的研发。1997年公司推出RIVA128,这是公司第一款真正意义上取得成功的产品。
(2)崛起阶段:1999年公司推出GeForce256并定义GPU芯片,此英伟达走上了重塑显卡行业的道路。
(3)制霸阶段:2006年英伟达创新性推出CUDA架构。CUDA是英伟达基于自有GPU的一个并行计算平台和编程模型。CUDA带来两方面巨大影响,于GPU行业而言,CUDA使得只做3D渲染的GPU得以实现通用计算功能,而对于英伟达公司本身来说,其在早期大力推广CUDA,并对CUDA进行了编程语言扩展,使得开发人员能够轻易地对GPU进行编程,目前CUDA是最主流的两个GPU编程库之一,奠定了英伟达GPU生态得以成型的基础。
(4)腾飞阶段:押注AI,数据中心业务开启第二成长曲线。2012年Alex Krizhevsky利用GPU进行深度学习,通过几天训练在ImageNet竞赛中获得冠军,其将深度卷积神经网络AlexNet的准确率提高了10.8%,震撼了学术界,从此开启GPU应用于深度学习的大门,其使用的正是NVIDIA GTX 580GPU芯片和CUDA计算模型。此后,英伟达GPU和CUDA模型成为深度学习(尤其是训练环节)的首选芯片,而英伟达也顺势推出海量专用于AI的芯片及配套产品,从显卡硬件公司华丽转型成为人工智能公司。
英伟达平均每两年推出一代芯片架构、每半年推出一款新的产品,多年以来坚持不辍。从2009年的Fermi架构到当前的Hopper架构,公司产品性能稳步提升,并始终引领GPU芯片技术发展。
目前,英伟达GPU芯片已形成覆盖数据中心、游戏、专业视觉和汽车业务几大场景的芯片产品阵列,其中消费级GPU和数据中心GPU是最核心场景。NVIDIA数据中心业务自2017年开始快速扩张,先后发布V100、A100等高性能通用计算显卡,为全球提供顶尖的AI算力。最新产品代际下NVIDIA已经在2022年9月20日推出GeForce 40系列首款产品。
(2)AMD
美国超威半导体公司(AMD)创立于1969年,专门为计算机、通信和消费电子行业提供各类微处理器以及提供闪存和低功率处理器方案,公司是全球领先的CPU、GPU、APU和FPGA设计厂商,掌握中央处理器、图形处理器、闪存、芯片组以及其他半导体技术,具体业务包括数据中心、客户端、游戏、嵌入式四大部分。公司采用Fabless研发模式,聚焦于芯片设计环节,制造和封测环节则委托给全球专业的代工厂处理。目前全球CPU市场呈Intel和AMD寡头垄断格局,Intel占主导地位。在独立GPU市场中,主要是英伟达(NVIDIA)、AMD进行角逐,Intel目前凭借其锐炬Xe MAX产品也逐步进入独立GPU市场。
公司营收主要包括四部分。数据中心业务主要包括用于数据中心服务器的各类芯片产品;客户端业务主要包括用于PC的各类处理器芯片;游戏业务主要包括独立GPU及其他游戏产品开发服务;嵌入式业务主要包括适用于边缘计算的各类嵌入式计算芯片。
AMD可以提供集成GPU和独立GPU两类PC GPU。集成GPU主要被运用在台式机和笔记本的APU产品、嵌入式等产品中,主要用于游戏、移动设备、服务器等应用。APU带有集成的板载GPU,CPU和GPU的高度融合在一起协同计算、彼此加速,相比于独立GPU更具性价比优势。
独立GPU为Radeon系列。AMD的Radeon系列独立GPU按推出时间先后顺序可以分为RX500系列、Radeon7、RX5000系列、RX6000系列、RX7000系列。Radeon系列显卡具备一定的性价比优势,市场份额有进一步上升的空间。
RDNA3架构采用5nm工艺和chiplet设计,比RDNA2架构有54%每瓦性能提升,包括2.7倍AI吞吐量、1.8倍第二代光线追踪技术,5.3TB/s的峰值带宽、4K480Hz和8K165HZ的刷新率等。AMD预计2024年推出RDNA4架构,将采用更为先进的工艺制造。
2018年,AMD推出用于数据中心的Radeon Instinct GPU加速芯片,Instinct系列基于CDNA架构。在通用计算领域,最新的CDNA2架构相比CDNA1架构,实现计算能力和互联能力的显著提升,MI250X采用CDNA2架构。在向量计算方面,CDNA2对向量流水线进行了优化,FP64的工作频率与FP32相同,具备同样的向量计算能力。在矩阵计算方面,CDNA2引入了新的矩阵乘指令级,特别适用于FP64精度,此外MattrixCore还支持FP32、FP16(BF16)和INT8的计算精度。在互联方面,通过AMD infinityfabric接口实现加速器之间的P2P或者I/O通信,提供800GB/s的总理论带宽,相比上一代提升了235%。
AMD ROCm是2015年AMD公司为了对标CUDA生态而开发的一套用于HPC和超大规模GPU计算提供的开源软件开发平台。ROCm之于AMD GPU相当于CUDA之于英伟达GPU。
AMD ROCm是一个开放式软件平台,为追求高灵活性和高性能而构建,针对加速式计算且不限定编程语言,让机器学习和高性能计算社区的参与者能够借助各种开源计算语言、编译器、库和重新设计的工具来加快代码开发,适合大规模计算和支持多GPU计算,其创立目标是建立可替代CUDA的生态。
2、国内公司
(1)海光信息
海光信息成立于2014年,主营业务是研发、设计和销售应用于服务器、工作站等计算、存储设备中的高端处理器。产品包括海光通用处理器(CPU)和海光协处理器(DCU),目前已经研发出多款新能达到国际同类主流产品的高端CPU和DCU产品。2018年10月,公司启动深算一号DCU产品设计,目前海光DCU系列深算一号已经实现商业化应用,2020年1月,公司启动了第二代DCU深算二号的产品研发工作。
海光DCU属于GPGPU的一种,海光DCU的构成与CPU类似,其结构逻辑相CPU简单,但计算单元数量较多。海光DCU的主要功能模块包括计算单元(CU)、片上网络、高速缓存、各类接口控制器等。深度计算处理器(Deep-learning Computing Unit,DCU)是公司基于通用的GPGPU架构,设计、发布的适合计算密集型和运算加速领域的一类协处理器,定义为深度计算处理器DCU。兼容通用的“类CUDA”环境以及国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等应用领域。海光8100采用先进的FinFET工艺,典型应用场景下性能指标可以达到国际同类型高端产品的同期水平,在国内处于领先地位。2021年下半年DCU正式实现商业化应用。
海光信息DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台,因此ROCm也被称为“类CUDA”。因此,海光DCU协处理器能够较好地适配、适应国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域,主要部署在服务器集群或数据中心,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。
(2)景嘉微
长沙景嘉微电子股份有限公司成立于2006年,2015年推出首款国产GPU,是国内首家成功研制具有完全自主知识产权的GPU芯片并实现工程应用的企业,2016年在深交创业板成功上市。公司业务布局图形显示、图形处理芯片和小型专用化雷达领域,产品涵盖集成电路设计、图形图像处理、计算与存储产品、小型雷达系统等方向。
公司GPU研发历史悠久,技术积淀深厚。公司成立之初承接神舟八号图形加速任务,为图形处理器设计打下坚实基础;公司2007年自主研发成功VxWorks嵌入式操作系统下M9芯片驱动程序,并解决了该系统下的3D图形处理难题和汉字显示瓶颈,具备了从底层上驾驭图形显控产品的能力。2015年具有完全自主知识产权的GPU芯片JM5400问世,具备高性能、低功耗的特点;此后公司不断缩短研发周期,JM7200在设计和性能上有较大进步,由专用市场走向通用市场;JM9系列定位中高端市场,是一款能满足高端显示和计算需求的的通用型芯片。
JM7200采用28nm CMOS工艺,内核时钟频率最大1300MHz,存储器内存为4GB,支持OpenGL1.5/2.0,能够高效完成2D、3D图形加速功能,支持PCIe2.0主机接口,适配国产CPU和国产操作系统平台,可应用于个人办公电脑显示系统以及高可靠性嵌入式显示系统。JM9系列面向中高端通用市场,可以满足地理信息系统、媒体处理、CAD辅助设计、游戏、虚拟化等高性能显示需求和人工智能计算需求。2022年5月,JM9系列第二款芯片已完成初步测试工作。
(3)壁仞科技
公司主营业务为高端通用智能计算芯片。壁仞科技创立于2019年,公司致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,公司将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。2022年3月,公司首款通用GPU芯片BR100成功点亮,后于2022年8月正式发布,创下全球算力的新纪录。
公司的产品体系主要涵盖BR100系列通用GPU芯片、BIRENSUPA软件开发平台以及开发者云三大板块。其中,BR100系列通用GPU芯片是公司的核心产品,目前主要包括BR100、BR104两款芯片。BR100系列针对人工智能(AI)训练、推理,及科学计算等更广泛的通用计算场景开发,主要部署在大型数据中心,依托“壁立仞”原创架构,可提供高能效、高通用性的加速计算算力。
BR100系列在性能、安全等方面具备多项核心优势。公司致力于打造性能先进、竞争力强的GPU芯片,并为此采取了大量技术措施,具体包括:支持7nm制程,并创新性应用Chiplet与2.5D CoWoS封装技术,兼顾高良率与高性能;支持PCIe 5.0接口技术与CXL通信协议,双向带宽最高达128GB/s等。2022年公司正式推出壁砺™100,其峰值算力达到国际厂商在售旗舰的3倍以上,超越了国际厂商同类的在售旗舰产品,竞争优势十分显著。同时,在安全方面,BR100系列最高支持8个独立实例,每个实例物理隔离并配备独立的硬件资源,可独立运行。
(4)摩尔线程
摩尔线程是一家以GPU芯片设计为主的集成电路高科技公司。公司诞生于2020年10月,专注于研发设计全功能GPU芯片及相关产品,支持3D高速图形渲染、AI训练推理加速、超高清视频编解码和高性能科学计算等多种组合工作负载,兼顾算力与算效,为中国科技生态合作伙伴提供强大的计算加速能力。在“元计算”赋能下一代互联网的愿景下,公司将持续创新面向元计算应用的新一代GPU,构建融合视觉计算、3D图形计算、科学计算及AI计算的综合计算平台,建立基于云原生GPU计算的生态系统,助力驱动数字经济发展。
公司的产品体系主要包括:MTTS60、MTTS2000、MTTS100等硬件产品;MTSmart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR等软件产品;以及MUSA统一系统架构、DIGITALME数字人解决方案、元计算应用解决方案等其他产品。
MTTS60显卡由基于MUSA架构的GPU苏堤核心晶片制成,采用12nm制程,包含2048个MUSA核心,单精度算力最高可达6TFlops,配置8GB显存,基于MUSA软件运行库和驱动程序等软件工具。在先进硬件规格的支撑下,MTTS60显卡能够在不同应用场景中展现多重优势:丰富图形API、4K/8K超高清显示、领先的硬件视频编解码能力、通用AI功能支持等。
MTTS2000采用12nm制程,使用4096个MUSA核心,最大配置32GB显存,单精度算力最高可达到12TFlops,支持H.264、H.265、AV1多路高清视频编解码,以及广泛的AI模型算法加速。同时,MTTS2000还采用了被动散热、单槽设计,以满足数据中心高密度GPU配置方式。目前,MTTS2000已经能够兼容X86、ARM等CPU架构以及主流Linux操作系统发行版,并与浪潮、新华三、联想、清华同方等多家服务器合作伙伴建立了合作关系,产品生态持续完善。作为公司面向数据中心领域的GPU芯片,除了生态外,MTTS2000还具备全功能GPU、丰富的图形API支持、绿色计算等优势。基于多维算力、生态完善等优势,MTTS2000有望助力公司赋能PC云桌面、安卓云游戏、音视频云处理、云端Unreal/Unity应用渲染和AI推理计算等多类应用场景。
07
未来展望
1、未来部分厂商有望迎来爆发式增长
GPU作为数据计算核心底座,战略地位高,国家高度重视,中美科技摩擦背景下,自主可控势在必行。从成长性维度看,全球市场空间广阔,国内市场规模也达到百亿量级,同时伴随下游需求提升而加速提升。在数字化驱动总需求提升背景下,叠加国产化趋势,国产GPU产业迎来总量和份额双提升机遇,国产GPU厂商发展提速。大市场需求下,GPU国产化空间广阔,优秀厂商稀缺性凸显,加速成长,部分厂商有望爆发式增长。
2、中国GPU市场将快速增长,有望为相应细分领域带来更快的成长
庞大的需求+逐渐成熟的产业预示着广阔的发展空间。在人工智能、云游戏、自动驾驶等新场景和需求爆发式增长的背景下,能够判断中国GPU市场将快速增长,相比于PC市场,新增市场空间或更大。相比于PC等传统IT应用场景,中国在人工智能、自动驾驶领域与强国处于同一竞争水平,且中国庞大市场有望为相应细分领域带来更快的成长。
END
想要获取海量投研信息?
想要了解事件背后的逻辑、最硬核的投研逻辑?
(更多投研内容可关注公众号《 投研锋向 》加入社群,体验更多0预期差纪要信息)
免责申明:以上内容仅供学习交流,不构成投资建议。