您的位置 首页 > AI硬件

AI硬件核心,需求爆发增长


AI硬件核心,需求爆发增长

1.1 HBM 高带宽、低功耗优势显著,缓解内存墙问题

存储带宽提升速度慢于算力提升速度。大模型的训练可以简化为 2 步:1)浮点运算(FLOPS),运行矩阵乘法,2)存储(带宽),等待数据或 者计算资源。过去大模型的训练时间主要受限于算力,英伟达等 GPU 厂商通过利用摩尔定律缩减制程、改变架构等方式,GPU 的浮点运算能力大幅提高, 但对应的存储带宽增速慢于 GPU 算力增长速度。如英伟达 H100 相比 A100,FP32 算力从 19.5 到 66.9tflops 提升 3 倍+,但带宽从 2039GB/s 到 3.35TB/s 仅提升 1.5 倍。

AI 芯片需要处理大量并行数据,要求高算力和大带宽,算力越强、每秒 处理数据的速度越快,而带宽越大、每秒可访问的数据越多,算力强弱 主要由 AI 芯片决定,带宽由存储器决定,存力是限制 AI 芯片性能的瓶 颈之一。AI 芯片需要高带宽、低能耗,同时在不占用面积的情况下可以 扩展容量的存储器。上世纪 40 年代开始计算机使用冯诺伊曼架构——存算分离,即处理器 和存储器相互独立,两者通过总线连接。1)存算分离,数据存算间传输造成延迟。处理器从外部存储中调取数据, 计算完成后再传输到内存中,一来一回都会造成延迟。2)数据在多级存储间传输。为了提升速度,冯诺依曼架构对存储进行分 级,越往外的存储介质密度越大、速度越慢,越往内的存储密度越小, 速度越快,因此数据需要在多级存储之间搬运,能耗大。通常第一级存 储是速度最快、容量低的以 SRAM 为形式的片上缓存,第二级是传统 DDR。3)存储制程推进慢于逻辑。目前 DRAM 制程最先进仍在 10-15nm 左 右,而逻辑制程已进入 5nm 以下,主要是因存储器制程缩小难度更大。以上三点带来“存储墙”和功耗墙问题,影响处理器性能:1)数据的传 输量小、速度慢,造成延迟,2)数据的传输功耗大(读取功耗随着存储 器密度增大而增大),因此存储器的性能发展方向为更大带宽、更低功耗。

存算一体可有效克服冯诺依曼架构,迎合 AI 时代提升算力能效的 需求。存算一体是一种新的架构,其核心理念是将计算和存储融合,降 低“存储墙”问题,实现计算能效的数量级提升。从广义而言,存算一 体可分为三种:近存计算(PNM)、存内处理(PIM)、存内计算(CIM), 狭义的存算一体主要指存内计算。1)近存计算 PNM,通过芯片封装和板卡组装的方式,将存储和计算单 元集成,提升计算能效。PNM 可分为存储上移以及计算下移。存储上移 是指采用先进封装技术将存储器向处理器靠近,增加计算和存储间的链 路数量,增加带宽,典型产品为 HBM(高带宽内存),HBM 在英伟达 H200、H100 等 AI 训练 GPU 均有应用。计算下移是指利用板卡集成技 术,在存储设备引入计算引擎,减少远端处理器负担。2)存内处理 PIM,核心是存储器具备一定计算能力。芯片制造过程中, 将存储和计算单元集成在同一颗 die 上,使得存储器本身具备一定计算 能力。与近存计算相比,“存”与“算”之间的距离更为紧密。目前的存内处 理方案主要通过在内存(DRAM)芯片中实现部分数据处理,其中典型 的产品形态包括 HBM-PIM 和 PIM-DIMM,HBM-PIM 与 HBM 的不同之 处在于 PIM 芯片上的每个存储块内都包含一个内部处理单元。存内处理 技术可应用于多种场景,包括语音识别、数据库索引搜索、基因匹配等。3)存内计算 CIM,真正意义上实现了同一个晶体管同时具备存储和计算 能力。即在芯片设计过程中,存储电路同时具备存储和计算能力,使得 计算效能实现数量级提升。典型产品为存内计算(IMC,In-memory Computing)芯片。

HBM 是近存算一体的一种,定位在片上缓存 LLC 和传统 DDR 中间, 弥补带宽缺口,兼顾带宽和容量。HBM 定位在 CPU/GPU 片上缓存 (Last Level Cache,LLC,通常是 SRAM)和 DRAM 之间,弥补处理器高带宽需求与主存储器最大带宽供 应能力之间的带宽缺口,容量大于片上存储、小于传统 DDR,但速度小 于片上存储、大于传统 DDR,成本低于片上存储、高于传统 DDR。以成本为例,1MB SRAM 价值$5~$10,1GB HBM 价格$10-$20,根据 集邦咨询, 2 月 1GB DDR4 合约价 $1.95(历史最高 $4.1), 1GB=1024MB,从单位存储成本看,SRAM 的成本是 HBM 的 500 倍+、 普通 DRAM 的 1000 倍+,HBM 常备是普通 DRAM 的 5 倍+。从速度来看,在 AI 应用中,每个 SoC 的带宽需求(尤其是在训练应用 中)都会超过几 TB/s,但常规主存储器无法满足这个要求,具有 3200Mbps DDR4 DIMM 的单个主存储器通道只能提供 25.6GB/s 的带 宽,具有 4800Mbps DDR5 DIMM 的单个主存储器通道提供 38.4GB/s, 即使是具有 8 个存储器通道的最先进的 CPU 平台,DDR4 和 DDR5 对 应速度也只能达到 204.8GB/s、307GB/s,围绕单个 SoC 的 4 个 HBM2 堆叠可提供大于 1TB/s 的带宽,因而能够消除带宽差距。

HBM 用于 AI 训练卡,GDDR 用于 AI 推理卡。JEDEC(固态技术协会, 微电子产业的领导标准机构)定义并开发了以下三类 DRAM 标准,以 帮助设计人员满足其目标应用的功率、性能和尺寸要求。1)标准型 DDR:Double Data Rate SDRAM,针对服务器、云计算、网 络、笔记本电脑、台式机和消费类应用程序,允许更宽的通道宽度、更 高的密度和不同的外形尺寸。2)LPDDR:Low Power Double Data Rate SDRAM,LPDDR 具有体积小、 功耗低的优势,可以减小无线电子产品的体积,低功耗可延长使用时间, 在智能手机、平板等应用中使用广泛。3)GDDR:Graphics Double Data Rate SDRAM,适用于具有高带宽需求 的计算领域,通常称为显存,例如图形相关应用程序、数据中心和 AI 等, 与 GPU 配套使用,GDDR 又可分为普通 GDDR 和 HBM,普通 GDDR 采用平面结构,HBM 采用 3D 堆叠结构,普通 GDDR 多用在 AI 推理卡 中,HBM 用于 AI 训练卡或少数高端的 AI 推理卡。因此,推理芯片如 英伟达 A100、H100 通常使用 HBM 配套,而 L4、A16 等均配套 GDDR, 高端推理卡可根据要求配套 HBM 或 GDDR,如 A30、A40。

HBM 相较其他 DRAM 有高带宽、低功耗、面积小的三大特点。一方面 通过增加引脚数量达到每颗 HBM 1024bit 内存总线(即 I/O),以实现更 高带宽,另一方面缩短数据的传输路径,降低功耗,HBM 走线长度以毫 米为单位,而 GDDR 和 DDR 均以厘米为单位。

GDDR VS HBM:1)HBM 容量易扩展、占用面积小:HBM 采用 TSV硅通孔技术 3D 堆叠,通过增加层数来扩展容量,GDDR 为 2D 结构, 因此 HBM 在实现相同容量下,占用的面积更小。2)HBM 功耗低:GDDR 采用正常 2D 结构,不需要中介层连接,总线位宽小,主要是通过体现 数据的传输速率来提升位宽,因为数据的传输速率快,因此功耗也高于 HBM,而 HBM 用 TSV 技术实现走线更短,同时 I/O 数据的传输速度慢, 功耗低。3)HBM 带宽大:HBM 通过增加位宽实现高带宽。4)HBM 制 造成本高:HBM 采用额外的 TSV、Bumping 等技术,对封装要求高, 损耗也更高。

HBM 不断迭代,迭代方向为增加容量和带宽,目前最高层数为 12 层。海力士 2014 年推出全世界第一颗 HBM,2018 年推出 HBM2,后续每 隔两年推出新一代 HBM,目前最新量产的是 HBM3,预计 2024 年量产 HBM3E,原厂加速研发。从单颗容量看,堆叠层数和单层 DRAM 容量均有所增加,HBM1 仅堆叠4 层 2Gb 的 DRAM,实现单颗 HBM 8Gb(1GB),而 HBM3E 最高堆叠 12 层 3GB 的 DRAM,实现单颗 HBM 36GB,HBM4 可能采用 16 层堆 叠。从 I/O 数量看(总线位宽),HBM1 到 HBM3E 均保持在 1024bit, 而数据的传输速率从 HBM1 的 1Gb/s 提升到 HBM3E 的 9.2Gb/s,最终 实现带宽从 HBM1 的 128GB/s 提升至 HBM3E 的 1.2TB/s。HBM4 的标 准目前未确定,目前普遍预期 HBM4 最高 16 层堆叠,2048bit 总线位 宽。

影响 HBM 性能的因素主要是 HBM 带宽、容量、功耗和尺寸规格。1) 提升 HBM 容量:①增加 DRAM Die 的堆叠层数。②增加每片 DRAM Die 的容量③单颗 GPU 增加使用 HBM 的颗数。单颗 HBM 容量=DRAM 堆 叠层数×每片 DRAM 容量,GPU 使用 HBM 总容量=单颗 HBM 容量 *HBM 颗数。2)提升 HBM 带宽:①提高 I/O 数据的传输速率。②更宽 的 I/O 总线位宽。带宽是处理器与显存之间的数据的传速度,带宽(GB/s) =数据的传输速率(即 I/O 读写速度,Gbps)× 总线位宽(bit)/8。HBM 主要是通过增加总线位宽的宽度提升带宽,同时数据的传输速率较慢, 实现运行功耗更低、面积更小,但因涉及到复杂的堆叠、中介层等技术, 成本更高。3)功耗:数据的传输速度越大,功耗越大,数据的传输的距 离越远,功耗越大。

HBM 方案下,GPU 增加带宽的方式主要是增加 HBM 颗数和提升 HBM 性能。1)增加 HBM 颗数:目前 1 颗 HBM3 可提供 1024bit 总线位宽, 增加 1 颗 HBM3,可增加 1024bit 总线位宽。但 HBM 的颗粒必须跟 GPU 对齐和封装在一起,是紧耦合的状态,受限 GPU 面积,HBM 数量不能 无限增加,同时还需考虑散热等问题。2)提升 HBM 性能:提高单颗 HBM 的带宽。

1.2 HBM 随 AI 爆发式增长,2024 年达到百亿美金规模

目前主流 AI 训练芯片都使用 HBM,一颗 GPU 配多颗 HBM。以英伟达 H100 为例,1 颗英伟达 H100 PICe 使用台积电 CoWoS-S 封装技术将 7 颗芯片(1 颗 GPU+6 颗 HBM)封在一起,1 颗 GPU 由 6 颗 HBM 环 绕,其中 5 颗是 active HBM,每颗 HBM 提供 1024bit 总线位宽,5 颗 共提供 5120bit 总线位宽,另外 1 颗是 non-HBM,可使用硅材料,起到 芯片的结构支撑作用。H100 PCIe 的 HBM 总容量 80GB,使用 5 颗 activer HBM2E,每颗 HBM2E 容量 16GB,每颗 HBM2E 是由 8 层 2GB DRAM Die 堆叠组成。

英伟达 HBM 用量提升。英伟达 H100 PCIe 版本使用 80GB HBM2E, H200 提升到 144GB(6 颗 HBM3E),最新发布的 B100、B200 采用 192GB(8 颗 8 层 HBM3E)。

预计 24 年 HBM 市场规模达百亿美金,较 23 年翻倍。以搭载 8 颗英伟 达 H100 的 AI 服务器为例,H100 配套 5 颗 HBM2E,单颗 HBM2E 容 量 16GB,8 层堆叠、每层堆叠 2GB,每颗 H100 需要 80GB HBM,单 颗服务器需要 640GB HBM;HBM 每 GB 单价 10-20 美金。假设单颗 GPU 的 HBM 使用量每年提升 40%左右,假设 AI 服务器 24-25 年渗透 率 12%/13%,预计 24 年 HBM 市场需求 151 亿美金,较 23 年基本翻 倍。

1.3 三大原厂垄断市场,开启军备竞赛

图形和服务器 DRAM 三大家垄断程度高。1)分下游三大原厂合计市占率排序(23Q1):图形 DRAM(100%)>服 务器 DRAM(99%)>移动端 DRAM(94%)>利基 DRAM(71%),图 形、服务器 DRAM 基本全部被三星、海力士和美光垄断,移动端和利基 DRAM 市场有其他玩家,尤其是利基 DRAM 市场,代表厂商有中国台 湾厂商华邦、南亚、南亚,陆厂商长鑫存储、北京君正、东芯股份、兆 易创新等。2)分下游玩家:三星在每个细分市场均为第一,图形 DRAM 市场,三 星/海力士/美光份额 35%/31%/34%,三大原厂份额较为均衡,在服务器市 场,三星/海力士/美光份额 43%/34%/22%,移动端市场,三星/海力士/美 光份额 53%/19%/18%,三星独占一半份额(三星手机约占据 20%左右全 球份额),在利基 DRAM 市场,三星/海力士/美光份额 33%/13%/25%。

未来 DRAM 制程演进需要使用 EUV 光刻技术,三星最早使用。1)DRAM 制程:进入 10nm 级别制程后迭代速度放缓,使用 1x(16- 19nm)、1y(14-16nm)、1z(12-14nm)等字母表示,另外三星海力士使 用 1a(约 13nm)、1b(10-12nm)、1c(约 10nm),对应美光 1α、1β、 1γ。2)三星在 1znm 就已使用 EUV 光刻技术。三星在 2020 年在 1znm DDR5 上采用 1 层 EUV,2021 年量产采用 5 层 EUV 的 DDR5,三星是首家在 DRAM 采用 EUV 光刻技术的厂商,也是在 DRAM 上使用 5 层 EUV 的 厂商。而海力士和美光在 1znm 仍然使用 ArF-i 光刻工艺,2021 年海力 士在 1anm 转向使用 EUV,后续在 1bnm 继续使用 EUV。而美光在 2023 年宣布开始在 1cnm(1γ制程)使用 EUV 光刻技术。EUV 技术,制程 更小、单位容量更大,成本更有优势。

2024 年三大原厂将以迭代量产 1bnm(1β)为主,海力士和美光 HBM3E 将直接使用 1bnm,三星采用 1anm。目前,DRAM 先进制程技术已发展至第五代 10nm 级别,美光称之为 1 βnm DRAM,三星和海力士称为 1bnm DRAM。美光最先量产 1bnm 级 别 DRAM。1)三星:2023 年 5 月三星量产 12nm 16Gb DDR5 DRAM,9 月三星开发 出基于 12nm 级工艺技术的 32Gb DDR5 DRAM,将于 2023 年底开始量 产。三星透露将于 2026 年推出 DDR6 内存,2027 年即实现原生 10Gbps的速度。据披露,三星正在开发行业内领先的 11nm 级 DRAM 芯片。2)海力士:2023 年 1 月,海力士 1anm 服务器 DDR5 适用到英特尔®第 四代至强®可扩展处理器,并在业界首次获得认证。5 月,海力士 1bnm 技术完成研发,采用“HKMG(High-K Metal Gate)”工艺,与 1a nm DDR5 DRAM 相比功耗减少了 20%以上。3)美光:2022 年日本厂开始量产 1bnm(1β)制程,今年中国台湾厂也 开始量产 1bnm(1β)制程,预计 1cnm(1γ)制程在 25H1 在中国台湾 厂量产,1cnm(1γ)制程使用 EUV 技术。

三星和海力士垄断 9 成 HBM 市场,美光份额落后。HBM 市场垄断效应 更强,2022 年海力士/三星份额为 50%/40%,美光份额仅 10%,海力士 HBM3 产品领先其他原厂,是英伟达 AI 芯片 HBM 的主要供应商,份额 最高,而三星着重满足其他云端服务业者的订单,在客户加单下,预计 在 HBM3 与海力士的市占率差距会大幅缩小,2023~2024 年三星和海力 士市占率预估相当,合计拥 HBM 市场约 95%的市占率,不过因客户组 成略有不同,在不同季度的出货表现可能有先后。

美光因技术路线判断失误在 HBM 市场份额比较低,在追赶中。美光此 前在 HMC 投入更多资金,HMC(Hybrid Memory Cube,混合内存立方 体)将 DRAM 堆叠、使用 TSV 硅穿孔技术互连,DRAM 下方是一颗逻 辑芯片,从处理器到存储器的通信是通过高速 SERDES 数据链路进行 的,该链路会连接到 DRAM 下面的逻辑控制器芯片,但不同于 HBM, HBM 是与 GPU 通过中介层互连。HMC 是与 HBM 竞争的技术,美光 2011 年推出 HMC,海力士 2013 年推出 HBM,HMC 与 HBM 开发时间 相近,但 HBM 未被大规模使用,原因如下:1)相较 HBM 直接与处理 器封装在一起,HMC 距离处理器较远,延迟更大。2)HBM 推出不久后 就被认证为 JEDEC 标准,而 HMC 推出比 HBM 早 2 年但未被 JEDEC 定 为标准, JEDEC 拥有数百家会员公司、奉行一公司一票与三分之二多 数的制度,从而降低标准制定被任何一家或一批公司所把控的风险,因 此只有大家真正认可,才会最终被推行为正式标准。美光 2018 年由 HMC 转向 HBM。

2023 年主流需求自 HBM2E 转向 HBM3,预计 2024 年转向 HBM3 及 3E。随着使用 HBM3 的 AI 训练芯片陆续放量,2024 年市场需求将大幅 转往 HBM3,而 2024 年将有望超越 HBM2E,比重预估达 60%,且受惠 于其更高的平均销售单价,将带动明年 HBM 营收显著成长。

海力士是 HBM 先驱、技术最强,最早与 AMD 合作开发,三星紧随其 后。海力士在 2015 年首次为 AMD Fiji 系列游戏 GPU 提供 HBM,该 GPU 由 Amkor 进行 2.5D 封装,随后推出使用 HBM2 的 Vega 系列,但 HBM 对游戏 GPU 性能未产生太大改变,考虑没有明显的性能优势和更高的成 本,AMD 在 Vega 之后的游戏 GPU 中重新使用 GDDR,目前英伟达和 AMD 的游戏 GPU 仍然使用更便宜的 GDDR。随着 AI 模组中参数数量 的指数级增长,内存墙问题愈加突出,英伟达在 2016 年发布首款 HBM GPU P100,后续英伟达数据中心 GPU 基本都采用海力士 HBM。海力士 22Q4 量产全球首款 HBM3,而三星由于此前降低 HBM 的投入 优先级,HBM3 较海力士晚推出一年。

三大原厂积极扩产 HBM 和推进产品迭代,预计 24H2 HBM3E 量产,未 来成为市场主流。1)海力士:24 年Capex优先保障 HBM 和 TSV 产能,23 年 HBM 产能 已出售完、同时持续收到额外需求,预计 DDR5 和 HBM 产线规模将在 24 年增长 2 倍+。公司已从 2023 年 8 月开始提供 HBM3E 样品,2024 年 1 月中旬结束开发,3 月开始量产 8 层 HBM3E,3 月底发货。12 层 HBM3E已于 2 月送样。2)三星:计划 24 年 HBM 产能提高 2.5 倍。23Q3 已量产 8 层和 12 层 HBM3,计划 Q4 进一步扩大生产规模,并开始供应 8 层 HBM3E 样品, 2024 年 2 月底发布 12 层 HBM3E ,预计 H1 量产。3)美光:跳过 HBM3,直接做 HBM3E,2024 年 3 月宣布量产 8 层 HBM3E ,将用于英伟达 H200,3 月送样 12 层 HBM3E。

HBM 制造中先进封装大放异彩

2.1 采用多种先进封装工艺,重点关注堆叠键合方式

HBM 颗粒采用 KGSD 封装形式,由 1 片逻辑芯片+多片 DRAM 芯片组 成。海力士、三星等存储原厂将 HBM 采用晶圆级封装,以 KGSD(Known Good Die Stack,已知合格堆叠芯片)的封装形式交给台积电,台积电使 用 2.5D 封装技术(包括 CoWoS)将 HBM 与 SoC(GPU 等)封装在一 起,本文重点介绍 HBM 制备流程、工艺和相关设备材料,关于 CoWoS 工艺的具体介绍,详情见《AI 系列之先进封装:后摩尔时代利器,AI+ 国产化紧缺赛道》。1 颗 HBM KGSD = N 颗 DRAM 芯片(也称为 Core Die) + 1 颗逻辑芯 片(也称为 Logic Base Die)组合而成,目前 N=4/8/12,预计 HBM4 将 采用 16 颗 DRAM 芯片堆叠。逻辑芯片主要包括三个功能区,①用于测试的区域(DFT Area),②TSV 区域,TSV 用于给 DRAM 芯片传输信号和电力,③PHY 芯片区域, HBM 和 SoC 中的存储控制器之间的接口。PHY 芯片区域和 TSV 区域中间有 1024 根信号传输线路,对应 1024bit 总线位宽。逻辑芯片的大小通 常大于 DRAM 芯片,如海力士 8 层 HBM3 的逻辑芯片大小为 10.8 mm x 9.8 mm,而 DRAM 芯片为 10.5 mm x 9.5 mm,这是为了可以模塑封装 (Mode 晶圆模塑,一种扇出型晶圆级芯片封装工艺)以保护晶圆,通常 使用环氧树脂模塑料(EMC)作为填充材料。

HBM 使用 TSV 技术、采用 3D 堆叠结构,采用先进封装与 GPU 封装在 一起,在不占用面积的前提下,实现容量拓展、有效提升带宽和降低功 耗。将多片 HBM DRAM Die 堆叠在一颗 Logic Die,DRAM Die 之间、 DRAM 和 Logic Die 均通过硅通孔(TSV)和 Bump(凸点)垂直互连。DRAM 与 Logic Die 放置在 Interposer(中介层)上与 GPU 互联,中介 层放置在 ABF 载板上,最后 HBM 与 GPU 使用系统级封装技术封在一 起。HBM 采用的主要技术为:1)TSV、Bumping 技术:有利于 HBM 增加 容量,可以通过堆叠更多层数实现扩容,同时实现了较短的信号传输路 径,使 HBM 具备更好的内存功耗能效特性,同时也增加了引脚数量, 使得每颗 HBM 能有 1024bit 总线位宽。2)2.5D 封装采用中介层:中 介层中连接 GPU 和 DRAM,相较传统 PCB 的电线数量更多,一方面缩 短与GPU的数据的传输路径,减少能耗,更重要的是实现GPU和DRAM 的高带宽数据的传输。3)系统级封装:HBM 将原本在 PCB 板上的 DDR 内存颗粒和 GPU 一起全部集成到 SiP 里,因此 HBM 在节省产品空间方 面也更具优势。

HBM 制造流程分为四步,涉及 TSV(硅通孔)、Bumping(凸点制造)、堆叠键合等技术。HBM 从设计、制造和封测方式均与传统 DRAM 有较 大区别,相较传统 DRAM,HBM 多了 TSV、逻辑晶圆制备、凸点制造、 堆叠键合等工艺,主要差异集中在封装测试部分,HBM KGSD 的制备工 艺包括扇出型晶圆级封装、TSV、Microbumping 等先进封装技术。1)晶圆制造(包括 TSV):分别制造 DRAM 晶圆和逻辑晶圆,同时做 好 DRAM 和逻辑晶圆的 TSV 硅通孔,TSV 硅通孔需要晶圆制造工艺, 包括深孔刻蚀、气相沉积、铜填充、CMP、晶圆减薄等晶圆制造工 艺,此时 DRAM 和逻辑都是处于晶圆阶段,与传统 DRAM 主要差异是 HBM 晶圆需要制造 TSV。2)凸点制造(Mircobumping):将硅通孔后的 DRAM 晶圆和逻辑晶圆倒 装,然后进行减薄,在晶圆背面形成凸点,此时 DRAM 和逻辑都是处于 晶圆阶段。3)堆叠和键合(Stacking&Bonding),主要的差异化环节:在进行堆叠前, DRAM 晶圆和逻辑晶圆的 TSV 通孔和凸点均已做好,DRAM 晶圆切割 成 DRAM 颗粒,DRAM 颗粒一层一层堆叠在逻辑晶圆上,然后进行键 合,再进行晶圆模塑封装,最后获得模塑封装后的 KGSD(Molded KGSD)。海力士和三星/美光主要是在键合工艺上有差异,三星/美光使用较为传统 的 TC-NCF(Thermo-Compression Bonding with None Conductive Film, 热压缩-非导电薄膜),先在有 TSV 和凸点的晶圆上填充 NCF,然后堆叠 进行热压键合,后进行模塑封装,而海力士采用独创的 MR-MUF 工艺 (Mass Reflow Bonding with Molded UnderFill,大规模回流焊-注塑底填 充技术),不使用 NCF,直接先堆叠,然后进行大规模回流焊做凸点的键 合,然后使用以液体 EMC 为主要原材料的 MUF 使用模塑方式填充缝 隙,工艺具体介绍详见后文。4)切割 KGSD 晶圆获得 KGSD 颗粒:将模塑后的 KGSD 晶圆切割成颗 粒,测试完成后出货给台积电继续做 CoWoS 封装。

2.2 HBM 三大关键工艺:TSV、Micro bump 和堆叠键合

TSV 在 HBM 成本中占比最高,约 30%。HBM 核心工艺主要是 TSV、 micro bump 和堆叠键合,其中 TSV 工艺是 HBM 中成本占比最高、最 核心的工艺,利用 TSV 才能实现 DRAM 芯片的 3D 堆叠和芯片间的快 速传输。根据 3D InCites 2016 年数据,在 4 层 DRAM 和 1 层逻辑的 HBM 中,99.5%的键合良率下,TSV 工艺所占的成本比重为 30%,其 中 TSV 制造(在正常晶圆厚度上制作 TSV 的过程)为 18%,TSV 显露 (晶圆减薄等工艺使 TSV 触点露出)为 12%;在 99%键合良率下,TSV 工艺所占的成本比重为 28%,其中 TSV 制造为 17%,TSV 显露为 11%。

TSV,即 Through-SiliconVia,指穿透 Si 晶圆实现各芯片层之间电互 连的垂直导电柱。RDL 主要在 XY 轴上进行电互联,而 TSV 主要针对 Z 轴方向的电互联,是唯一的垂直电互联技术。芯片三维堆叠技术需通过 TSV 实现多芯片的短距离高速通信。TSV 有 3 个关键特征:1)通过在 芯片内部形成孔洞来实现电气互连;2)垂直连接芯片的不同层次,实现 多层堆叠结构;3)TSV 中填充导电材料,通过孔内材料导电实现电气互 连。TSV 主要用于硅转接板、芯片三维堆叠等方面,典型应用有 cowos、 HBM。目前用于三维堆叠的 TSV 直径约为 5~10μm,深宽比约为 10∶ 1,未来先进 TSV 工艺的直径有望达到 1μm,深宽比达到 20∶1,实现 更高密度的互连。

TSV 制造涉及到深孔刻蚀、气相沉积、铜填充、CMP、晶圆减薄等工序 设备,技术难度高。TSV 制造的主要工艺流程依次为:深反应离子刻蚀 (DRIE)行成通孔→通过化学沉积的方法沉积中间介电层、使用物理气 相沉积的方法沉积制作阻挡层和种子层→通过电镀或者 PVD 工艺在盲 孔中进行铜填充→使用化学和机械抛光(CMP)去除多余的铜并对晶圆 进行减薄。从工艺次序角度可分为前通孔、中通孔、后通孔和键合后通 孔等几种形式。TSV 技术的工艺难度高:1)通常要求晶圆减薄到 50μ m以下,须控制好晶圆减薄的水平度,避免裂片、飞边。2)TSV 工艺对 通孔的宽度以及深宽比都有严格要求,目前首选技术是基于 Bosch 工艺 的干法刻蚀,实现了对腔室内等离子体密度的均匀控制,满足硅高深宽 比刻蚀工艺的要求。涉及的设备&材料:光刻机(光刻胶)、深孔刻蚀设 备(电子特气)、PVD(靶材)、CVD、电镀设备(电镀液)、抛光机(抛 光液)、减薄机(减薄液)等。此外,为了满足 TSV 工艺,晶圆减薄已 成为大势所趋,但超薄晶圆容易产生翘曲,因此在硅转接板的完整工艺 流程中(报告 3.1 节有流程介绍)还需要用到临时键合与解键合工艺:采用临时键合材料将完成一面图形制造的晶圆预键合到载片上,继续进 行背面工艺制作,完成后将晶圆和载板剥离。

Micro bump 是芯片倒装的基础。Bump 技术具备引脚密度高、低成本的特点,是构成倒装技术的基础。相较于传统打线技术(Wire Bond)的“线连接”,Bump 技术“以点代 线”,在芯片上制造 Bump,连接芯片与焊盘,此种方法拥有更高的端口 密度,缩短了信号传输路径,减少了信号延迟,具备了更优良的热传导 性及可靠性,也是进行 FC(Flip Chip)倒装工艺在内的先进封装工艺的 技术基础。

Micro bump 是铜柱微凸点,主要制备方法是电镀。目前 HBM 的 DRAM 芯片之间主要通过 micro bump(微凸点)互联,micro bump 是电镀形 成的铜柱凸点。凸点制作流程为:①首先溅射一层 UBM 层(Under Bump Metallization,凸点下金属层)到整个晶圆的表面,UBM 层作为种子黏 附层,可以在电镀时让电流均匀传导到晶圆表面开口的地方,使各处电 镀速率尽可能一致。②在 UBM 层上利用光刻胶形成掩膜,仅在需要电 镀凸点的区域开口。③通常采用蘑菇头形的电镀,即电镀厚度超过光刻 胶厚度,凸点沿着光刻胶表面横向长大,形成蘑菇头形状。④电镀完毕 后去胶,并去除凸点外的 UBM 层。⑤最后通过回流形成大小均匀、表面 光滑的凸点阵列。整个流程会涉及到的设备&材料:PVD(靶材)、涂胶 显影机、光刻机(光刻胶)、电镀设备(金属、焊料)、去胶设备(剥离 液)、刻蚀设备(电子特气)、回流焊设备等。

堆叠键合工艺主要包括:NCF、MUF、混合键合。HBM2,Bump pitch(凸点间距)在 55μm,三星和海力士共同使用 TCB (热压合)技术,其中海力士采用的是 TCB 的分支 TCB-NCF。HBM2/2E/3/3E,Bump pitch 进展到 25/22μm 水平,三星继续采用 TCB 技术,而海力士独家采用 MR-MUF(大规模回流焊-注塑底填充技术)。HBM4,Bump pitch 进展到 20μm 以下,三星和海力士共同寻求混合键 合技术——该技术相比 TCB、MR-MUF 技术最大特点在于,其为直接键 合,即直接实现上下 die 之间的电气连接,中间不需要再使用凸点。三星、海力士之外的另一巨头美光,此前坚持 HMC(混合存储立方体技 术),于 2022 年底转向 HBM,并于 2023 年推出 HBM3 Gen2,技术方式 与三星相同,使用 TCB。

海力士独创的 MR-MUF 相较 TC-NCF 有更好的散热性能。海力士从 TCB 转向独创 MR-MUF,一方面效率更高,同时散热效果更 好,HBM3 推出时间领先其他原厂 1 年多、占据了先机。散热是 HBM 产品发展的关键瓶颈之一,MR-MUF 工艺下 HBM 的散热 性能更好,主要是由于:①散热凸点(bump)更多,②不再使用 NCF, 使用有优良导热性能的塑封料作为间隙填充材料,相当于 TCB-NCF 下 HBM 需要穿 2 层衣服(NCF 和 EMC),而在 MR-MUF 工艺下 HBM 之 间仅穿了一层衣服(EMC)。另外 MR-MUF 工艺也有效率更高、降低 TSV 制造成本等优势。凸点主要可分为散热类凸点和连接类凸点,通常凸点越多散热效果越好, 凸点增加了散热路径,但是在传统的 HBM 堆叠键合 TCB-NCF 工艺下, 考虑到 NCF 的流动性和键合过程中在热压力下的芯片损耗,TCB 难以 大规模制备散热凸点,MR-MUF 工艺下一次熔化所有微凸点的焊料然后 实现键合、电气互连,不再使用压力,因此可以使用更多凸点,散热性 能更佳,另外采用自己独家研发的液体状 EMC 为主要原材料的底料填 充,散热性能更上台阶。根据海力士,MR-MUF 工艺确保了 HBM 10 万 多个凸点互连的优良质量,增加了散热凸点数量、实现更好的散热效果, 巩固了海力士在 HBM 市场的地位,并使 SK 海力士在 HBM3 市场占据 领先地位。

目前 HBM 厂商采用的凸点倒装互连工艺主要分为回流焊和热压键合。1)回流焊:加热锡焊料,熔化的焊料与另一侧凸点金属接触后发生界面反应,形成互连焊点。缺点是温度变化容易引起翘曲,焊料和金属间的 对准存在偏差。2)热压键合:通过加压加热使锡焊料熔化与凸点金属接 触后发生界面反应形成焊点,与回流焊的区别是:键合时间只有几秒钟 (回流焊需要十几分钟),降低翘曲发生率;键合前通过相机对准(回流 焊是自对准),精度更高,但是产出效率比回流焊低。因此热压键合更适 合微尺寸的互连。

底填料是在倒装中起到保护凸点的作用。在芯片倒装互连过程中,底部 填充料是不可或缺的材料,起到保护凸点的作用。目前 HBM 厂商使用 的底填充形式主要分为两种:1)组装后底部填充技术:先凸点互联,后 底部填充。该技术是传统填充技术,缺点是凸点间填充不完全;2)预成 型底部填充技术:先涂覆底填料至芯片,后凸点互联,凸点的互联和底 填料固化工艺同时完成。该技术是新型填充技术,优点是简化工艺,填 充更完全。随着芯片间 I/O 端口数量的增加,芯片间互联方式正从“回 流焊+组装后底部填充”转变到“热压+预成型底部填充”,而凸点间距降 低到 10 微米以下后,需要采用混合键合工艺,无需底填料。目前三星和 美光的 HBM 使用的工艺是热压+预成型底部填充,而海力士的 HBM 使 用的是研发改进后的回流焊+组装后底部填充。

TC-NCF

TC-NCF(热压键合+非导电薄膜)工艺先用 NCF 非导电薄膜填充芯片 间隙,再通过热压键合连接芯片。TC-NCF 的工艺流程:1)在圆片正面 真空层压 NCF。NCF 由丙烯酸和环氧树脂等组成,是一种底填料,用于 粘合填充。2)在圆片背面贴划片膜,接着进行划片分割;3)通过热压 键合将芯片之间堆叠固定。TC-NCF 具有成本低、操作方便等优点,缺 点是高温易导致芯片翘曲,影响良率。此外,它对芯片研磨的要求也很 高,厚度稍有不均,芯片各部分受到的压力就会变化,使良率降低。美 光和三星从生产 HBM 开始,一直使用 TC-NCF 工艺,海力士的 HBM2 使用了 TC-NCF 工艺。

MR-MUF

MR-MUF 是海力士 HBM 核心工艺,MR-MUF(大规模回流焊+注塑底填充) 工艺先通过回流焊连接芯片,再用环氧塑封料填充芯片间隙。海力士的 HBM 在市场领先,依靠的核心技术就是独家的 MR-MUF。MR-MUF 技术壁垒为:液体环氧塑封料及注塑设备、芯片翘曲控制技术,均由海力士研发并享有独 占权。MR-MUF 流程分为两步骤:1)将带有微凸点的芯片堆叠后整体加热, 一次熔化所有微凸点的焊料,将芯片与电路连接;2)用 MUF(主要构成材 料是液体环氧塑封料)填充芯片与芯片的间隙,同时完成注塑和底填工艺。与 TC-NCF 相比,MR-MUF 的优点:1)MR-MUF 的键合可以在空隙阶段完 成,提高工艺效率;2)MUF 具有高导热性,导热率比 NCF 高出约两倍,散 热性能改善了 10℃以上。海力士 HBM2E、HBM3、HBM3E 均使用 MR-MUF 工艺。

混合键合

三星与 SK 海力士正在研发 HBM4 将使用混合键合技术。混合键合 (hybrid bondind)是一种将介电键(SiOx)与嵌入金属(Cu)结合形 成互连的工艺技术。热压键合或回流焊工艺通常最小只能做到 10μm 节 距,对于细间距微凸点,电镀时凸点之间极小的不均匀也会影响良率和 性能,因此 10μm 节距以下只能采用混合键合技术。混合键合与传统凸 点焊接不同,其没有凸点,不需要底填料,是一种将介电键(SiOx)与 嵌入金属(Cu)结合形成互连的工艺技术,可以提高芯片间通信速度, 节距可以达到 10μm 及以下,未来有望升级至 2μm 及以下,是未来应用 于高带宽存储(HBM)的理想键合方案,三星与 SK 海力士正在研发 HBM4 预计将使用混合键合技术。

HBM 驱动先进封装设备和材料需求爆发

3.1 材料端:环氧塑封料、硅微粉、电镀液和前驱体等用量提升

材料端:相较传统 DRAM,HBM 多了 TSV、Microbumping 和堆叠键 合等工艺,既使用晶圆制造材料,如光刻胶、靶材等,也使用先进封装 材料。

在先进封装材料环节的主要增量为:1)环氧塑封料:在 MR-MUF 方法 中,环氧塑封料具备底填料+注塑料的功能,在 TC-NCF 方法中,环氧 塑封料具备注塑料的功能;2)硅微粉:是 HBM 中环氧塑封料最主要原 材料,填充比例为 70%-90%,其成本占环氧塑封料原材料成本的 27% 左右。3)电镀液:TSV 和 bump 工艺在制作过程中,均离不开电镀液, TSV 通孔互联由电镀铜组成,bump 的铜柱由电镀铜组成,此外 bump 中还有电镀锡银等;4)前驱体:在 TSV 电镀铜前,需要 ALD 沉积形成 扩散阻挡层,前驱体是 ALD 过程的一种重要介质。

环氧塑封料

MR-MUF 的底填+注塑材料为环氧塑封料。环氧塑封料(Epoxy Molding Compound,简称 EMC)是用于半导体封装的一种热固性化学材料。EMC 是由环氧树脂为基体树脂,以高性能酚醛树脂为固化剂,加入硅微粉等 填料以及多种助剂加工而成,保护芯片不受外界环境(水汽、温度)的 影响,并实现导热、绝缘、耐压等复合功能。在海力士 HBM 的生产中, 液体环氧塑封料被用于大规模回流模制底部填充(MR-MUF)封装方法, 填充并附着芯片之间的空间,具备底填料+注塑料的功能。目前海外供应 商主要有日本住友、日本昭和。根据共研网数据,2022 年我国半导体用 环氧塑封料市场规模约 85 亿元,2018-2022 年 CAGR 约 20%。

硅微粉

硅微粉为环氧塑封料主要成分。硅微粉是以结晶石英、熔融石英等为原 料加工而成的二氧化硅粉体材料,是覆铜板、环氧塑封料、电工绝缘材 料、胶粘剂等材料的原材料之一。硅微粉分为不同的类型,1)按照结晶 特点:结晶、熔融;2)按照颗粒形态:角形、球形。其中球形硅微粉是 HBM 中环氧塑封料最主要原材料,填充比例为 70%-90%,可提高环氧 塑封料的硬度、导热系数并减缓震动。目前海外厂商主要有日本电气化 学、隆森。根据联瑞新材招股书数据,预计 2025 年我国环氧塑封料用 硅微粉的市场规模约 9 亿元。

电镀液

TSV、bump 工艺均需使用电镀液。电镀是指在芯片制造或先进封装中, 将金属离子电镀到晶圆表面形成互连,所需电镀液的种类有铜、镍、金 和锡银合金等,其中铜电镀液占据主流,占比在 60%以上。电镀液通常 由主盐、导电盐、络合剂、各类添加剂及溶剂等构成,其中电镀添加剂是影响电镀功能的核心组分,配方体系复杂、研发难度大。如前文所述, TSV 和 bump 工艺在制作过程中,均离不开电镀液,TSV 通孔互联由电 镀铜组成,bump 的铜柱由电镀铜组成,此外 bump 中还有电镀锡银等。目前海外厂商主要有石原、乐思化学、杜邦。根据 QY Research 数据, 2022 年全球高纯电镀液市场规模达到了 5.9 亿美元,预计 2029 年将达 到 12.0 亿美元,2022-2029 年 CAGR 为 10.8%。

前驱体

HBM 多层堆叠带来前驱体用量的加倍提升。前驱体是原子层薄膜沉积 ALD 使用的一种重要介质。原子层沉积是 TSV 中关键工艺之一,在电 镀铜前,需要 ALD 沉积形成扩散阻挡层。ALD 是指将多个化学前驱体 交替脉冲通入反应腔体与衬底接触,发生化学吸附反应,形成扩散阻挡 层,防止铜的电化学迁移导致物理失效。未来 HBM 将由 8 层堆叠发展 到 12 层、16 层堆叠,HBM 的多层 DRAM 堆叠会带来前驱体用量的成 倍提升。主要海外厂商有:德国 Merck、法国液化空气。从市场规模来 看,2021 年中国半导体用前驱体市场规模达 5.9 亿美元。

3.2 设备端:热压键合机、大规模回流焊机、混合键合机等需求

设备端:HBM 带来热压键合机、大规模回流焊机、混合键合机的需求。HBM 的不同代际,通常采用不同的 DRAM die 的键合工艺。在海力士技 术路线中,除 HBM2 采用 TCB-NCF(热压合-非导电薄膜技术)外,后 续的 HBM2E/3/3E 均采用自家独创的 MR-MUF(大批量回流焊-注塑底 填充技术),而三星则从 HBM2 至 HBM3E 均采用 TCB(热压合技术)。TCB 工艺采用热压键合方式,实现 DRAM die 的上下互联,其核心设备 为 TCB 键合机;MR-MUF 采用回流焊实现键合,其核心键合设备为大 规模回流焊机,其他核心设备为实现 MUF 工艺的注塑底填充机。而在 未来的 HBM4 时代,随着 DRAM die 的 pitch 间距进一步缩小,混合键 合有望成为实现 DRAM die 键合的主流工艺,则届时对应的核心设备为 混合键合机。

TCB-热压键合机

热压键合机通过热压合实现上下层芯片之间的键合。在具体执行键合的 部分,热压键合机一方面将下层芯片放置在基座上,另一方面利用可加 热的键合头吸取上层芯片,在上下层芯片的 bump 结构对准并接触后, 键合头瞬间将芯片加热到 300℃以上并将热量传导至 bump 的焊球,焊 球高温熔融后形成上下 bump 的粘连,之后键合头迅速冷却、焊球固化, 键合头脱离上层芯片、下层芯片从基座脱离,键合完成。

2022 年热压键合机全球市场空间超 12 亿美元,市场由海外厂商垄断, 国产厂商正积极布局。据第三方机构 MarketsGlob,2022 年全球热压键 合机市场空间为 12.05 亿美元,至 2030 年有望达 17.80 亿美元,2022- 2030 年 CAGR 为 5.7%。该市场主要由海外厂商垄断,重要玩家有 ASMPT、K&S、BESI、Shibaura、Hamni 和 SET,前五大玩家合计市 占率高达 88%。国产厂商亦积极布局该领域,如华卓精科在 2022 年招 股书中提到其储备了面向 CIS/MEMS/功率器件/射频器件的热压键合设 备相关技术,此外,国产厂商唐人制造、新加坡厂商华封科技也涉足热 压键合机领域。

MR-MUF-大规模回流焊机

大规模回流焊机通过回流焊实现上下芯片之间的键合。大规模回流焊炉, 可实现将多颗芯片放入炉中一道加热、通过融化焊料实现上下芯片之间 互联的效果。该技术由 2016 年海力士率先采用,将 4 块 50μm 厚的芯 片相互堆叠。搭配高导热性的模制底部填充材料,海力士实现了比竞争 产品更强的散热性能,MR-MUR 技术巩固了海力士 HBM 的市场地位。

2022 年全球回流焊炉市场空间接近 3.7 亿美元,主要市场仍由海外厂商 垄断。据 GIR Global Info Research 调研,2022 年全球 PCB 与半导体 用回流焊炉收入约 3.68 亿美元,预计 2029 年达到 4.83 亿美元,2023- 2029 年 CAGR 为 3.9%。该市场主要玩家有 Rehm Thermal Systems、 Kurtz Ersa 等,国产厂商中涉足真空回流炉的有劲拓股份、中科同志、 嘉昊先进等。

混合键合-混合键合机

混合键合机是实现混合键合工艺的设备,针对连接点间距进一步缩小的 需求而生。当芯片 Bump 间距缩小至 10μm 时,焊球减小会增加金属间 化合物 (IMC) 形成的风险,导致导电性和机械性能的下降。混合键合机 避免完全使用 Bump,之间实现铜对铜的互连,针对更小尺寸的键合提 供了新的解决方案。其具体技术原理是,打磨 Cu/SiO2 的表面至极度光 滑,不同表面间通过范德华力连接,稍微施加压力和高温就可以实现永 久键合,其本质是将介电键合 (SiOx) 与嵌入式金属 (Cu) 结合起来形 成互连形成电介质-电介质和金属-金属键。根据具体工艺过程不同,混合 键合机又可以分为 CoW(chip on wafer)键合机、WoW(Wafer on wafer) 键合机。

2020 年全球混合键合机市场达 3.2 亿美元,至 2027 年有望达 7.4 亿美 元,增速快。根据 Yole 数据,2020 年全球混合键合机市场达 3.2 亿美 元,其中 CoW 键合机为 0.06 亿美元,WoW 键合机为 2.6 亿美元,至 2027 年二者市场空间分别有望增至 2.3、5.1 亿美元,2020-27 年 CAGR 分别为 69%和 16%。高增背后的主要驱动力来自于 AI 需求爆发,对先 进封装技术尤其是混合键合技术的需求随之爆发。

当前混合键合机市场由海外厂商如 Besi、ASMPT、SUSS 等厂商垄断, 国产厂商拓荆科技亦积极布局。全球范围内,较知名的混合键合机厂商 有 Besi、EVG、ASMPT、SUSS、TEL 等。鉴于大陆封装工艺现状,当 前大陆对混合键合机需求较少,国产厂商拓荆科技(WoW)、华卓精科 (待上市,WoW)、艾科瑞思(未上市,CoW)、华封科技(未上市)等已开展前瞻布局。

3.3 全球/大陆产业链布局情况

HBM 芯片需求的提升,上游材料厂商有望受益。目前大陆已有部分材料 厂商进入 HBM 产业链,华海诚科的颗粒状环氧塑封料(GMC)可以用于 HBM 的封装,相关产品已通过客户验证,现处于送样阶段。雅克科技的 前驱体材料已供应三星、海力士等海外龙头厂商。此外,强力新材、艾 森股份、天承科技、上海新阳均布局了先进封装电镀液,德邦科技布局 了底填胶,飞凯材料布局了环氧塑封料,联瑞新材、壹石通布局了硅微粉。


本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023