TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
本帖最后由 大黑蚊子 于 2026-5-29 00:07 编辑 : A5 s ^# I0 {
) b0 u1 X5 d2 v6 v/ |$ w- G: p) Y/ V
第一章 韬(τ)定律的提出背景与理论框架- f1 `* u4 M2 Q. v$ }2 i$ o
. n$ ?# X8 S. g- T$ w1 k( H/ F% p7 i) O% Y0 c/ z
1.1 摩尔定律放缓与"几何缩微"的困局
( E6 f4 m6 ^5 u! @
5 k6 D$ k/ C( _5 C/ M半导体工业的发展史本质上是"几何缩微"(Geometric Scaling)的历史。在摩尔定律(Moore's Law)和登纳德缩放定律(Dennard Scaling)的引导下,芯片性能通过晶体管尺寸的不断缩减、单位面积集成度的指数增长而持续提升,时间长达半个多世纪。
) ]: R4 f: j; `, A5 v然而,这一范式在7nm以下节点遭遇了根本性困难: g/ N/ N' d; ?% {" ]: y0 [7 ?
- Dennard缩放定律早已失效——晶体管缩小不再同步降低功耗密度,后段互连的RC延迟取代门延迟成为主导瓶颈。
- 极紫外(EUV)光刻设备被少数厂商垄断,多重曝光(Multi-Patterning)导致成本激增,良率难以维持。
- IRDS国际路线图共识:7nm以后纯几何缩放的PPAC(性能、功耗、面积、成本)回报急剧下降,数据搬运的能耗成为主矛盾。
: Z; P- X% G& O: `+ h
V; u3 ]7 m1 m+ U0 X" _. y何庭波在ISCAS 2026的主题演讲中直接指出:"传统演进提供的微缩增长,已经无法满足越来越多的性能、功耗、集成度的需求。因此在移动终端领域,我们必须在摩尔演进之外探索新的技术路径。"5 V4 r2 n( z" u
! n/ T4 A+ U5 j3 d$ I. d, N1.2 从"几何缩微"到"时间缩微"! i' s& N1 ^5 x2 U% f1 _% D
4 B& y% B( y8 {- k/ ^6 V1 ^) t
韬(τ)定律的核心思想是范式转移:将芯片性能优化的核心目标,从"把晶体管做小"(几何缩微)转为"把信号路径做短"(时间缩微)。这一思想并非凭空而来——在学术界和工业界,从Elmore延迟模型到STCO(系统工艺联合设计),"以延迟为优化目标"的认知早已有之。但华为的区别在于,它首次将这一思想系统化为一套跨越12个数量级(皮秒到秒)的统一设计方法论。
- c( O. g3 e2 ?6 q% z4 l! K2026年5月26日,华为在IEEE ISCAS 2026首日发表了由副董事长何庭波署名的论文"A Time Scaling Theory for Multi-Layer Electronic Systems",正式提出τ定律。在次日会议中,海思麒麟与巴龙首席架构师黄勇(Huang Yong)等几位IEEE Fellow详细分享了LogicFolding(逻辑折叠)的技术细节。. b" H% U! k* H! [4 @& O: w% J, @' U
$ O& A# h! |3 i- I( i1 b. @# t+ E2 k
![]()
$ M, `$ H" L; g' c4 N( H% m+ z) w- r7 Y8 [
! y" C& |4 S9 \% |2 c1.3 τ 定律的数学定义$ B0 z/ S5 x1 k# p+ [
* h2 @2 R; @9 M4 L论文中将τ定律定义为跨层KPI框架,而非Dennard量级的比例定律。其数学表达为:
N- t$ U4 F% u8 O6 E* o- b τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)4 N/ i( P, \5 {
τ_{n+1} = τ_n / α
/ l: F& W! s1 \# i8 S! F其中:- `2 J6 m& g) `. F
- τ_transistor:晶体管层面的时间常数
- τ_circuit:电路层面的时间常数(门延迟、互连RC)
- τ_chip:芯片层面的时间常数(跨IP路径、时钟树、NoC延迟)
- τ_system:系统层面的时间常数(片间互连、网络、软件栈延迟)! H- O4 ]) S! Y% R G! Y
% s9 ^. ^" B% Z! G1 P4 V& d
α 的经验区间:移动约1.3×/年,自动驾驶约1.5×/年,AI工作负载最高可达10×/年。τ并非新器件物理的发现,而是一个可操作的延迟/时延KPI——它的价值在于统一了工艺、电路、架构、系统四层的对话语言,使得所有层级的设计决策都可以围绕"时间"来算账。) x6 k) k: v2 H' e7 x
1 i! f* g0 p# [, |" r& r( q9 t1.4 跨层次时间常数的统一框架/ R1 p1 B0 B& ^) a
% Z2 G9 \2 _3 s* L3 M7 gτ定律最重要的洞察在于:当工艺微缩红利消退,系统性能的提升空间主要存在于各层次之间的"接口损耗"中。传统Fabless模式下,IP供应商、芯片设计公司、EDA工具商、封测厂各管一段,层级之间通过标准接口交互——这种分工虽然高效,但每个接口都意味着时间损耗。τ定律的做法是将这些散落在不同层次、不同公司、不同供应商的优化目标重新拧成一条线,以全局时间最优为目标进行联合优化。# d7 r K' J5 e$ @
0 K! [, L) g6 o/ H$ m
第二章 LogicFolding(逻辑折叠):τ定律的工程实现! ` N! e8 Q- o6 J4 i
7 N9 o1 h, l0 v: a( s) o1 o
如果τ定律是理论框架,LogicFolding就是它在芯片设计领域的工程落地。黄勇在ISCAS第二天的演讲中明确表示:"今天分享的是过去几年在移动终端SoC芯片设计领域的一些工作——基于逻辑折叠的移动终端SoC设计实践。"
7 O5 X' N% C# }2 O8 I- d! s/ C t/ I% W8 v8 @4 k& S+ q
2.1 逻辑叠逻辑:与传统3D封装的本质区别& C. h5 F- q9 J+ b
' @# t! @$ x; |2 T8 U8 a6 p
产业界已有多种成熟的3D技术方案:HBM通过存储堆叠提升带宽密度,CIS堆叠实现像素阵列和逻辑的分层优化,3D V-Cache通过缓存堆叠提升特定场景性能和能效。但黄勇指出:"这些方案大多属于相对固定的结构,以及粗颗粒度的堆叠方式,它们的互联密度、设计自由度和逻辑拆分能力仍然有限。", r2 s& w. U6 N0 \
传统3D封装与LogicFolding的核心区别在于设计颗粒度:
+ V# {3 q! }# T5 O d1 k$ `- HBM(D2W堆叠):约1万根互连,固定功能,物理上堆叠但逻辑上各自独立。
- AMD X3D(D2W Cache堆叠):约10万根互连,整Cache Die堆叠,粗颗粒度。
- LogicFolding(W2W逻辑叠逻辑):远超上述量级的互连密度,在同一模块内标准单元可跨TOP/BOT Die分布——同一个IP不再仅存于2D平面,上下层是同一个IP。( g& P+ y! f9 l! u
; g# {% |% A' A( T: U( c% p
黄勇阐述折叠后的SoC架构:"折叠以后,上层Die和下层Die不再有独立的模块子系统,而是上下层通过海量互联形成模块子系统。上下层Die不再是独立的单芯片,而是一个单芯片不可分割的一部分,还能方便地实现上下层Die资源的均衡分配。"" N, } i' y5 y, O$ P- a
* L8 l4 {0 N& P) m5 F4 Q9 L! w g6 b5 l7 S$ d# I$ [
- i3 g' _- J( f7 ~
" D0 Z/ |) I. N0 [2.2 W2W Face-to-Face Hybrid Bonding
8 \. K* U& P: E1 u* T. L: q% c5 a' C T; o- x# X
LogicFolding依赖于两项核心工艺:0 Z+ @. G: B$ K, T( }
- Face-to-Face Hybrid Bonding(正面对正面混合键合):两片晶圆(Wafer)正面对正面,通过阵列式的铜柱(Cu Pillar)实现超高密度键合。关键指标:Kirin 2026 HB Pitch = 1.5 μm,顶层金属间距(Top Metal)≈ 720 nm,目标齿轮比(Gear Ratio)≈ 1。
- 背面TSV工艺(Backside TSV):下层Die需要减薄,并通过跨层硅通孔实现上下Die的电气连接。引入TSV Keep-Out Zone(KOZ),会挤占部分有效面积——"+60%逻辑密度"是trade-off后的结果,不是免费午餐。; J% ?8 p" C O! C0 h8 B, [+ Q% \7 y
2 a( j" g8 S6 @2 q6 ?$ e+ A( C" I5 P
相比于D2W(Die-to-Wafer)方案,W2W的优势在于支持远超D2W的互连密度——这是logic-on-logic的前提条件。代价则是无Die级配片、无系统级冗余——无法像D2W那样挑KGD(Known Good Die),良率对键合工艺更加敏感。( D# V7 h5 t+ Q' o
% l5 O% w8 V( ~' ], w9 V$ w
/ g, e- U: R! m, L$ j
% p# p+ ~ A; q/ z) N+ Y
2 G; }8 _( x- K# y% x![]()
+ _3 A, E' I6 h2 o. `
' \7 `+ W' Z+ b* n A4 L5 n: U4 ]- o3 C! L% _
2.3 细粒度逻辑分区(Fine-Grained Logic Partitioning)- \6 @( K. M; w4 {( A. P" W( F
8 q* D* K* x5 i3 G }
这是LogicFolding设计理念中最核心的概念,也是工作量最大的部分。传统3D设计中,一个IP模块被打包在单个Die上("模块钉死在某一Die")。而LogicFolding要求在IP设计之初就以3D布局为出发点,同一模块内的标准单元可跨TOP/BOT分布——利用上下两层的结构,寻求逻辑链路的最短路径。
) S+ ]6 t% f9 T5 g u! Y三个关键技术要点:
) y" \: s1 N& V4 O9 ]- Y- Ultra High-Density HB(超高密度混合键合):W2W堆叠,键合点的分布密度远超存储堆叠。逻辑芯片之间的连线极其密集且位置随机,需要数量巨大的HB来互连,对堆叠工艺提出极高要求。
- Systematically Minimized HB-to-TM Fanout Ratio(系统最小化键合点到顶层金属扇出比):由于逻辑堆叠穿过HB的是不可预知信号线且扇出众多,HB附近绕线拥塞非常严重。最小化扇出比是缓解拥塞的关键——需要在EDA算法上进行相应调整。当前国际EDA工具(如Cadence Integrity 3D-IC)的Place仍类似"打平3D成2D再做",不支持真正3D原生布局。
- Fine-Grained Logical Partition(细粒度逻辑分区):在架构设计阶段就必须把两个Die的单元数量和尺寸控制得非常接近,否则良率和成本都难以优化。海思作为全国最大最全的Design House,具备这样的能力和资源。
0 B- O! v+ s2 r8 c1 J' e
- v, S$ V- a1 O& S: X
& Z% W9 L$ f5 ~! H4 @0 \![]()
* J) y( A( j' b2 C+ _/ Y
* d/ b% T0 [, f5 `- D t# \+ E- G& _0 q+ m1 E+ q* F0 P
2.4 SkyClock:跨Die时钟方案3 M$ k u+ R. i6 l
1 f0 d3 R. y& Z6 H, H! ~
跨Die时钟分布被多位分析者评价为"全场技术含金量最高的一页"。LogicFolding设计带来两个根本性时钟问题:. |$ _* d& Q, R8 g' t" F
- STA Corner数量爆炸:TOP Die可能落在FF Corner,BOT Die落在SS Corner,跨Die的PVT(工艺、电压、温度)角组合相乘式爆炸,传统2D STA直接失效。
- 时序窗口变窄:时序路径分布在不同的Die上,时钟路径和数据路径的延时差异偏大,时序窗口变得更小。
' E. o v) A3 X" z$ D g8 D I
9 F9 [' s' E ?5 [SkyClock的解决方案:Clock Mesh主体放在上层Die,通过高密度HB直接下插到底层Die的Local Mini Clock Tree,下层Clock Tree极简化。成果:最大Clock Skew从135 ps降至101 ps(-25%),核心时钟最大深度-42%。
: c$ H+ a! w w; O s) e0 @5 A0 H5 T$ t5 R
![]()
/ E& K! s, d" S& P& ~; I
6 X( n* h4 c2 B: W! x9 R8 a: U; |8 n; e
2.5 散热与供电管理, n1 E6 \6 K4 h$ _; I& ~9 H# z3 r
9 P; S# k/ W1 Q; t* R4 P' dLogicFolding引入了全新的物理设计挑战:
. b% ]+ U4 ]3 ?( M- 散热(Thermal):下层Die(夹心层)垂直散热能力下降,下层减薄进一步削弱横向导热能力。解决方案是在物理设计阶段引入热感知的Partitioning/Floorplan/Placement——将上下层Hotspot错开布局,降低折叠后的峰值功率密度;同时优化封装散热方案。根据PPT数据,优化后的散热曲线比传统3D堆叠更优,与2D平面结构接近。
- 供电与电源完整性(Power Delivery & PI):HB既要服务信号Mesh又要服务PDN(供电网络);多电源域TSV管理;全芯片PI Signoff复杂度急剧上升。折叠架构引入的Complex PDN问题需要从设计和仿真全链路解决。
' j5 \, i3 F/ d L% k5 w+ |
/ }9 [- i% ~' Z n+ Y; k2 j; P/ t3 [8 ?4 @& C# Y; M
![]()
$ @9 \+ Z8 y! {! a
2 N& F* D, K+ x$ B' e( Z- r' n( e$ f/ f, ?* P& m$ ?# `6 ]
- J" i+ {7 Q4 E2 _# E
$ b2 A7 z4 D! m- e; f
, K) ]2 s$ j7 h( h) H& x0 w% O7 A6 i2.6 DSP案例的PPA数据
+ @' q0 z3 u; t. w+ h1 G6 a
8 |6 M; D" ^5 t j黄勇以一个基带DSP模块为例,展示了LogicFolding相对传统2D设计的收益(这份数据被多位分析者评价为"只能用震撼形容"):
) @' t7 F5 K3 |- L
4 x0 I3 h ^4 `1 w% D% ?| 指标 | 相对2D的变化 | | Die面积 | -40% | | 主频 | +37% | | 总功耗 | -24% | | Buffer数量 | -56% | | 线长 | -25% | | 线电容 | -34% | | 时钟树面积 | -19% | | 时钟线长 | -28% | | 时钟电容 | -56% | | 核心时钟最大深度 | -42% | | 最大Clock Skew | 135 ps → 101 ps(-25%) | 6 ]! ^" e$ A1 j0 a% y
关键物理路径缩短数据:SRAM访问黄色路径从676 μm降至307 μm,红色路径从570 μm降至约10 μm以内;逻辑到逻辑最长的关键路径从680 μm降至451 μm。
% _2 @6 d; c# H+ D4 ?" D一个DSP IP的纯路径优化就这么多收益——"芯片设计发展了这么多年,逼近摩尔极限又喊了这么多年,突然天降一个升维设计方案,能降低这么多信号路径。"
8 X m5 f& {" M) L8 l
3 o: X8 U5 g( O2.7 芯片级性能收益与路线图
# L: d# v* _6 Z5 e
& {, W! n; G z/ ~( G) Y基于麒麟2025年产品(未指明具体型号)为基线(=1),公布的全芯片级收益数据: b }! F% q3 N# v6 O6 k
7 K/ G1 d- z \9 m- `| 指标 | 2026年 | 2027年 | | 晶体管密度(Chip Level) | +60% | +70%(2028年+80%) | | CPU单核性能 | +15% | +44% | | CPU多核性能 | +24% | +56% | | GPU性能 | +38% | +87% | | NPU性能 | +140% | +213%(绝对性能3.1倍) | | CPU能效 | +12% | +34% | | GPU能效 | +40% | +78% | | NPU能效 | +81% | +118% | 4 i1 W& r6 [8 g2 s1 r5 W8 |
密度路线图:LogicFolding(2025年基线=1)2026年1.6×、2029年1.8×。对比Leading Foundry(2020年基线=1):1.5×(匹配节点)→ 1.8×(1.4nm节点)。华为给出的对比结论是——用逻辑折叠做到了与先进制程演进同等的密度收益。! N1 B, l2 O/ d$ G" ~
" H* {% M9 }9 t) i9 A0 Q
![]()
+ O$ A# N5 j/ {' [7 Z6 x' j' _/ d9 D1 \) h
. Z2 ]6 V7 w, V% }1 A
第三章 IP-EDA-工艺全栈重构2 j2 k9 i5 d, x$ P6 t. j* b# B
2 i# X! d0 d4 B7 Y% vLogicFolding从概念走向真实芯片产品,面临的根本挑战不在于某一环节的优化,而在于"整个工具链和设计方法学都需要从零重构"。黄勇在演讲中坦陈:"应该需要很多年才会有完善好用的工具链,现在的工作必须在工具很不成熟的条件下完成。"# J) T1 c, M1 O0 F2 a' R$ d4 C! X
4 S' u) ~) i/ f, b3.1 3D原生IP设计:从黑盒到协同: e5 g% O' q H
7 I# o8 A. X9 P; q% o传统的Fabless芯片设计是以平面IP为核心进行的。Arm IP拿过来,不管怎么封装,它都是一个区块一个IP。在2D设计的成熟链条中,各方交付的是一个黑盒:接口固定、时序固定、修复机制固定——"我交付了,你别碰我内部"。, ?! B6 M; x& q/ K% U# |/ s" a- M
LogicFolding彻底打破了这一模式。同一个IP不再仅存于2D平面,而是在上下两层Die上协同工作——这相当于给芯片设计升维了。一个SRAM IP在折叠设计中,某些Bit-Line/Word-Line因3D折叠变短,访问频率可以提高;某些Bank因为热环境不同需要更细粒度的监控;跨层路径因为Bonding Variation需要额外Margin。传统的黑盒交付模式无法满足这些需求——你需要SRAM为了你的3D可靠性和全局时间目标去改内部逻辑、改错误恢复、改冗余结构、改上报语义。
7 A1 i+ p8 W L& j这就是τ定律被称为"只有海思能做"的原因——海思被迫在过去几年把软件栈、指令集、关键IP、SoC集成、互联协议、先进封装、3D集成、系统Fabric全部做到自主可控,从而拥有了"命令各个层次的架构师为了全局τ目标而改动内部设计"的权力。这是全栈自研在商业逻辑上的自然延伸。
: ]# T; n. q& O0 m. e2 I* O% i7 T/ R5 k
+ L1 L: E, l& o7 Y1 i
' O8 ~0 ~/ i7 u; v9 B* \9 T) e3 i' {. p
3.2 EDA工具链:从"假3D"到"真3D"& q. A& g( S0 Q/ v( f L0 D9 Z
/ l4 _+ I, ~, X0 H0 p7 U- V
"设计流程和方法学是逻辑折叠遇到的最大挑战。从平面转向立体空间,不再有成熟的工具链支持。"黄勇在演讲中直接点出了EDA的核心问题。- x1 \. [0 B0 K7 X8 j; S
当前国际主流EDA工具对3D设计的支持停留在"伪3D"阶段——将3D设计打平成2D后在每个Die上各跑2D工具,优化目标仍然是单Die内的时序、功耗和布线拥塞。而"真3D"(True-3D)要求:
* b. r$ l: W* j. \- Cell-Level 3D Placer:标准单元可在Module内跨Die摆放,以全局目标函数进行优化。
- 3D CTS(Clock Tree Synthesis):如SkyClock方案的自动化实现。
- Cross-Die STA:处理跨Die时序路径的Signoff。
- 3D Power Grid分析与PI Signoff。
- 多层Die统一的Partitioning / Floorplanning。5 x- R: g0 u& ~* ~6 |/ a7 B9 `+ d
1 C8 Q1 j& y# z! z5 Q
学术界已有重要进展:北京大学团队的早期真3D流程结果显示,相对"伪3D"方案,线长减少约30%,WNS改善6%,TNS改善12%,峰值温度仅上升不到3%(近乎无损线长)。华为目前的Enhanced EDA+Multi-Die Co-Opt Loop(含良率联合优化)正是在这一方向上推进。考虑到何庭波明确写的麒麟2026和2027已经在Silicon阶段,说明华为已经在不成熟的工具条件下完成了流片——投入之巨大可见一斑。
3 c9 b% g. j$ g3 {7 p& w) _0 v0 G0 r: p2 w, w v9 c: b' A( }
3.3 跨Die静态时序分析(Cross-Die STA)4 a; k7 Y$ [. F0 `4 f9 [, m' E
4 p- t# u) ^0 l( F跨Die STA是3D签核的核心痛点。传统的时序分析基于PVT Corner组合,但在LogicFolding中,Top Die和Bottom Die可能处于完全不同的工艺/电压/温度角——导致Corner组合数量级上升。华为公布的解决路径包括:SkyClock方案压Skew;Cross-Die Clock Skew Minimization Techniques;以及多Die统一的时序建模方法。
5 r6 N) \* t, O1 h- h, ^黄勇在演讲中还提到时序收敛(Timing Closure)——LogicFolding不仅增加了Corner数量,还因为跨Die路径的物理延时差异增大而使时序窗口变窄,对设计和Signoff都提出了更高要求。# @1 f8 Z1 b) [6 V
0 T5 g4 r4 N( | G
3.4 良率模型与成本分析
1 A V" o+ `/ s. \+ }# F5 d
5 Y4 Z5 z4 G- B$ n; E& g折叠良率的公式为:Y_Folding = Y_Top × Y_Bottom × Y_Bonding。三个因素相乘,直觉上良率应当远低于单片2D方案。但华为指出了几个关键的反直觉因素:
- _( U+ J. P. W7 _4 t- 单Die面积变小:折叠将一颗大Die拆成两片更小的Die,在Poisson缺陷模型Y=exp(-AD₀)下,面积减半意味着单Die良率≈√Y₀。两片独立良率相乘回到约Y₀水平,再乘以键合良率(接近1时),整体良率可与2D单片相当。
- 工艺爬坡成果:Kirin 8000/8000A已下放到畅享90系列千元机,N+2/N+3工艺的实际良率远好于外界传闻——能做Binning本身就是高良率的证据(Binning的前提是绝大多数Die是好的)。
- DFY(Design for Yield):华为在设计中引入了Smart Redundancy等DFY方案。, _1 [. w' e" P% Y
( K" |0 s* b1 @, e/ U但良率模型的限制同样明确:在手机2层小Die上可行,不等于推到大面积AI Die上同样成立。华为在Cost & Yield一页只给公式、不给任何具体数字——这恰好是"华为自己也还没填上的那一格"。+ C& }* p1 C. f8 Y
3 K9 R; o: i0 ~4 [
1 x0 E* [8 E; f0 C
+ t3 P3 C7 y9 w0 x
% G; a# Z7 b" ?. T第四章 实践验证:麒麟2026/2027流片
4 T' b( ?7 a8 l4 B9 j. \6 _* b. Y" ?; _( Z7 y
* a* F( ^' ~) f- g5 X* W, W$ Z* a, Z4.1 手机线LogicFolding已经进入Silicon阶段
3 Z) P0 _: X6 b) b9 V+ l0 p4 k- N9 P u' I1 Q0 M. O8 ~
何庭波在ISCAS 2026的发布会上明确写道:"麒麟2026和2027已经在Silicon阶段。"黄勇次日演讲的性质是"分享过去几年在移动终端SoC芯片设计领域的工作"——用现在完成的语态描述已完成的工程实践。可知LogicFolding不是PPT方案,而是已经完成了至少两代产品(2026/2027)的设计和流片,其中2026款已进入工程测试阶段。
: A, @. e: u2 \: V: \, P公布的2026年芯片级关键指标:P-Core能效+41%、最高频率+13%、主频达3.1 GHz。这些是Silicon Measured数据而非Simulation——验证了LogicFolding从设计到制造的整条路径已被打通。" M3 z! }7 i4 b! W
"如果它还没落地,我会说这东西要实现,必须IP从零开始,要把IP-EDA-工艺全通了才行,实在太难。但是他在发布的时候,麒麟2026和2027已经Silicon了,所以我无可反驳。"——分析者评价
2 @7 Y$ P2 d) _' W" c) y7 ? y5 F6 k( j
4.2 制程现状的重新评估:N+2/N+3的良率证据 C( L9 g6 r0 {
0 P! B, O3 i6 h5 y4 E( j通过华为目前在售手机的芯片配置,可以反推各制程节点的实际良率状态:
9 F& {9 B1 {# }- Kirin 9030(N+3 DUV)用于Mate 80旗舰。
- Kirin 9010S(N+2 DUV)用于Nova 15 Pro等终端走量机。
- Kirin 8000/8000A(N+2)用于畅享90 Pro起售1699元的千元走量机。1 Y4 r( o( s( V$ M
T( U* t( i, s! D
关键证据:8000A作为残血版放在更低价的畅享90中,这是典型的Binning策略——Binning的前提是绝大多数Die是好的,只把分布尾部的边缘片做小阉割。如果N+2真是传闻中的灾难良率,它根本塞不进一台还要走量盈利的千元机。. r2 Q( `7 I% [0 N* y
2 L- ~2 l$ k' j, h V4 r* W1 G
, q' b4 n/ u5 ?* Y O第五章 数据中心线:鲲鹏CPU与昇腾SuperPod
( o6 a1 ~+ u; J8 l5 E. u+ f5 L3 \! {2 {% _1 E ]
τ定律的叙事分两条线:手机线(Kirin LogicFolding)解决"在受限制程下如何持续提升能效";数据中心线(鲲鹏CPU+昇腾NPU)解决"在AI大算力场景下如何打破互联瓶颈"。
( d6 O7 x0 q- J4 T. ~
- g! t7 ` ?! y5.1 Circuit Folding与Chip Folding
5 q1 J) z, o, a1 r* n" G3 ^; q+ n. ?$ N4 i; N* \: Y7 W8 R
在鲲鹏CPU上,华为使用了两层折叠策略:
1 O8 S* p% I2 ?; `% \9 Z8 J- Circuit Folding(电路级折叠):不升级工艺节点,仅通过3D折叠优化关键路径。Reg2Reg从1.0L缩短至0.4L(代号Project Tiramisu),2.6 GHz基线提升至约3.2 GHz——其中线长贡献+468 MHz,CTS贡献约+100 MHz。证明5nm以下互连延迟>门延迟已成为高频设计的核心瓶颈。
- Chip Folding(芯片级折叠):Kunpeng 950的2.5D Edge I/O从12k Pins(40 μm Bump)升级至3D Area Array的1.2M Pins(20 μm),互连密度提升100倍。核心数从64增至96,LLC从1.7 MB扩至2.8 MB,SPECint提升+78%,能效+37%。$ x3 X$ T; O3 p% }4 Y
" c8 P3 m4 }. d4 Q
/ @' B: n ^4 V q9 r6 ~+ [) u! h
| 指标 | Kunpeng 950 | Kunpeng 960(目标) | | 核心频率 | ~3.2 GHz | 4.0 GHz(+54%) | | 核心数 | 96 | 待定 | | 金属层 | 28层(Skybridge) | 42层 | | 堆叠方式 | 2 Die W2W HB | 3 Die | | HTL密度 | — | >200/mm² | | 主要瓶颈 | — | Gear Ratio需≤3 |
, J p0 k+ b; a; U( Z: hKunpeng 960的目标是4.0 GHz——华为明确表示"4GHz不是口号,路径存在",取决于工艺迭代和Gear Ratio的改善。% ^5 b& s6 e/ I% x& u
7 M% u. U* W! c. {! L' k5.2 Unified Bus:用系统架构换时间& ]7 @+ D& l5 n( Z# P
/ V/ a l1 ~$ J8 c% k: Y4 aUnified Bus(统一总线,UB)是τ定律在互连层的核心实践。李博杰(前华为研究员)通过OpenURMA开源项目对UB做了全链路实现与评测,揭示了UB是"靠架构不靠工艺"换取性能的典型范例。; W0 l4 k- ]! P2 t7 O8 W5 P
传统RDMA网卡挂在PCIe后端,一次远端访问的关键路径上要走五趟PCIe(Doorbell→DMA取WQE→远端读→本地写→CQE写),光这五趟就约1650 ns。UB将控制器直接放上片上总线,CPU的一条Load/Store指令本身就是Verb——那五趟PCIe直接消失,只剩约30 ns的片上总线穿越。端到端延迟对比:UB Load/Store ~500 ns vs RoCEv2 ~2236 ns——快约4.47倍,没有任何工艺变动。
; Z) n5 ] M9 i1 }更关键的是连接状态的扩展性:传统RDMA每张网卡维护的连接状态是O(N×M),UB拆分为O(N+M)。在1024×1024规模下,UB仅需110 KB SRAM,RoCE需要537 MB——省了约4855倍的状态量。吞吐方面,UB提供分级Ordering语义,WR吞吐高2.80倍。
$ g# ?: {( k& A- ^"4倍延迟、4855倍状态、2.8倍吞吐——没有一项依赖新工艺,全是架构重构的结果。这才是'时间缩微'最该被看见的形态。"——李博杰
D [$ G- x4 T/ @1 A8 V! K- `3 f$ a4 R; t) W
5.3 Hi-ONE光互联与SuperPod演进2 n# S7 X1 m: V( j' e, A c: G
( ?% Y0 h% w' _- j! t
在昇腾SuperPod的Scale-Up互连上,华为引入了Hi-ONE光互联方案:8 Tb/s每芯片每方向、224G×36 Lane、电SerDes距离从100 cm缩短至5 cm、机柜级100 m级光学Reach。UB实现的远端访问从数十μs降至100 ns——约500倍的延迟缩减。9 _$ `4 N* V1 L/ i& O- J
: `, }1 {5 V- K. G1 ?! {
| 代际 | NPU数量 | 聚合带宽 | 关键特性 | | Ascend 910C (2024) | 384 | 301 TB/s | 电互联 | | Ascend 950 (2026) | 8,192 | 16.3 PB/s | UB + Hi-ONE | | Ascend 960 (2028) | ~16,384 | >16 PB/s | 光学规模 | | Ascend 990 (~2030) | 待定 | 待定 | LogicFolding进AI大Die | 6 C+ @8 S) x* P8 K. z, G' d
: t% a7 t: [9 d4 }& T4 B1 T
5.4 Ascend 990:LogicFolding进军AI大Die
8 ~* ^% `1 G8 _/ c) @ h/ W8 _ b# C0 R
这是τ定律叙事中远期最大的"赌注":将手机2层小Die的LogicFolding技术推广到约700 mm²的AI加速器大Die、进化到3-4层堆叠。在手机端,小Die的缺陷良率回收(面积减半→单Die良率≈√Y₀)是代数上可行的。但在700 mm²大Die上,大面积本身就是缺陷良率的灾难区,Y₁×Y₂×Y₃×Y₄的复合将面临巨大风险。所有技术细节都很详细,唯独良率一页只给公式不给数字——这恰好是华为自己也还没填上的那一格。手机端,他们很有信心;AI端,那场仗才刚开始。9 ]7 z, N i! f" i. k/ X9 m
. O2 g4 L/ \% i" k8 m8 D5 D& t
第六章 全栈联合调优:τ定律的独占性优势% m) D3 F+ f0 ~3 I' q
: M4 S' k2 q8 C1 z8 Z
5 g5 w3 v1 v% \# O' u5 e! t, e6.1 为什么只有海思能做?3 `# S' y8 Y, {
4 c* Q" p: h" ^2 e$ V a2 o
τ定律和LogicFolding,表面上是定义了一个全局时间的优化目标。但这种"全局最优"的实现,需要的不仅仅是技术上的可行性,更是一个其他人难以复制的组织条件:全栈可控。; w$ I$ s: @/ s: S8 J3 h
在大多数芯片公司里,芯片设计是一场漫长的拼图游戏。CPU Core是一个IP,NPU是另一个IP,DDR Controller、PCIe、SerDes、NoC、安全岛各是一个IP——每个IP都有自己的交付合同、验证边界和可靠性假设。你可以把这些模块摆得近一点、连得密一点,但你很难要求它们为了一个全局τ目标,把自己的内部逻辑、状态机、容错策略一起重写。这不是技术问题,是商业协作、验证责任、交付节奏上的不可行。" n8 y9 n; A% E1 ~6 T! f
华为海思在过去几年被迫走了一条特殊的路:软件栈自己做、指令集自己定义、关键IP自己掌控、SoC集成自己扛、互联协议自己推、先进封装和3D集成自己打通。这条路当然很苦,但苦到最后会形成一种很特殊的技能点——"从指令集到散热膏"的全栈联合调优能力。1 s& _8 I2 s! y! c# i1 m
( `( E% c3 p- v% W3 g1 B6.2 IP黑盒问题的突破
/ U/ o x3 f* Z! n! q- @; D
4 }1 O& g+ o, b- }" G举一个具体的例子来说明τ定律独占性的来源。假设一家创业公司也想搞3DIC,它从一个传统IP供应商外购SRAM IP。正常情况下,这个SRAM交付的是黑盒:接口固定、时序固定、修复机制固定、能跑多少频率就是多少频率。但在LogicFolding设计中,这个SRAM需要:因为3D折叠变短而调高访问频率、因为热环境不同而增加Bank级监控、因为Bonding Variation而添加额外Margin、因为某些故障需要从Fatal降级为可通过Redundancy+Firmware修复。$ {2 W& t8 }: ~, M" Z! B0 N
要SRAM为你的3D可靠性和全局τ目标改内部逻辑,等于让它把黑盒打开重新参与你的系统架构——这对传统IP供应商来说,技术上可行,但商业上不现实。海思能够做到,是因为它控制了全链条——NoC、内存系统、固件、驱动、调度器都在手上。发现某条跨层Link不稳定,硬件可以标记,NoC可以绕路,固件可以记录拓扑,驱动可以报告给Runtime,调度器可以避免关键任务——系统把它当成"性能降级但仍可用"的资源,而不是"坏了就死"的故障点。
; h$ y A0 a6 \" l# m5 O, q0 w
' P" ~; t" N& @' H, R! I n% _6.3 芯片设计与软件的垂直打通$ \# H# F' x# R2 r
& X% ?$ H& v" Y( @
"τ定律不只是制造的事"——李博杰在分析中指出,τ定律的真正价值不在于"等效1.4nm"的制造口径,而在于它终于给"用系统级的时间优化换性能"这件事正了名。过去十几年算力的大头增长,很多来自于架构创新(GPU/NPU/专用加速器)、片上互连演进和系统软件优化——不是来自新工艺。Unified Bus的500 ns vs 2236 ns就是一个"架构>工艺"的干净证明。9 y8 N/ Q! \- C: M! z: \6 W D
这种从制造延伸到架构和软件的视角,要求从业人员必须跨越传统的专业壁垒。华为当前的组织架构——从指令集(灵犀)到芯片(Kirin/Kunpeng/Ascend)到互联(UB/Hi-ONE)到系统软件(openEuler/MindSpore)——天然适配这一需求。. N$ e; T+ Y' o) C' o N5 [
1 U4 v" R% H& j; n
第七章 对后续半导体领域的演化推演与预测2 d, J; ?' k# c( k5 u# ?% u& H
+ u% ~0 J j8 y3 ?8 Z" @% i基于上述技术分析和华为公布的实践数据,以下对后续先进半导体领域在IP、EDA、工艺三个层面的演化进行合乎逻辑的推演。
8 x8 j0 N, U* i; O, k7 y" {9 A. C9 B" e$ H: U- p
7.1 IP层面:从平面IP到3D原生IP的范式迁移7 b7 e# @+ D4 D2 T7 [: r$ S
4 x" h/ m) [/ q- B推演1:3D原生IP将成为一个独立的设计品类
4 n! \0 M: t: Y% k0 r$ }2 L, k3 }1 v未来5-7年,"2D平面IP"和"3D原生IP"将分化为两个独立的设计品类。3D原生IP不是简单地在两个平面IP之间加TSV——它要求IP内部的逻辑链路、物理布局、时钟单元和供电网络都围绕跨Die最短路径重新设计。这意味着IP供应商需要从"交付黑盒"模式转向"交付可配置白盒"模式——至少在3D设计的关键路径IP上。这一转变将首先在存储相关IP(SRAM、Cache)和高速接口IP(SerDes、DDR PHY)上发生,因为这些IP对RC延迟和热环境最敏感。: s9 Z3 ?0 L+ N4 \% V% a- @7 n/ w
推演2:IP授权模式将从"买IP"转向"买IP+3D协同设计服务"4 f# l2 ~) E; _' I
对于外购IP的Fabless公司,黑盒IP在3D设计中将成为瓶颈。未来的IP授权可能包含两层:基础层是标准2D交付,高级层是支持3D协同设计的"开放接口IP"——允许客户在NDA框架下获得IP内部的关键时序和物理参数,以用于跨Die联合优化。这一模式虽然增加了IP供应商的开放风险,但在3D设计成为主流的趋势下将不可避免。
+ E! d) Y- |' Y# G" N( q5 p( A+ f( O# ~$ [; z$ ?1 u h' U
7.2 EDA层面:真3D工具链的加速成熟
7 C4 S% {9 I! @) w5 y
& g' w4 P! E1 z, n+ r0 i/ t推演3:Cell-Level真3D EDA工具将在3-5年内形成初步商用能力; {6 E. Z' d- H1 x
当前的"伪3D"EDA方案(打平3D为2D后独立优化)只能作为过渡方案。随着LogicFolding的麒麟2026/2027已经流片,说明了在不成熟工具条件下已经可以完成设计——但成本和周期一定远高于成熟工具。这一现实需求将驱动EDA行业加速"真3D"工具的开发。关键技术节点包括:
& t3 q: L5 r7 y- Q- 3D Placement:基于全局3D目标函数的标准单元跨Die布局引擎。
- 3D CTS:如SkyClock方案的自动化实现与优化。
- Cross-Die STA:多Die统一的时序建模与Signoff流程。
- 3D Power Grid Analysis:多层供电网络的协同仿真。
- Thermal-Aware Optimization:3D布局中的热感知自动优化。' [$ ~8 l! |5 o, B# G8 v% t1 B
& d ], B/ W! t9 O
北大团队早期真3D EDA原型的线长-30%结果已经验证了方向的正确性——从学术原型到商用工具的工程化将是未来3-5年的主题。国内EDA企业如华大九天、概伦电子等在这一方向上将有先发优势——因为他们可以直接与海思的3D设计需求对接迭代。, ~7 s$ n+ D: X. W
推演4:AI驱动的EDA优化将成为3D设计的使能技术$ Y5 A/ f) |# F4 a5 z2 [9 i, I( S
3D设计的搜索空间是2D设计的指数级扩大——Partitioning×Placement×Routing×Clock×Thermal×PDN的联合优化复杂度远超现有工具的处理能力。AI/ML驱动的优化(如强化学习Placement、GNN辅助时序预测)在3D场景中从"锦上添花"变为"必要条件"——没有智能搜索策略,人工调参不可能覆盖如此高维的设计空间。
# [7 G# H! X; b* l+ v- |. P* d K( R/ v' S+ J/ j4 z) c
7.3 工艺层面:国产与全球化路线的分叉7 n1 s) ^4 s& J5 Q, v
; t' t3 J1 Q$ {- ^9 P1 v) X
推演5:全球半导体工艺路线将正式分叉) \* `' R: R2 X0 H+ _+ m
LogicFolding的提出和工程验证,标志着半导体工艺演进不再只有"把晶体管做小"这一条路。在DUV多重曝光接近尽头后,"逻辑堆叠"+Dual Wafer架构形成了与"继续推动EUV/High-NA EUV"平行的技术路径。- m3 t4 i0 r$ J
全球路线分叉的具体内涵:$ X- k( ?( A" h( N( C4 ]
- 全球化路线(TSMC/Samsung/Intel):继续推进GAA/CFET先进制程,3D方向以HBM、Chiplet、先进封装为主——"把盒子叠起来"。粗颗粒度、相对固定的结构,不改IP内部。
- 国产路线(华为/海思+国产Foundry):在DUV工艺限制下,以LogicFolding为核心——"为了盒子叠起来以后还能可靠高效地工作,把盒子里面也一起改"。细颗粒度、3D原生IP、W2W逻辑叠逻辑。
# J! j; h7 ~, z/ x' H- T0 F
( N, D( g7 }# J$ b"之前一套流程能给全球所有设计厂商用的时代不存在了。至于分叉之后,结果是什么?五年后,我们来看看吧。"——分析者评价
' u8 d9 X8 E' L) k3 p$ }推演6:先进封装和键合精度将成为新的制程竞赛焦点
& F" q0 V6 m' v: `2 n2 p% {当几何微缩受阻,竞争的焦点将部分转移到封装和键合领域。W2W Hybrid Bonding的对准精度(当前~1.5 μm HB Pitch)、晶圆平整度(Z轴一致性)、减薄工艺(应力控制)、TSV深宽比的持续优化,将扮演和光刻精度类似的"制程指标"角色。在这些参数上的进步,将直接决定LogicFolding能堆多少层、能推多大的Die。- n' x- d7 x/ w+ e' f
- y7 X$ @. ~' R0 J7 ]0 G- c7.4 产业链格局:从分工到整合
5 E3 C' L6 d# q4 z# [
$ v# U# N7 G* [: v0 ~推演7:垂直整合模式将在先进半导体领域获得竞争优势
~# t0 [) X* N8 c c2 s过去三十年的Fabless+Foundry分工模式,建立在"标准平面工艺可以被所有设计公司共享"这一前提上。当IP、EDA、工艺需要为3D设计而重新耦合时,高度分工模式的内在矛盾会被放大——需要一个"中央集权"式的技术主导来全局优化。这意味着:
& E: _) e" [- C# [3 s4 ~( Q- 拥有自主IP+自主设计+自主EDA合作的芯片公司(如华为海思)将在3D设计上拥有结构性优势。
- 依赖外购IP+标准EDA工具的Fabless公司将面临3D设计的进入门槛。
- Foundry需要提供更深入的设计协同和封装能力(类似TSMC的OIP生态,但还要更深入),否则无法满足3D客户的需求。
7 L4 a# d4 O8 L r* @- ^ 3 C/ K5 O; {4 _: j! a( ^- R( o
推演8:国产产业链的内循环迭代将加速
2 ?/ O& j" K2 r7 x华为已经展示了"在受限工艺上的创新设计可以追赶甚至超越先进工艺的收益"这一路径。这一路径的成功验证将产生两个连锁反应:一是更多国产芯片公司跟随LogicFolding路径,驱动国产IP和EDA生态加速成熟;二是设备/材料/封装的国产供应链因为市场需求端的拉动而加速技术迭代——形成"设计创新→工艺需求→设备研发→良率提升→设计再创新"的正循环。! a+ e6 J( D& D5 x
7 K# Y$ w8 g7 [/ r( A( E7.5 时间线预测- s' G3 L, D' t7 O2 } _: y, b) [
& P0 l8 V K: s8 p: D* Y" A- A8 K, v9 G$ A! a: x3 J B0 V
| 时间 | 关键事件预测 | | 2026 下半年 | Kirin 2026流片公布Dieshot,验证是否双层Logic结构、HB Pitch ~1.5 μm | | 2027 | Kirin 2027量产搭载Mate 90,2层LogicFolding在小Die上形成量产曲线 | | 2028 | Kunpeng 960实现4.0 GHz,Circuit Folding+3 Die堆叠走向成熟 | | 2028-2029 | 首款商用真3D EDA工具链出现(国内企业占先机);3D原生IP开始商业化交付 | | 2029-2030 | LogicFolding+3-4层堆叠在AI大Die(Ascend 990)上验证——τ定律叙事最关键的一步 | | 2030-2031 | 全球3D逻辑堆叠成为主流设计方法之一;国产路线与全球化路线差距显著缩小 | | 2031+ | 5nm以下制程+3D堆叠的混合方案成为现实,等效密度超越1.4nm |
8 y& M; ^! R$ L! E5 R1 R
( ]( E& S/ o0 b) M& q, G0 X第八章 结 论
/ S4 ~9 ]: e) O* a+ ^) c7 s$ ~9 c8 d! c
+ \6 N( q# o/ V0 F韬(τ)定律的提出,是半导体工业在"几何缩微"路径减速后,第一次有企业提出了一个完整、可操作、经过硅验证的替代性系统设计方法论。它不是新物理定律的发现,也不是新器件的发明,而是"优化范式的迁移"——将性能提升的动力从"把晶体管做得更小"转向"把信号路径做得更短"。
`2 _0 ]( W/ |8 V- m, @这一迁移的工程载体——LogicFolding(逻辑折叠)——已经通过麒麟2026/2027的流片证明了可行性。芯片级晶体管密度+60%~80%、DSP模块面积-40%+频率+37%+功耗-24%的实测数据、以及从手机到数据中心的完整产品路线图(Kirin→Kunpeng→Ascend SuperPod),共同构成了τ定律的实证支撑。7 }( d/ ~% O! M3 }$ d$ P4 J* I" T/ P
τ定律的独占性不在于某一项技术的原创性——Hybrid Bonding、TSV、3D-IC、STCO都不是新概念——而在于华为海思被迫走上全栈自研道路后,获得了"命令所有层次围绕全局时间优化而改动设计"的权力和能力。这种能力不是任何一家Fabless公司可以通过购买IP或授权工具来获取的。
9 x8 W# ]1 o; @9 l对后续半导体领域而言,τ定律的意义在于:它为中国在受限工艺条件下的半导体发展提供了一条可行的、可持续的、经过实证的技术路径。这条路径不仅包括芯片设计的范式升级(从2D到3D原生),还将驱动EDA工具链、IP商业模式、封装工艺、甚至产业链组织结构的系统性变革。& X4 d+ F& A3 [
麒麟2026/2027的流片验证了2层小Die的可行性——这是最重要的第一步。接下来最大的考验在于:将LogicFolding推广到700mm²级AI大Die的3-4层堆叠。手机端的成功回答了"能不能做";AI大Die考验的是"能不能做到大"。; M$ u3 N* ]! c6 b& w
后者的难度是指数级上升的——良率、散热、供电、互连密度、信号完整性——每一项在大面积多层级上都会变得截然不同。! S' n* J% S( W8 |, S0 l8 z
"过去几十年芯片全球化的发展,虽然是工业皇冠上的明珠,但一代代下来积累的屎山不算少,而且Fabless模式的细致分工,虽然减少了各环节的投入成本,但是职责分化也让各环节的壁垒加深。当摩尔定律走到极限时,不管是国产路线还是全球化路线,都要开始寻求IP层面的突破,3D设计是大势所趋,这个级别的革新双方的起点是相同的,都要重新开始。"
+ ]1 b0 Z4 k; h% ^- F1 J
4 C8 h8 s8 x- _* L+ B参考来源. @5 @- U9 u) l
$ }1 b6 G# }# K5 ^/ ^. T' {; y
1. 何庭波 (2026). "A Time Scaling Theory for Multi-Layer Electronic Systems." IEEE ISCAS 2026, Keynote Session.+ |% p8 z. s# u1 T4 \- ~
2. 黄勇 (2026). "基于逻辑折叠的移动终端SoC设计实践." IEEE ISCAS 2026, Technical Session.(B站IEEE中国全程回放)9 M3 e+ c9 s6 U" v; I# @8 ^
3. 华为官方PPT:LogicFolding for Mobile Terminal SoC, ISCAS 2026 Day 2.4 F- b/ Z2 {& u; ]' n/ e
4. 咸鱼小山 (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节./ c; e% h6 u% E5 m3 ~
5. Bill (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节(技术分析).
& j# K3 K& L A. l# |. Q3 ^8 ~3 T3 f6. 栖于永夜 (2026). 知乎回答:W2W良率分析与SkyClock跨Die时钟方案.* p% l0 ^- p& m) C% o T
7. 李奇 (2026). 知乎回答:EDA/工艺分叉讨论,3D Partitioning分析.& k& R/ @3 x3 P3 P7 F, ^6 M
8. i0nium (2026). 知乎回答:Thermal-Aware Partitioning和封装散热分析.
' i* @ j! |& D% X" D9. 李博杰 (2026). 知乎回答:Unified Bus系统架构角度分析. OpenURMA开源项目: github.com/bojieli/OpenURMA
6 ~! i9 Q8 A) a10. 乱序摸鱼 (2026). 知乎回答:全栈联合调优能力分析.
% Q! K, V5 V# c+ E5 U11. 华为此前公开技术规范:Unified Bus Protocol Specification (2025).# K6 K& m( f' _" _, Y! u( k) ]5 @- P5 [# ^
12. 北京大学团队真3D EDA研究:线长、WNS、TNS、热仿真对比.6 z% V6 ~# a+ r/ {
13. 华为官方新闻稿及多家媒体报道(光明网、搜狐、凤凰网、CCTV等). |
评分
-
查看全部评分
|