TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
$ `# x9 ~; [/ Q d! {' b: L
7 { i ]. E0 D+ u# Q9 w一、总体分析框架与核心结论9 I: o8 A! f' e) ^
1.1 分析框架概览
9 |- V: R- o. |7 r# _拆分维度' t; }8 x7 z O2 h, q$ ?0 J
5 ]5 j6 u+ l0 [2 h' V: ] g2 t
阶段:
7 s, I# u- y1 ]. {" V' [ |$ S建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施# j, n9 J4 g, e# A
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等% y0 J9 }( {1 O+ f5 U; j/ L' Y
区域:4 A$ r# A# k; j6 k+ W
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)! J# x$ a( ~" k' h
技术方案:% p# W4 b; O+ U. b& m
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)# G% f! q# o% V; O, W$ N9 P8 f
Google TPU(v5e/v5p/Trillium 等)/ A; `. Z9 p8 i3 ?, |
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
, m, l; s& _, Q, L算例基准# o( L$ ^& i- S- }# M9 S
7 r' G; F7 O6 D6 A5 w以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:: d) A: V/ m; r$ C( D8 u6 ^$ _
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW2 ?; O7 e! I, d3 P+ K; A1 |
PUE 假设约 1.11(高效液冷场景)[1][29]0 {' {1 c8 g$ m% Y* H/ Z
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]2 W5 M+ Q; K# Z5 h
关键指标. B. {; Y e- _' w# L2 {
. s! l0 w4 e, J5 Q- V; {# k3 ?
$/MW 建设成本(含/不含 IT 硬件)+ ?& \/ `5 B5 j
$/kWh 电力成本、L/kWh 水耗, F a/ y9 S, @# v8 b6 f
$/token 或 $/百万 token 的综合成本) r' [3 G2 j4 t0 z) q* X$ I. W
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
$ F( U0 X* e% u# H$ P) p项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)& L8 v# j9 o' N
1.2 高层结论(供决策快速参考)
) C, D& [' p0 t; ], p" Z" S3 y建设成本:AI 数据中心相对传统云数据中心成本翻倍
1 b0 G3 j8 u+ W( ^. K( q9 o0 T
' C E. Y( {' o ]' N* N T传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。# n! O: G4 E- {. D& w
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。% Y% _0 Z; r2 R9 G' }. A
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
$ t7 d! i- |' j) t H( `区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
) e0 j z' _( c1 I, R3 L8 L' ]5 m+ Y- G( D
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
7 H, k2 e) I& I/ v! O/ q美国:$8–12M/MW,400 MW 约 $4.0B[1] H' I( z4 y1 p* T/ i7 f
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
2 g3 M2 E" k: ?4 y4 S3 R中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]) Q- Y1 F' [$ ]2 q; G3 V. S, S) Q; S
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
, V8 w* F* S& P* q9 E5 IOPEX:电价与人工决定区域优势6 u, o7 |+ d ^% v' Y& `" p$ x
$ U' \# A2 H4 T7 s& c: Q- k7 C. X电价(2025–2026 工商业大致区间):
1 V. N- X4 D! C9 I9 \中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]- d3 m5 _ ~! l( t4 D1 t# H; n, }
美国:工业用电约 $0.085–0.09/kWh[44]
/ n9 V' L h$ I4 m欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]! D0 w1 }8 {! w1 E1 _/ Z
中东/UAE:工业用户 $0.07–0.13/kWh[47]
4 J2 ~$ J* G$ p3 p( w g8 S( ?人工:5 V/ [$ c) e) s0 P% Z, E
中国数据中心运维:约 $22k/人/年
( {" a7 b" a0 u: C# i美国数据中心运维:约 $120k/人/年[1]6 ^6 H. Q7 `9 d0 Y
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。0 O" m2 H! f. i5 \) X& i) f
能耗与每 token 能源成本:能效差异远大于电价差异
! ~& S, I) T4 s2 A) T! h/ P+ P \ j G8 E2 t: E' N' l+ t
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。! x# D9 C2 A5 X* Y; ?1 B
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。, r+ l% ~0 y, K' r" H
将 token 能耗约化为统一口径:
& W- x' H3 m2 [- G" D粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
4 L! {+ J& v7 Z0 M2 F6 r H3 k中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token6 ^) W1 \3 z7 {3 ~
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
5 V! R. l1 l" [2 o: O5 n4 b! L$ _对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。- A: l4 P3 K4 R/ ^' P: R
不同芯片方案的核心差异
: g( a+ v2 C4 z$ e; |& |, B9 g* q1 [% |$ N4 z
NVIDIA Blackwell/B200 & GB200 NVL72:9 I( h7 O) V) q" b. h3 ^$ K t# o! D" ]
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
# d, c' ]' X2 Z% KGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
+ A! \/ H s t7 N/ k, }Google TPU v5e/v5p/Trillium:
- e: P2 q% v5 i; fTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
/ W% N# b: ^1 \4 c! V8 NGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。( l r$ J! s- x
华为昇腾 910B:( Q4 k& |* M9 ]0 `' U1 e; b. j
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
: s* b! J, e" J6 H3 L [单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。+ @4 m: b% X T- |2 s& Q' N
阿里平头哥真武 810E(Zhenwu PPU):
1 k1 {! v$ Y% Z$ a8 ~$ y96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。5 t4 g' u% D# j8 @) x8 d7 U
结论:1 x' E, R8 u' I' u( ~( T$ D" u
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
# N7 n* c. f) q" e2 A单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。/ ]: I- f: H' I6 c. o
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
, p: G3 J0 \+ r$ F6 a自建 vs 云租的 TCO 与 token 成本; [. M0 u9 {6 Q4 ?# J* y: c
@; I# W( ]7 `- X. ^. g l
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:9 z" `/ E1 D) e& {% A) ^+ m
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;! A: F" @6 |9 D+ L
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。. F- k1 A, L) s; j# e& ?" q
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
5 M4 A y/ w4 q3 IToken 成本对比示例(LenovoPress 场景)[28]:9 I7 r/ l8 X! x* ]
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token, y! o+ g. @- {( b3 ?
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。) i$ `+ h: M5 u' t
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。" S7 W2 k1 A" W4 j
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
* z5 {# m4 m+ k/ }; M结论:
2 M9 \5 E7 {+ ^& {7 K高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。& F P3 y! S5 e
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
9 ?( ?) V* j, s# W0 S% b0 x二、建设期成本分布:区域对比% D2 `/ C& X1 u& g) j
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
/ u- ^3 S' Z' E: g+ j+ b
- f+ W8 s: ~+ W* Q: f$ u4 ]2.1 全球/通用结构(以 1 MW 为单位)0 R F7 R# X- ^: b/ E7 J9 S K
综合 JLL、ConstructElements 等[2][41][40]:) Y1 U( \+ C! Y' `+ r7 ]+ C) D
8 j7 p1 e1 c9 X& C) m1 b
壳体+机电(Shell & Core)
3 V. f( T4 G( F1 ]" K0 K0 d8 e, E1 p2 p0 W( n
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
$ K, _* i0 _, }其中按成本构成[40]:
4 i) D: r3 Q8 m电力系统(变电、配电、UPS、母线等):40–50%
$ z" G7 v' D, O6 ?机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%. z4 a* v0 w. x5 c% l9 h, W* {
建筑与土地、结构:约 15–20%
. U; S9 ^, Y: P8 W其他(消防、安防、楼宇管理等):约 10–15%
; v; I/ @6 O, x& eIT 内装与 AI 基础设施(不含芯片)8 m1 L& n& D: g Y3 j. ^
' P7 R! q1 C" r; X# k
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
6 K8 }! N' J* e: [6 tGPU/加速卡硬件 CAPEX
; g9 l. f2 k7 U& n+ _ @) ?4 d% D, }3 M
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
- j% k4 F6 W7 o1 a3 F" Y( H2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX! P; b7 R0 \' i! X8 y
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
9 K) {& n& @1 k; y& I
7 F8 X4 g4 v7 b9 s7 R区域 典型建设成本(壳体+机电,$M/MW) 备注- c4 g8 I# l- o7 F; C1 f
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
. Y8 N* F0 _% F/ i美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
+ I9 |6 b, L7 j8 s& B8 D* |6 z欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]% [2 \2 Q$ k" A( n1 L+ w
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
) Z+ Z2 i0 L1 }2 e6 r0 z) T5 H结论:
$ u/ ^8 ^/ b1 j$ a2 f9 x/ U+ {/ t( Y; k
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。& V1 I& _7 P$ W( z0 o0 P% K
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
- B0 v9 ?+ e0 C& o3 e( R+ |1 k$ F2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)4 R4 p: A. z/ A
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
- {# d$ Y; H; P ^
3 Q$ U3 z; L v' ^" |& P9 _/ F假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;; @: g0 r0 \. c- u0 G
GPU 配置:* j, }/ Y$ z6 N' e y* P5 [
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
" M- n- ~; {0 s7 }# E. u, C每 rack 成本 ≈ $3.0–3.35M[34][69];( x2 Y- A" a1 e/ ]( v3 O; N
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
* @# w1 \" u9 s x与不同区域壳体+机电组合:) |- C9 t! I9 t2 a0 A8 ^
$ B0 s7 H0 `6 B& _
以中值估算:
' H+ c" `5 H+ D, y3 o; O
6 `* A; }) ]: H3 D5 T7 |中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
5 U- c& \. z( m- d2 ~美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B M0 `3 }2 n7 B& ]. ~9 A9 e+ ?
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
3 m; b" S* |7 u( n# `中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B7 C$ W& R% Q u) F7 m2 `, c
可见:; X$ f; Q: [4 u+ u
1 D% O! r% g+ d2 qGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。( G7 Q7 h. ~8 m$ |7 d9 J
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。' _* C/ S8 _0 K4 O
三、运营期成本结构与区域对比, w7 X3 ^9 A: V; U$ T' m
3.1 通用 OPEX 结构(高密 AI DC)
7 A2 F. t, Q: `, V/ F$ p结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
9 |; R2 P( r$ T* L b" X
. u4 j( F g ^; O电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
( w/ i a0 d' Z冷却与水资源:2 [9 O R; q, ]5 `$ Y% c( _
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
( h, f3 F0 k6 v# X% P* t( p8 q* P水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
' r5 ]6 \: F' s6 }人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
% f9 w& w( b \7 G- G托管/物业与维护:
, _0 t3 y8 v* c. q托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
( t8 @8 f3 ^* Q! W9 H硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
1 x" q2 C4 ~1 g( n& ]3.2 区域差异(以 400MW / 3 年期为例)
- h( y1 U& o& |6 k9 M: N使用 ChinaTalk 的电费与人工估算[1]:
2 [- U' |! V5 L" g2 v. e- _1 J# N# V s) D" U$ M# D0 C
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:& G2 f) h, t( m3 d6 o# [
中国:约 $0.06/kWh → 3 年电费 ≈ $350M. ~* ]7 f; v; d, n# w
美国:约 $0.09/kWh → 3 年电费 ≈ $600M* n6 }7 V' q7 i" n
中东:约 $0.07–0.10/kWh → $400–550M
" T4 _" f; \3 r7 u7 B, S9 t1 I. B* {欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)# e. v4 u8 E1 G& N& @# D
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
; c F% V8 W# X5 t: c0 W. |* }美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]1 X: w9 i8 _9 F; U/ }7 C
三年水费级别:
1 ~( q7 n \7 K3 ^$ |3 f. E( a# g1 w5 B美国:$40k+3 d& V# [1 H' q( _ B6 B
中国:$20k+
0 |1 a7 B3 M7 G8 O0 C: L( l结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
' P1 L8 u, q2 p' }人员成本(3 年) – 假设 500 名全职运维:, s! o: i, H7 V
美国:500 × $120k × 3 = $180M+! A) Z+ n: Q) `% @ S
中国:500 × $22k × 3 = $33M+
5 p' Q1 t# I* B: g8 l差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
9 b) R0 w% @- ^3 U0 i整体 OPEX 粗算(3 年) – 400MW 场景下:4 g0 P, z7 X- M' b" B& x6 j; o! f
- I6 c7 e' @7 z+ L
项目 中国 美国
/ T# Y' j7 U7 {) |* I* F电费 $350M $600M
& j) x$ n& N0 Y0 h6 e- Q" X* Q水费 <$0.05M <$0.05M, N( \3 m8 A. x
人员 $33M $184M5 ?% U5 S6 N8 Y& o( O
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
" ]# {% J; b" v6 o! ~8 e) c2 {9 R结论:
2 h. x" r) p( k$ A, {( V+ I" q( |6 x1 l. r
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
8 J# i9 f# o1 O! X6 ]对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
' N4 C; c) Q! d8 s" P) B四、基于 token 的成本与利润推演7 N+ z4 ]6 n& `$ ~2 o# r4 w
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)2 p- Y8 u! A& x3 ?8 X7 p( N; e
统一假设:
. D/ h5 y- a8 x0 w
7 d+ X( `1 ~1 I9 H# A P! z典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18]). X3 e" M, F$ C) m' S% N
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh3 ~ H; k' X: @. O2 ]# H; M9 _
1 百万 token:278 Wh = 0.278 kWh# T0 x) S* p' g7 A' @. ]
场景 A:美国电价 $0.30/kWh
~- c6 W+ g( F2 }0 B9 K4 j) a电费/百万 token = 0.278 kWh × $0.30/kWh
, ?) ^! `1 P: q* m4 n0 G- ]9 V≈ $0.0834 / 百万 token8 ~* v, u! Q$ G; h; o9 g
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh* _! U# T) P; D! }
电费/百万 token = 0.278 kWh × $0.042% ^1 I0 u( w ~3 W: e% \! h. s% B
≈ $0.0117 / 百万 token6 b/ v" \/ D5 p
对比当前 API 价格(OpenAI 2026Q1)[62]
! H0 \# ^0 A" R以输出侧为主(成本最敏感):
3 p8 }) s B% V
' S9 c5 H) J& c+ J5 @# P; v0 \ Y4 M模型 输出价 ($/百万 token). w, ]7 v( e$ h/ r0 z. u
GPT‑5.2 $14; H* F7 A$ y$ X# L# a: f' y( w Y' a% ~
GPT‑5.2 Pro $168
0 d" `& x. ?& C! M3 y, AGPT‑4.1 $8! O9 ?2 G) k4 B* I+ m9 _
GPT‑4o $10
0 G3 z9 M2 `6 v7 f% e' OGPT‑4o mini $0.60
( f) H. T" D& V则:
9 p) P0 ~! \3 t. _. p1 j( L) f: ~6 J: {
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。) D8 P% m9 b8 l+ s5 F f8 t2 K" i
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。2 e( [ l m! Z+ \! _! ?
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。" V1 ]4 e5 a- n; [% G
结论:# C q, r' x4 I) g& U! G- Y9 K4 Q- F
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。- }# `6 Y! p8 t* ]
6 I7 R) C L3 F) ]6 W4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
5 T+ D$ M0 c4 X0 V以 LenovoPress 的 8×H100 Config A 为例[28]:
! {! e: Z# `2 C+ T$ _
! i7 y4 O9 |, f$ o+ S5 年摊销下,8×H100 本地推理 70B 模型:
3 C4 `/ |& \: X5 u) l小时综合成本(CapEx摊销+Opex):$12.08/h, K& m0 L% ]) [& T; F
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
T. @0 k& \& F0 ]' [4 |4 C; J9 l/ p7 s& O成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
8 T% s) G) y* m8 A, }! Y+ ?3 n4 a电费在其中的占比:8 t ]6 E, d; k
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]& v& [) f2 U7 X; P- R
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token: r8 Q' Q6 |, O- q/ A
电费占 总 token 成本 ~7% 左右。' y' w' n- _( A* G4 c, |% l$ R
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
& O; a) U2 b% m若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。/ r& p% ?( y& ?" ?& E, k
: e0 p7 Z& z$ I$ }6 Q u
因此:
# |# e% ?1 r" L: V- V! u
( u* \3 J8 H' O1 _6 l# z在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。; A- E/ f( F7 y
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
s3 V- _# b8 |& N9 ]# t' |8 c五、不同芯片方案的建设与运营成本对比. D% i: T2 x( P& f' z* W9 a# w% u
5.1 NVIDIA 方案(H100/H200/B200/GB200)( M( b: d9 m; J$ g. l, G& t
CAPEX:2 n2 T( N1 X, _
F2 \$ Z3 x3 P/ _H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
& c% \4 w9 G5 mH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
. c' r: k; P5 GB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。+ ~2 ?3 O% Q$ g% v
GB200 NVL72:3 r( K5 f# X+ N
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
6 g4 b. _$ N. K6 \; y/ O# ]2 \冷却系统每 rack 额外 $50–56k[35]。
; t! K O S6 W, w' ?& x; V在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。& }, `% A7 g/ q- U
OPEX & 能效:
8 B4 |% D* ?5 Z
/ V4 [; h+ G% F: n6 ~, d单 GPU 功耗:
% M8 E* C7 S( V! M$ V: W/ m/ i6 r( c6 p+ vH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。! H8 T$ V4 K' [/ k6 A& L
H200:功耗类似或稍高,但性能/W 提升[9][10]。$ }" M& c7 ^# ^
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。& c; ^9 N7 x5 g$ q5 [
Token 性能:
% M5 Q& T4 H" i" s8 e0 LB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
* b$ k9 B) e7 I5 b7 NNVIDIA 的优势:2 \5 ?3 S$ V$ A: v8 o2 N/ \, A
+ m0 [3 h- S+ g5 H+ A! M, J* {
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。( r1 A7 J4 v) m
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。+ c0 y! W! |, W# j
5.2 Google TPU 方案" i( [4 B0 L( ~+ @7 r8 w6 I- ?
CAPEX:
" M' C+ q; @5 e7 E {0 X6 M( f) X/ D3 g
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
1 K. v$ t4 v1 U- R% [0 n$ J1 _GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。& x8 k! Z8 [' p* K; D( m+ h
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。- N9 o& o5 M) [$ y5 @
能效:
* t" `( Y+ m5 l4 \0 ~+ d$ u0 X, |: X+ y. {" M" H% @$ H
TPU v5e vs H100:" {, Q8 ]; M4 x5 o' @$ k% e
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
# D7 _8 d) b' m+ G- d9 w; l( m6 c测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
* K3 i2 U$ q: Z8 x' J+ {/ d新一代 Trillium/TPU v7:
u8 F; F3 F* ^ o6 m" e/ J9 |能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
6 h& `$ o' d [7 c/ KGoogle 方案的特点:
1 w. \* u! x2 r& @, U4 v( \" E8 ?. P. M/ g
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;; S$ a2 T j/ m+ V- {+ B3 J) K. z
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。9 y& V9 J; w4 g7 @. [' k! H7 A4 g3 z& U
5.3 华为昇腾 910B / 910C 方案
# |* Z& _( K, C& h- XCAPEX: m" Y. l! s0 k, C
% N) v C' r& q8 T
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。: T4 ?4 z- U- y, Y) \& h+ N; V' Q+ v
与 A100 对比:
$ B: m( E4 N: HFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
+ i( }6 i7 z4 U1 q8 V# h市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。. Y& I' _+ N6 `6 Z
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。& q( v9 K/ |- a, p" H
OPEX & 能效:. f! K: I% Q5 }( u
+ T. j, P9 r6 Z: P7 Y7 H y1 U6 O
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。4 R" ?& B! k0 M9 @, ]' c
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
& Y& Y. g1 t' [! u% @" {$ p在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
4 ^+ L2 C c% t4 d6 f3 G1 F5.4 平头哥真武 810E(PPU)方案
7 M3 d. s! t8 ^: l7 BCAPEX:
9 \! X. f9 c: [2 i7 X( T2 f, g& E) j* w# X% f T9 F
技术参数:2 A1 t8 l; v+ O3 Z( R: D5 E
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。, N! C) |2 Y0 T5 v" M
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。/ J, x! k, r4 ~, S8 D
价格:
7 z/ ]4 ~' }# C' I5 ]未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。! a$ u. D. U! {+ t& c3 A- }6 j, M- t
结合国内报道:) ~3 C. }- \! {+ p! [
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。" c0 ^9 e* Z8 ?/ l9 U3 u
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
0 R$ f6 v( ?: M+ V, \3 W9 jOPEX & 能效:
% f# O' ~% W& ?% g! A% K- d& ^8 M/ t
% V7 y8 H* m) C9 p0 v7 e5 p400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
2 ^* F: M( F2 B在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
: t) Q/ J' k, }* O- {. U3 N六、综合比较与策略建议1 F+ `' J0 {3 L
6.1 区域维度:在哪里建 AI 数据中心?
( t8 o5 z, T' B3 Y4 Q$ R纯经济性(TCO/tokens)排序(假设无政策/合规约束):
+ g$ @7 j6 I' o$ {: m! e. |1 j& L
' @( I( x5 }& S: ?& z, C5 `中国西部/北部(电价低、人力低、建设成本低)
/ ?* X& g3 _9 b8 n" ^& D. T中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
4 | o0 g& q. R# ]1 w8 H' G6 x美国电价低但人工高;东海岸/加州电价上涨压力大& S7 R7 r7 M" f" ~6 L. A
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求( d9 g9 ^2 f9 h- {4 h
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:$ _( h/ E" \8 o
( W7 ^7 {3 E; [( T5 s1 j. @5 v
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
# @5 Q" F: |4 n5 n7 B* ~4 J对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;! m+ e5 e; f+ Y% P+ F
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
) h7 f4 C: O4 I. J, `, w, }8 K6.2 技术栈维度:选哪家芯片/云栈?2 e# m+ P4 Q- j% A. y
若目标是全球最优 tokens/$ 且不受出口管制: Y/ s1 H# q: S7 L
# u4 T8 p2 y5 L: A! E" i
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
& ~( L- n! @' Q( ]1 Y若在美国/欧洲,能自由采购 NVIDIA:6 Q U. Y- q- {6 M' U/ R
) p# h6 M% D- w5 r7 Z [
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
1 \$ E/ A7 `, z6 z成熟的软件栈与生态,极高的 tokens/s/GPU;9 i" G! E$ m z1 r U
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;. E6 N7 K" L; K7 u9 S2 R0 e+ J
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
- @# W2 \( Y$ r: z/ y" H; X9 r若在中国或存在出口管制约束:
8 |) C- n9 \$ B( {1 l
, I5 G6 w7 U9 ]0 V0 N2 k, W6 P8 @2 o昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:1 R( }2 f5 f+ x8 [5 B+ U1 C
性能上已能覆盖大部分 GPT‑4 类推理需求;8 ~' C9 t: J; y
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
4 f# N/ E: T8 P9 d+ s: L软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
; y% b/ E" I& K* W" ~& b建议配合:
" A/ o0 B. k! R- Q- f9 {. a1 Y8 L高效液冷(PUE~1.1)、
% Y+ J/ R6 q6 [) ]大 batch、路由(浅层任务走小模型/低成本芯片)、
- o8 D* l" `* s& V( J强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
8 K8 F, {" K# _4 ]" \1 O长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
0 ?0 l$ N2 x9 \. {$ C! m* p( ^! q1 k' E
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
1 y0 s1 L( W' E1 h* K6 a这意味着:
7 ]* ?' w: b _优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
9 K5 v( r# n- h$ I4 b- W' h6 ]精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。' S' }5 ?+ C0 w6 `, B
6.3 针对你关心的具体问题的简要回答
! U1 O5 V' O9 m0 ^3 cAI 数据中心建设 vs 运营成本的大体比例?
7 O" F3 I. y) ?& b
- k! N, i p' C3 t( }在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
6 S: F+ Z9 t. l: O- Q其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
/ ?8 f, m4 c2 H8 f; s, `4 I中国、美国、欧洲、中东的成本结构区别?
4 W0 ^2 y7 V1 Y& i; D, g9 M+ W! c8 e# s1 R
建设期:2 T5 N. B8 g% V% L; L# Q0 H
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
) b1 a. |. c: F' D5 y+ F' Y运营期:
% k) r/ `8 P S* f; ` Q电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
, Q; q/ G) y5 {+ m人工:中 国 ≪ 美 欧,中东居中。
5 q2 r5 U+ L. B: W' e在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?4 ?% J5 q$ ~2 f3 _' t' Z7 W4 J+ ^
! @0 F% d. Q; L( a对于典型 1 J/token 推理负载:
$ H" R- x9 x$ V* A3 s' ]美国 $0.30/kWh:电费约 $0.083/M token
+ i! A: R+ W2 _/ h1 l* Z* V中国 0.3 元/kWh:电费约 $0.012/M token; b# a* |" y0 {. r. i& }' q8 x
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
* D& I& [/ z2 x不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
5 E. {3 c0 i+ z: L3 q8 f& {1 z/ D$ Y( N" j5 W2 v1 s1 E/ w9 p
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
6 f) s# K" W) V9 U全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;! Y9 D1 N1 }* t
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|