TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:4 e$ ~8 w* J& W5 t; ^$ B
3 e/ ~- ^9 f ?' [* t6 o# l一、总体分析框架与核心结论
9 l% J K& v% u5 q8 j- G* T1.1 分析框架概览; m' A2 z1 E d' d( y% P0 l
拆分维度1 ?9 O. `% q2 E1 @$ s: d
7 J5 r& G9 Y4 ~0 |0 t, ?8 C* H, W
阶段:* g# @8 S/ m1 E% v* Z
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
# N/ d7 G2 ?8 W9 H4 {运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
+ ]8 A. ?; R- F0 ^7 s区域:" l7 [* K e3 \; q- H5 q
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
" ?3 |' R/ |! o技术方案:: Y) C+ d# M6 N2 }0 M& U
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)& { f" b4 N% C. z! H
Google TPU(v5e/v5p/Trillium 等), a" c0 X1 ?" b; l
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
) r3 e2 ~1 y$ H& G算例基准. U% w/ H* E5 R$ X+ o# F
- I, N& B: O, E+ b. N: v8 G
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:/ V3 {4 m" r0 w& t
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
* S( y& T7 J: D) o3 n8 n; XPUE 假设约 1.11(高效液冷场景)[1][29]
, A* ~" {* |0 Z7 i! C时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
2 M" h' B3 B+ Z$ G( T1 q( L关键指标
( L# n4 Y4 N1 P5 }9 v- `
9 Q2 C/ M4 n, _: B( G/ s$/MW 建设成本(含/不含 IT 硬件)
% E# f1 Z& X6 Z2 V- M' `, A$/kWh 电力成本、L/kWh 水耗
" N4 h. ~, L7 _3 ?- v$/token 或 $/百万 token 的综合成本, ]$ _; v2 _- `& K/ H }" {
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]! t& Z, B. g3 O( k* u
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)' J1 ~1 W. Z4 m4 _7 A6 M8 o$ d- s2 r
1.2 高层结论(供决策快速参考)" A, }- a2 Q; L: a
建设成本:AI 数据中心相对传统云数据中心成本翻倍: K$ t9 W) I0 F- T5 m
2 P( V V. c) c ]) [0 g3 x0 @传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。. B8 g: z! Q- D/ g6 S2 W
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。/ s6 \; p# T: }! u7 c
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
- v- W+ f3 I% H3 L- n区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
! n, c. B. G+ h! R! I- R# X$ {
5 G- o) x$ A' \& T& }7 c5 `; N中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]5 t& f+ I) ^6 p$ f5 W
美国:$8–12M/MW,400 MW 约 $4.0B[1]
* X# e$ D1 V. n& t* O! Y4 G# ~4 q欧洲:接近全球平均 $10.7–11.3M/MW[2][41]; [6 e. i' G$ y) Z9 F8 r
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
7 T0 C% g( V$ v: Q) ^/ q) V% c( ?& _结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
/ B) }- T* ^5 f' Y' mOPEX:电价与人工决定区域优势
H1 t: d( o) C5 B! M5 r( [" H
' T1 d, z* R9 k9 Y电价(2025–2026 工商业大致区间):
. `( d3 s! d. K1 Q0 ~中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]# m7 }: F' w3 x8 y, v
美国:工业用电约 $0.085–0.09/kWh[44]) _, W0 \ k6 J' b3 [+ B
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]: D. S$ A/ G" V0 n/ B/ X1 c# v
中东/UAE:工业用户 $0.07–0.13/kWh[47]
: B9 X) O, g* C4 q% F/ ]" W$ |人工:
1 I+ J7 A( j) [5 A1 r+ u. E* j7 L中国数据中心运维:约 $22k/人/年
" \) s) @" d2 ~+ A: u美国数据中心运维:约 $120k/人/年[1]
E o. w- ` g" h+ A$ m# c+ l结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
9 g' H8 x, K( d( u能耗与每 token 能源成本:能效差异远大于电价差异
9 P, ^9 @6 f2 g2 d
# c. V3 h0 ]; f- c0 |9 f7 @IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。( }: X4 e# J; s. m
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
) ~% A& Z8 [+ _/ s将 token 能耗约化为统一口径:
" n$ o+ v; q0 E/ v( g B1 Z粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:. J1 E7 ~3 s0 v
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
: S& F: D8 }( U4 Q- M7 |+ | M美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token/ ?5 u5 e! e* |1 n C
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
$ e' ~, ^* k. k0 Z; h. @- V不同芯片方案的核心差异, g* h' ^/ m( Z# G; b" l0 p Q
. i4 u: K: I. c9 q& ~, pNVIDIA Blackwell/B200 & GB200 NVL72:6 k* R/ ?8 `% f0 l# c) ~# V) d$ d
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。1 R% k' v7 \0 k* R6 s
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
" w$ N0 L/ H7 }$ r- ]& XGoogle TPU v5e/v5p/Trillium:
4 W* ^% s+ f+ B, H' wTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。. [4 U# ~' R- Y0 D" \$ Z
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
. v, \6 [+ x8 q! ]3 o华为昇腾 910B:
( K1 Q- [* G# J; `FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。5 C2 W, `7 R* n. W1 A
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。' X0 S& x' i/ W/ Q4 ^% D
阿里平头哥真武 810E(Zhenwu PPU):
( [4 U$ ]( c# T7 o. [96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。8 v Z( I6 Q$ s( y
结论:5 M K) t# ]! u8 d, Y+ v; h
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。' Z% ~! e+ z$ [
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。0 Q* W, F$ T" X3 p1 Q1 F, X& @
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
+ ^0 p1 L) K) V8 {: [/ n; [) D自建 vs 云租的 TCO 与 token 成本! P/ C, p8 M7 \; j0 `
; D8 [% f* N" K: ILenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:$ Y& f2 m: Q2 L5 }
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
! e5 t7 K3 y% n' m等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
' Q! P2 _2 c1 K* e$ @( `9 Z4 S) T, i: _0 W8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
: G1 N+ H7 X DToken 成本对比示例(LenovoPress 场景)[28]:+ P. b1 f% I# U
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
% Q* _9 M( E. X4 L1 }5 Tvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。3 ~, U5 s- V% d$ w9 _: D, g
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。4 r. A6 i( a1 @, |: }
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
/ b# q, h e, Z) h1 B$ x结论:
1 k) W" G: b; ]6 ?/ y2 [高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
; a* s7 T) p: d4 z, Y; dToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
- }. A: ?4 e4 [# r) _; a+ c二、建设期成本分布:区域对比
# `! [% |4 Y* E8 `. R6 a: ?以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。- j* h( B0 R$ F3 `5 c! K# a
6 I3 T. ]; N5 o& A2.1 全球/通用结构(以 1 MW 为单位)) o! A( D$ D% l) w' {5 g' O0 x# x
综合 JLL、ConstructElements 等[2][41][40]:
. h) h& M4 P& D2 w4 `
" q D7 M- U' k1 e% P壳体+机电(Shell & Core) F z% V, m' n% A# `
6 u: v0 q5 p) l
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]+ A$ d) J t; |( h. a
其中按成本构成[40]:
. C! Q5 a( z1 I电力系统(变电、配电、UPS、母线等):40–50%
% W. u; y2 F3 U2 y8 [机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
% w0 Q$ e! a( q5 W$ C% h建筑与土地、结构:约 15–20%& ]$ q$ T& x1 ^" n7 D8 o
其他(消防、安防、楼宇管理等):约 10–15%$ t: g7 T+ E/ n+ T) e( \1 M" d: r- Z
IT 内装与 AI 基础设施(不含芯片)7 q, j. _" M; `( v
% m5 K( i# j" S: o _ C/ u( i! H
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
. @ }) y0 F% U% } _5 uGPU/加速卡硬件 CAPEX, U2 _: X5 a3 a
9 {% T& y1 C7 ~
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。" O' q4 K8 U6 P8 U( S5 I
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX9 ], F) {7 m( b" o& \
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):! k5 [8 R3 O: n) o
, j) a- k, F# b% F1 P, i! p8 `3 \. t区域 典型建设成本(壳体+机电,$M/MW) 备注
: I& \! K# K J/ D中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]" F- U. b; ^9 i1 i8 U7 u# k2 F
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
9 G% D: k0 A7 u# _2 w7 e欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]$ i: D& S: N% o" ]
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
: i6 y7 _$ @+ h7 }结论:" n+ k, |# r4 q N, [( H
' F9 |$ a# W' t1 |单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。" }* k) q Q5 M3 N# _( b2 M
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
$ x& D, u8 k9 ~2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
8 X& p& E! n6 O0 Y; c. `以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:- L* }5 n; g( ]$ i1 ~* y3 I1 Z, Q8 M/ g
0 R1 i+ f( \: R4 C! G假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
: U1 y8 X# I2 D: L6 k3 RGPU 配置:# q/ J9 x5 Z: ]1 U
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);0 W; F( L% \5 y- q* n
每 rack 成本 ≈ $3.0–3.35M[34][69];! `( p. X, s2 ^
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。. i# d a0 r6 Y1 a, B& Q! F
与不同区域壳体+机电组合:1 y3 \7 \5 [5 a9 U2 B& p" r7 B
# K" _6 P/ i" @4 S以中值估算:1 Y3 d5 [1 J; n6 `
) J/ h3 T) f: _5 _- U
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
1 S w# ~: _- d. o1 [; B; E美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B8 h/ ]+ L& k: h, l( [# B/ g6 j2 S
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
" q& X# X/ W" I0 ]. j4 S l. V中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B- T$ x2 x- j. b9 a
可见:
' q- p, |' P% a% y
2 n9 K0 X3 k0 @1 F5 s- u- y6 KGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
6 m3 o7 ~; M; P" J' C相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。4 G+ F6 Y* L2 z: R
三、运营期成本结构与区域对比5 n6 X8 }& c1 n7 y6 [; Q
3.1 通用 OPEX 结构(高密 AI DC)! z8 ~: b0 f5 m `+ A$ O- d
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:% A7 O' D' i. F& f
5 a4 D2 P% f' Q: j2 d. M$ U
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。6 ]1 I' I' a; j# S1 G }
冷却与水资源:) @# T! a. G- n& b0 E, i8 @
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。4 a; c: o W& A) w+ S. D
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
5 H, o# s, d* E( d6 c' o# v人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
) E& w3 L8 w# m V( `- V1 a托管/物业与维护:
( O* K0 y% B5 L# F7 Y托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
3 _0 E. I @; | {/ b硬件维护:LenovoPress 模型中按设备价 12%/年[28]。4 p' ~9 `3 j+ W6 W5 U% }
3.2 区域差异(以 400MW / 3 年期为例) q" x i& ?& v6 R& F- Y3 J
使用 ChinaTalk 的电费与人工估算[1]:
+ I- i$ o1 [7 W7 U/ z* [; e
2 z3 P9 p6 h2 ?) d7 y' d. {: O- w电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
9 s, X. x! b; X1 n+ {中国:约 $0.06/kWh → 3 年电费 ≈ $350M
. b$ C7 n9 s! s% _美国:约 $0.09/kWh → 3 年电费 ≈ $600M, {9 v1 x# k0 o7 b* ]5 o- {9 g, F
中东:约 $0.07–0.10/kWh → $400–550M- g5 d+ [/ |7 `8 x, H5 ?
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
; A6 I7 y/ }: G c7 M水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:9 {; \9 _* p) G2 D9 D
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]& b! P: F6 U7 Z7 E) \( p
三年水费级别:
3 J. Y/ X+ g. p) D U美国:$40k+- m! m& |/ j( o3 c% C
中国:$20k+2 q8 I7 \3 [, d# T. _
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。; J9 f. l$ u; w8 h, f6 {
人员成本(3 年) – 假设 500 名全职运维:& W; C5 m8 z& {
美国:500 × $120k × 3 = $180M+
5 D, n7 |+ L' ]' m+ j+ a; @中国:500 × $22k × 3 = $33M+
( q6 T s! v9 P0 h0 l+ D: ]) J差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。* _; `( o! S9 V1 o; g2 J, _( x
整体 OPEX 粗算(3 年) – 400MW 场景下:
8 R% D; G8 ~4 Y/ _3 {- A
) |" r( H X* q) X N% m) O$ T2 [项目 中国 美国, [$ M5 B- R8 @. W! J
电费 $350M $600M. M. S# d: _* R
水费 <$0.05M <$0.05M
s8 w/ o% ~9 [7 M, N/ P: R人员 $33M $184M
' H6 W, P. r" H3 g其他维护/托管 同比例估算,地区差异主要体现在人工与地价
5 Q" u. D4 {2 M+ Z- n结论:- g/ o4 f: a8 P3 {: W% ^, @
1 p& K, Y8 ]+ g% A3 Z就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
: A7 `( m) P7 g) j$ n对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。: |. Y( |' G; O( W# ?
四、基于 token 的成本与利润推演
8 s* | w) {; Z z$ B k- z4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)- s3 H# h$ G- O; J% t2 C
统一假设:* T% l/ {$ f( Q3 h/ l9 l! h
" |0 t6 ?* c9 ]' z3 D4 M典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])5 ?+ r4 e& x# }( N8 j- D8 G
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh6 d# r' R1 H" h# I
1 百万 token:278 Wh = 0.278 kWh6 t3 W1 W! R( L$ S! E, y
场景 A:美国电价 $0.30/kWh
! s9 q1 i& [) \0 U! S0 C电费/百万 token = 0.278 kWh × $0.30/kWh
% I) I/ \6 f) O≈ $0.0834 / 百万 token9 C B6 q5 U( f+ l" |
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh1 c. D) H. w4 |
电费/百万 token = 0.278 kWh × $0.042
# \4 s) i8 |/ ?" A A: {) ]≈ $0.0117 / 百万 token
4 u e- h( I2 ^( |对比当前 API 价格(OpenAI 2026Q1)[62]4 {. s6 b W* X/ d
以输出侧为主(成本最敏感):' g, { g. c2 C2 x7 p9 e, Q
- Y1 X( _8 F! N* U: w. E' D. H模型 输出价 ($/百万 token)
0 h8 J- ]: x7 f. [7 SGPT‑5.2 $14& n9 r% J9 r; P8 Y- M, x
GPT‑5.2 Pro $168+ ]- T5 V( M* _! l7 \7 e, G/ s
GPT‑4.1 $8 g) U: p% y3 x) \2 N3 d3 Q
GPT‑4o $10% b& ]2 [& g6 _: Q1 e
GPT‑4o mini $0.606 `! z: O; Q+ f3 y+ }7 G% n2 T
则:
* x! s+ U& z: N# r
( O( C# r3 T4 I: @在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。5 J; H! F& P9 w
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。2 F' i) v4 Y# K8 t; y9 l
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。. V; a! @4 m. {$ W
结论:/ Y5 f, X, U6 O3 K, c# b7 |
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。, U0 H* E. \/ ~; K- J' k) S
4 e: [6 P) B6 m
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)* ]/ }! o, ?( F) Q( ~
以 LenovoPress 的 8×H100 Config A 为例[28]:
% [: D/ x$ x2 Z# w
7 b! t1 p% r8 ]& F5 年摊销下,8×H100 本地推理 70B 模型:
- [( c7 a7 E. }9 j V: F4 P小时综合成本(CapEx摊销+Opex):$12.08/h
5 x; d) p+ }' b吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens/ T7 W' B5 p7 Q* H7 i
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token* Q; t; P6 F& N0 @
电费在其中的占比:. J8 e/ z) v( }; |7 k; V) E& k
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
0 F8 H% x | v f s$ y: d! C电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token' p8 j; \: n1 _7 h3 [
电费占 总 token 成本 ~7% 左右。2 T/ {$ t: \- E9 O, X% V
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
$ d( s' m2 j( K/ X% X& x若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。# G( w% `" A- h0 F
2 `8 s B% I- {# `4 x5 x
因此:0 c5 U4 U) }1 t3 i( X) l; d/ ?
2 A' u7 Y. T& Z
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。; B" [3 d2 A6 A
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。) X; |) V$ }* S* c! L5 ^# q
五、不同芯片方案的建设与运营成本对比 T8 R/ G b: a+ W6 y0 u) e( G
5.1 NVIDIA 方案(H100/H200/B200/GB200)* G/ c% }% j- k, g
CAPEX:1 v" w& s1 @6 j T0 _
% Y8 Q$ j+ N- }4 ZH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。$ U' P% ]* A* o% R2 Q# \! l
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。# T& Y( C2 U! a0 k, T" ~$ D; T6 n
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
( x& j& {5 V2 g; Z# g) E5 |- ?GB200 NVL72:
4 Y% ]# M5 a4 B每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
% |# Q. U6 U5 w# J- @1 E. ^& Y) ~/ f冷却系统每 rack 额外 $50–56k[35]。
j) _) J8 H% K7 c5 C在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
7 c6 k9 @$ K- Q- JOPEX & 能效:) A* m6 W$ x2 B' t
1 ^) N& x) ~$ {0 n. @) P
单 GPU 功耗:( F& X1 Y' R% h2 \ ~
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。4 W5 K. h, q$ y) g" _" Z
H200:功耗类似或稍高,但性能/W 提升[9][10]。' l. J1 s8 ]+ ~5 }
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
6 [! W9 o6 s5 T F) S. e X. [Token 性能:
8 {+ y3 \9 Z& N! L& l5 B- HB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。( D& i4 [ C9 f! R5 E# ^& T) h
NVIDIA 的优势:
% K& b; ]" }, T. R% ~
+ H8 e; s$ U( K; ], T2 c$ t$ a软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
/ q; U w# L5 W) P0 e但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
9 J) m4 A% _) a0 f9 h5.2 Google TPU 方案
' f) h* a1 r; FCAPEX:+ D, E/ t2 y! \2 [4 D7 f
# o" R: h8 P6 y/ q5 d8 d9 h6 m% _4 P: D
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
$ f" }7 i/ m7 O* v- o8 AGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
h" c* d1 T f" A. G3 S8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
$ c" f, e3 N; g# Z- Y0 y能效:
, S6 f2 p/ B7 O( Z; n. H0 l) }5 o& i; Q5 G0 I& {
TPU v5e vs H100:
; o! g; ]9 ?& K; d' g6 G7 X同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。! R7 b7 Q( }9 i) G" I
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。; J2 B* `4 O, ?1 V
新一代 Trillium/TPU v7:
* [# g8 ^% \7 p p能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。9 ^. B( r- |9 G1 t0 x( ^& G
Google 方案的特点:
5 K l: v/ B0 b6 f$ y9 F. g* J, K, v( h
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
$ S, v# h: X H) U; R" T对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
# c- K# h' y6 R4 G* y5.3 华为昇腾 910B / 910C 方案6 }( |7 z9 q2 I1 C8 u- l9 q# b
CAPEX:
& @5 j& K0 r0 j" o3 i% M% Z0 d/ U7 L- p# j
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
1 U; n8 v" W/ p1 n与 A100 对比:8 `" o- l/ j% g! ~8 U
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。* ~$ a% Q9 b. W/ p8 |
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。1 x) M. e$ Y% i; z. L4 ~8 \
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
8 l8 u$ N$ x' j0 c) M AOPEX & 能效:8 ]% d1 U5 a, v) S* R
/ |6 y+ S6 i& X, V h9 K" s910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
9 A; E9 b% E/ g3 q3 |: _1 [部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。1 U ~- w" {6 K% g0 l; s6 K+ E
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。9 V4 k5 u& z( g' _. E4 U
5.4 平头哥真武 810E(PPU)方案) \" L2 K% D, U6 a# s! X
CAPEX:! n: e3 r' ]* `* |2 e$ H! D/ p2 S
5 z8 d4 o k% M技术参数:
, i: s! g+ Z# f96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。5 ?7 x/ D0 M* A
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。 D& z- v6 |8 }' B
价格:. R1 H' U/ ^* `) n% x, j
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。. x% h* Z0 X* [
结合国内报道:
! R3 O9 p* Y/ |, z9 z0 S6 r4 f2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。+ f4 C' w5 Z) r. _, V$ x% b7 [
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。/ u& A0 R; k3 D- |$ u/ l7 Y
OPEX & 能效:
3 ~; T% q* R6 F3 [ {( a* k
3 Z4 F. s* Z5 C9 t' B6 p400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;) L9 m ]. [' U& S% O
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。/ g+ ^4 }/ w( b( B" O
六、综合比较与策略建议1 K/ o5 Q6 r" U5 u
6.1 区域维度:在哪里建 AI 数据中心?
6 x8 u5 K% m/ S" N% g* }纯经济性(TCO/tokens)排序(假设无政策/合规约束):+ d% W) s. `2 h
3 k, P) u: x8 B3 x$ i* m- N& {1 [: g中国西部/北部(电价低、人力低、建设成本低)+ |* _/ e+ H0 V/ ~7 g
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)' p# A0 `% H+ X1 Q( }' }6 F
美国电价低但人工高;东海岸/加州电价上涨压力大# T8 ], i8 W* x$ V0 t
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求, V: l6 l+ R. z* d( q2 b
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:0 L" z) o' b# O; u, V+ z7 X6 F
) b2 h# u, ^, X3 h9 a6 H6 W
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;0 ^' U+ R) E0 p' g) _
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
' O9 x2 j3 ]) p4 U- i/ G. j; V但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
+ M. t) L, L: I6.2 技术栈维度:选哪家芯片/云栈?! M! B6 h( S6 S; Y3 n9 w% H5 m3 Z
若目标是全球最优 tokens/$ 且不受出口管制:' N- F$ i! r& a
+ C( d% A, O0 B- f( @% q8 n/ C
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。5 _3 h2 S9 ?5 ?- c6 W3 @7 [
若在美国/欧洲,能自由采购 NVIDIA:
3 B+ r! f% E& i/ L$ o+ n4 r, P
1 H+ s7 q1 F% R: J& n+ y2 |' W短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:# }' {6 G' j; p4 w9 u* N$ t5 y
成熟的软件栈与生态,极高的 tokens/s/GPU;4 Z" a* M( W2 q( _8 e
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;! o" C$ ?1 Y: h& \( y- f
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
) k0 ?5 N) u; ]若在中国或存在出口管制约束:" D0 g. u9 Z2 l9 k; ^% L- T3 l
" E7 Z, M: k W# y5 G
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
, P- C1 M* ^& d" H( i性能上已能覆盖大部分 GPT‑4 类推理需求;
( h4 P; _ Y' W6 y+ ?6 l0 s单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
3 B2 j- ^; T y7 I软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;, C$ a9 r- e( |+ B
建议配合:: w& J( H/ r1 Q+ Z; B6 l) P
高效液冷(PUE~1.1)、2 K3 `" P) {% V7 g+ E
大 batch、路由(浅层任务走小模型/低成本芯片)、& i; M; u! g$ X7 ?
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。. }5 e7 n% T2 Y" o' w5 D* I
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
8 d, O4 Y- M) U& G
2 ^6 T, B" D( q, @; y数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
F. z, R: E! y* _1 d这意味着:
2 U" ~4 R% N. N/ b* N+ w! `优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
0 Q" R: p! w3 c$ u$ v# Y精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
9 M. Y7 I& L, N3 a7 c c T6.3 针对你关心的具体问题的简要回答4 ?) o# i x8 F1 u8 a. k$ Q9 m0 W
AI 数据中心建设 vs 运营成本的大体比例?
& K$ ^9 N6 i1 _' y8 e9 t1 ^$ w( X- C! F, k7 h
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。 B$ G. t1 I% n, E0 Q
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
' d) E1 i3 ~) t0 Q中国、美国、欧洲、中东的成本结构区别?
$ E7 c- } r9 R0 R( o; w4 \6 L! R! |) D7 ]& O; n
建设期:
# `; ^, d: v$ g: |中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
! q v8 p4 j* [4 W7 t. C/ x) p. a运营期:
+ c" K3 h- \4 e( N/ \电价:中东 ≈ 中国西部 < 美国平均 < 欧洲; W% }& J9 N8 y$ n* j6 T/ v
人工:中 国 ≪ 美 欧,中东居中。; k% H1 m, `' X9 X
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
/ j; E9 L: T; M
7 o3 B$ s9 c- j& T8 n: h! a对于典型 1 J/token 推理负载:- f3 \" ~! t2 A6 Z9 ]; _$ B
美国 $0.30/kWh:电费约 $0.083/M token
3 u, x1 ]7 i; u" `* W6 l& c5 H中国 0.3 元/kWh:电费约 $0.012/M token# x$ v5 ]- O- [ [' b0 K
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
4 k; f, s3 C/ \0 W/ y) J不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?5 o6 ^; r- m" l/ D9 n, I# N
& h% b3 N0 r# v3 k/ M; _在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;! y, J; a! o3 M3 n, G7 ?
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
4 |" T2 X x' Z中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|