TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
: [! K6 |, {, U# X7 ?, [$ R& E) n) N/ M0 q" Y6 x3 T B6 q3 E% o
一、总体分析框架与核心结论
4 u9 _) s1 M& H+ O; J1.1 分析框架概览' i) R7 W. p( v! {7 A: l
拆分维度
8 M* {$ I) | e# l6 P) e7 t# E
! ]) ?! E3 k3 ^& n7 X阶段:
) ^" C2 }5 w& S3 I& G建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施; e" J7 F2 E l( J: z9 z
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
5 z9 J. W+ {! o; g2 a7 R0 R7 v区域:5 V' ~ Q( }: F) }0 L9 f0 }3 z
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)) G8 G! F# J: e+ Y5 w K
技术方案:
/ u! S3 k+ u2 P) _NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)- t h4 V8 Y2 k1 \) ^
Google TPU(v5e/v5p/Trillium 等)4 L: b; {7 K8 J8 e
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
9 z( L! u+ M6 S, O& G" {算例基准8 @9 o* _0 ?. m5 f; W
, _- n, ~, }2 m/ a( R8 F1 e
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
$ p: b) i# [& h! w其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
: o! g2 n( P1 U. RPUE 假设约 1.11(高效液冷场景)[1][29]1 m! w' S: C. z3 T9 F! d! S
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]6 h2 y1 b2 M- j- ~
关键指标
$ r+ D) f, o# s/ v* {' b- H9 g9 A4 v5 p% x! g$ l
$/MW 建设成本(含/不含 IT 硬件)0 g/ v: s/ U, f. r. ~* W
$/kWh 电力成本、L/kWh 水耗/ O5 D% |: ], g0 \
$/token 或 $/百万 token 的综合成本8 C: E4 l0 {2 h! V' b7 T! s3 G
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
9 C. ~3 I" z8 B项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)) v' N) V9 s" _4 y2 l7 Y
1.2 高层结论(供决策快速参考)
) P7 s7 p2 d( }: V0 h* }. P9 }* }建设成本:AI 数据中心相对传统云数据中心成本翻倍% c, ~ L& n# s- E
( M" a# p% B6 j6 I7 m' c0 G5 `9 ^+ ~传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
2 V9 J4 I E' \+ }/ }: k2 J6 u- HAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。+ C9 r7 ]/ |7 g- A" v
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。! {9 ?) ~9 @6 U# P/ m; `1 _
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
! E. R* a$ r& `$ M/ ?
9 b3 {; Y$ Y# N+ \6 k- g中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]8 S z) ~$ ^, o2 A
美国:$8–12M/MW,400 MW 约 $4.0B[1]
1 p9 Z+ S% { i( O3 o( z! \1 Q7 h欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
4 q4 B; [6 I, w/ w: j) P中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
4 I K8 V: u& c, r. l; o5 _结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。5 E/ u) u1 v! S' I1 U
OPEX:电价与人工决定区域优势
/ X; p) [/ ~0 S# u0 I& K: v9 i1 P& s9 X
电价(2025–2026 工商业大致区间):
- i; J2 ]7 X3 h* ^. F8 o中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]4 T1 B$ U! v! o* p: R
美国:工业用电约 $0.085–0.09/kWh[44]
0 s& q X0 {* u4 S& R R' }欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
/ E( |$ {, H% f [6 v. D中东/UAE:工业用户 $0.07–0.13/kWh[47]
( z: o9 O: U6 B, b人工:0 ?# W) b- P' X* w" p
中国数据中心运维:约 $22k/人/年% [5 X2 m9 A) i" X5 ` K5 e- N9 U
美国数据中心运维:约 $120k/人/年[1]
! n! K) g1 J: j结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。2 v8 `- D% q4 \1 L, Y( ?4 d
能耗与每 token 能源成本:能效差异远大于电价差异
8 D' [# w) [3 P5 K) z! a8 Y3 y/ ?' @$ R
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
8 e& h# s- b6 z. B5 ~大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
1 b: b) I) v; f3 J7 g1 M4 ~& s" X$ Q将 token 能耗约化为统一口径:8 z' ?: g- H! s1 r' [' V
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
. ^* A9 h4 d' W+ K; c4 O( M {中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token" @1 x" m* ]0 p6 n% @" U) o
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
) ~0 _3 K# z* p. Q* i对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
4 ]8 l7 B9 j$ v8 F% g不同芯片方案的核心差异
9 E9 g$ G- `5 U! f R$ @: A0 W8 j8 l1 g
NVIDIA Blackwell/B200 & GB200 NVL72:
/ K7 b( H" `( Q6 d* K$ i单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
9 R4 x/ N4 a1 B8 \+ pGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。4 [) |- h1 @" o% g: Z, x
Google TPU v5e/v5p/Trillium:& S8 `6 K! y. |/ u2 m Q
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。7 a- j, _$ I0 e! w1 M; Z/ p
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。6 y3 W( Y5 g+ u4 I* \/ C. K
华为昇腾 910B:
+ H0 W2 \& A% G0 E, i% }. j, l- ~FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
' d# M/ ?, U# j/ N, i0 n单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。1 v2 E3 Z3 L* M- M5 f2 {
阿里平头哥真武 810E(Zhenwu PPU):
; i1 s, e6 ~1 a0 T5 g/ ?; {* ~96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
' n) U" Q' c5 C2 e( ?结论:# k! k9 Q9 o) w7 C
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
I1 D8 g& j4 R a) s9 ^* [单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
& N" ^9 O* g- W( J; B. K对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。( c M' M9 S7 g* F
自建 vs 云租的 TCO 与 token 成本
& L& i6 a5 U" d" B' Z5 L$ d% |/ J) H3 k1 S$ T: a9 D
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:) U3 T/ F% A' B6 N
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
+ k4 W' Z, q' u" \- [3 b等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
4 L6 r( \8 x+ [+ K6 s9 h, x8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。9 X( |7 ]' z$ U6 Y( ^) m: d7 y
Token 成本对比示例(LenovoPress 场景)[28]:5 j5 ]+ d" i% r( Y n8 E- u6 |4 v
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token% X5 a& k- _; k, y, J/ W8 x
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。4 c; @* A) M0 I$ ^- c
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
8 S5 D6 U5 f7 |& aLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。1 }$ r2 b% @1 f5 @1 F* y" ` x8 n
结论:
& y- A6 q5 {2 ]高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。( }" g# i6 L. ?# _: r' j( h
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
! `1 S; K' t4 O! J二、建设期成本分布:区域对比
, O7 {( Y3 _$ m: f以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。 n B+ m; r# g- L* x) ~0 `2 q
0 b; [3 U1 g7 p5 ]; T/ d+ p2.1 全球/通用结构(以 1 MW 为单位)! U4 q/ c s8 I
综合 JLL、ConstructElements 等[2][41][40]:% S( V7 Z6 H/ O. D
* ^( \# c% b! N壳体+机电(Shell & Core) w5 z0 p7 x$ o( g+ c0 M
7 n' D8 y( B! {8 d- L$ w* Q
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]6 ~1 Q2 z3 H9 f
其中按成本构成[40]:. k* C* K: D% `1 h& }) ]6 v
电力系统(变电、配电、UPS、母线等):40–50%1 \* T+ _6 R" H. f8 [% ]& M" ?
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%2 Q$ {- L, K6 H/ a0 ^9 q9 j9 k
建筑与土地、结构:约 15–20%
& i% {( E- m* Q其他(消防、安防、楼宇管理等):约 10–15%0 K7 M" c9 V( A/ q8 z
IT 内装与 AI 基础设施(不含芯片)4 d6 t) u' t& @
: R1 b* Y& O$ T) k5 C. l高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
: F0 N: C0 B9 [GPU/加速卡硬件 CAPEX9 F5 F- L i0 ^
% ?/ f. g+ P* z多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
! ~' H0 S1 I$ L$ _8 u1 S/ g2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
y* ?0 @4 c+ S" I结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):) ?5 ]* N( d4 n0 c( `
1 t) |7 P- R$ r' S" v
区域 典型建设成本(壳体+机电,$M/MW) 备注3 F5 G9 f4 G6 [/ X3 j* r! V
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]4 P% D" f; t; @6 t8 j
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]' t6 f/ ^( f! u3 @
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
& u1 I4 @5 ^1 X `+ |9 Z# q$ B中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
( s2 E z- y1 z( v/ T% G% I结论:* S8 O% \. K3 M4 d$ ]9 B
4 }3 t8 r" `: e4 W6 q- V
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。) t% o9 s+ E! b7 S
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。' P. U0 T4 q# C/ p1 u: h `/ ?( J
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)& V' o+ ^5 S- x5 Q" u( T
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
8 Q" T2 I; z, d) M4 x" B
8 u, @" L$ ]$ v$ B- i8 ]假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;7 @9 l7 v# F# o8 N
GPU 配置:
, ~& L7 @5 P. W! f+ L' s有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);) @: j q& G) N* [9 j2 [ n
每 rack 成本 ≈ $3.0–3.35M[34][69];
2 M# ]4 @- y; P4 Z! V; W# g" `" ?( ^GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。! g+ K9 u; S5 J6 ?- D" A; ?# u" k6 {
与不同区域壳体+机电组合:( Q: V# s' Q- _+ C) n! M* M
" k3 A& w' S" Y$ \9 W以中值估算:
3 n/ q. U0 f. h% f3 V7 }9 I) t$ R. P
& y3 d' B3 Z* n4 x, t. }2 E中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
. }" a9 O. W' P% H美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B' y2 Z% n: J5 O I. B( S
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
' ^/ D2 [ d& q! [# q5 n中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
+ L+ i. ?7 [2 E" Y. E' R; S1 [' |可见:% }3 }* A- t/ b; n
# q* j: {* U6 L% I' |2 }GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。" Y" _$ l5 V1 E, T9 _; o6 I
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
" y ~+ w* W' `3 _ `6 o三、运营期成本结构与区域对比
# ~& s; }% ^/ C/ Y* ?& @3.1 通用 OPEX 结构(高密 AI DC)2 n4 l2 U/ V9 I! Y* }9 }0 x! ?
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
0 c5 ^1 k$ _( p7 f! M/ `$ q- `9 F* o+ @8 }( A3 S7 K. j
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
- A9 r$ c3 r a3 h冷却与水资源:
6 i; ]$ O$ ^3 U& N能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。/ @/ T X$ x* X6 H
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
7 g- S1 ~$ _- ?$ h人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
1 h' \6 J V8 {% [4 I5 z托管/物业与维护:
# e0 _8 I* d" ~托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];: I6 z, d: c3 d+ Z* w8 `' p& E' y
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。- b. [1 o6 V9 Q
3.2 区域差异(以 400MW / 3 年期为例)
' B9 u0 D9 P6 p5 n# x% z9 h使用 ChinaTalk 的电费与人工估算[1]:- b6 R( {9 t% X$ V1 z: C+ e
( ^* |' g% R4 |5 C( O; K
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:; F$ W5 O9 H2 x/ ]0 {5 {+ r
中国:约 $0.06/kWh → 3 年电费 ≈ $350M7 ?, t' _6 L* G+ q8 N
美国:约 $0.09/kWh → 3 年电费 ≈ $600M
3 {# C% e: ?% F中东:约 $0.07–0.10/kWh → $400–550M
5 e( B+ F8 t; V) o0 b欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
/ @6 y1 K2 o9 N" B2 i水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
2 \2 q9 f4 L8 [" e$ V美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]. N) p- H0 @) n' ~
三年水费级别:. F1 } V1 z$ Q5 L# ^; P
美国:$40k+7 o0 @( k6 G9 m3 C) I6 X; n* W
中国:$20k+" i2 `# d' P& b4 j2 d
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
# J' r/ D! W- H! S- a0 C8 Z# I" h+ l d人员成本(3 年) – 假设 500 名全职运维:
% m9 X1 [& x1 N, X- _美国:500 × $120k × 3 = $180M+
9 o. A6 ]2 ^6 S& c中国:500 × $22k × 3 = $33M+
- P% R2 ^" H) f4 E6 f+ a. r差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。, S- k, ]8 S; n. U0 A; ~) f
整体 OPEX 粗算(3 年) – 400MW 场景下: q* Q# M; t& M% {/ @& ~
- U- q! z9 H$ m6 I4 g- s8 K项目 中国 美国2 j# \8 u* i1 j( ?. A
电费 $350M $600M
i9 M, ~ k/ c- S& u# }0 j水费 <$0.05M <$0.05M K' Z8 l3 W4 `5 P. F% `
人员 $33M $184M
7 U2 Y, a' [$ B2 m/ z- \其他维护/托管 同比例估算,地区差异主要体现在人工与地价 # U. F: w3 [2 r/ a) `
结论:
/ }3 t& w4 R' P; ~9 s4 Z
; F$ _5 P6 a5 i+ R8 w; ^* j2 Q就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
6 H8 F6 x7 v1 W1 D$ Q; C9 [+ U对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。9 T& i. _! s! M4 j# Y. p1 }3 Q
四、基于 token 的成本与利润推演
! ^! H, p7 z/ Y# V4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
* @, _+ a5 ~: N0 d! {9 @$ y, e6 P统一假设:9 X$ J5 a; t5 H: Q7 j) M
; H4 C8 o u2 G. j' v
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
8 ~5 U) d% I) j' B9 u1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
4 H, r2 @: p: G( S6 }+ x1 百万 token:278 Wh = 0.278 kWh! e' {( z. Y6 z8 s; N4 o5 _% m4 s @
场景 A:美国电价 $0.30/kWh2 T2 C- \8 j2 [
电费/百万 token = 0.278 kWh × $0.30/kWh
" d! s/ ~! p: O7 Y8 D. @' [( T≈ $0.0834 / 百万 token
. m* x7 O" H! r场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
0 @% k R4 x5 U4 D电费/百万 token = 0.278 kWh × $0.042
; v6 T( B }6 b! A+ l) \9 F≈ $0.0117 / 百万 token
9 m8 i2 l$ b8 T对比当前 API 价格(OpenAI 2026Q1)[62]
9 b! S. h2 l# R# o以输出侧为主(成本最敏感):
3 _0 M9 ~. ~6 r) e: o v" M
/ _. ~& d7 s" {模型 输出价 ($/百万 token)
* ^, J y# P# U1 f5 r$ AGPT‑5.2 $14
, h/ e# F' D. `) ^7 HGPT‑5.2 Pro $168) W: \5 C- _/ t6 F- A; a# h4 ?
GPT‑4.1 $8
' U- m4 P* m) M; }% rGPT‑4o $10
7 e L* `* d) iGPT‑4o mini $0.60 I. t# G) L c/ P
则:. F4 i K2 s4 T% v; d: s
# L$ F6 z& ^$ L: q! _在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。# ^6 P5 m, S9 ]* Z
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。1 `9 x* l. k2 L& y$ b; u& O
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。% Y, i* H1 H- g9 z" q
结论:
+ _9 q5 u, e7 w& ~, W即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
+ U6 ], U* s5 x; P9 H ]$ e& w0 g# L6 ^+ ?+ _& T) L
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)1 T7 g( H& E( x
以 LenovoPress 的 8×H100 Config A 为例[28]:* E `4 K/ D1 ]; H9 n5 e" Z
' L5 Y% O4 O/ ?5 z0 Z+ o5 年摊销下,8×H100 本地推理 70B 模型:
/ Y& l" i; ^" y- a( p8 P' A小时综合成本(CapEx摊销+Opex):$12.08/h- ], ~( @ \3 y) T g+ h A: E
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
4 D, z& P# r+ X0 h$ ^. L$ Z成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token& g7 j& R2 h6 V. z
电费在其中的占比:
% t+ w; e8 I6 ~) d2 D) b9 XOpex 6.37$/h 中电力+冷却约 $0.87/h[28]/ S1 `7 e* b& n$ k
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token$ _8 y: ~ {: K' Y4 X
电费占 总 token 成本 ~7% 左右。
5 d2 @" x* }- d$ ~- K若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
+ B& v; V. A$ _1 ~2 }0 y$ I$ ^若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。, r3 q5 I, l& e
5 d m( N" ^5 u3 _% ?! E7 T, b5 R2 A因此:. e# {( c( u9 J1 A" ?
" M, H6 b) G; [1 O) g1 [$ ^$ B6 U在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
% d( }( q0 S% Q. f7 Y* {在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
2 s( w. t+ e# W! b9 V" U" o- W% e五、不同芯片方案的建设与运营成本对比
% s9 h1 y# u- q/ {8 t6 A2 m$ Q5.1 NVIDIA 方案(H100/H200/B200/GB200). }3 b3 }) i0 k1 A: I& J
CAPEX:# V/ D0 P- Z# q7 c7 F: u: m
: _( s4 s5 j, O7 G8 g+ |H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
/ D* e& _7 _! r! CH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。4 W1 t% E j3 p9 [
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
7 x" j' \5 v+ t4 Z' NGB200 NVL72:
- V) _- m: }& p3 P每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。! `5 c, Q5 _3 E7 K) g6 W
冷却系统每 rack 额外 $50–56k[35]。
9 s/ |% q. S' Z5 H在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
- ~ |% i1 W* l- \4 s4 COPEX & 能效:
A0 b, B5 i" b; e, S3 |: B2 Q* ?6 Y4 Y& s: o! {
单 GPU 功耗:
; {. l+ y" f) I* t; IH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
\% |2 q! ~& y# D, L; ]H200:功耗类似或稍高,但性能/W 提升[9][10]。
H/ q( _, _8 b5 `5 _B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
u% l* Q( H# L# M$ LToken 性能:
" S) Q7 \% T+ C' k; C: oB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
; ]6 p; e% ?' k" ]( T0 ]0 `+ r* kNVIDIA 的优势:
9 I, I, I' Q# B0 x0 X/ E
5 C3 c2 Q- L5 O* P- M$ s4 F; D- _软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
3 l, K/ {: Y) j6 B但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。; c2 V' I+ W# X- g
5.2 Google TPU 方案* h$ o$ B0 {7 V+ u2 Q
CAPEX:, ~ c* b; w# R% b( {! z
. i2 ?/ l4 h5 H$ p7 e) W( F: w1 x" f单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。& t& L0 j3 ~% E* n
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
" e: \. r$ L9 m# s+ e' y' H& e8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
1 a. j2 x; w- ?0 D+ ^. S能效:
* O5 K- s) |4 o% T" ~- q4 T' Y5 [+ k: ]+ G/ ]3 |) u
TPU v5e vs H100:% ?) X! B; T2 _( q7 Z
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
* D' I3 G1 X7 D3 P测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。0 E, V, ^. `( x
新一代 Trillium/TPU v7:
1 l2 E3 ]' n e% C能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。( {/ g" F* _9 Q
Google 方案的特点:
) S' Y, [; E* t% a
+ D/ E0 S; o# V; T: f. e自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片; {# n* u/ D2 O) s+ h, |% d8 p
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。+ ^; I' a% z) u( B R
5.3 华为昇腾 910B / 910C 方案' C1 b! L7 M- q2 q
CAPEX:
4 Y3 O: Y7 C7 n; K! j8 W; y: V0 R
( d3 x. y0 p+ ~$ p$ x( O1 S/ ~# {单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。% x! c- h/ [; g& a5 U) n) H: y
与 A100 对比:
3 }" n( _# Z. A+ n' Z" a( X) lFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
# k; j7 `1 k$ X. E; ~$ H市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。5 d' ^/ Q! e" v
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。3 g0 N0 _2 e6 W, w
OPEX & 能效:( `8 N' A. s9 ~
# m% f& V6 F2 x' t5 d
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
9 L9 g/ P8 g: w. _& r6 Z* W8 {部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
?3 J; x/ ?# R9 u/ B$ i在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。9 U- F8 A1 ]$ K" T( r
5.4 平头哥真武 810E(PPU)方案% u+ X8 }. |* \
CAPEX:- E8 ^! w l4 g1 Z' U
; }! [8 j$ z, d2 ]技术参数:
7 N5 x# {( r4 z! d96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
8 i$ y" i0 n: ?% C性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
5 i# a* c! |* o" w& V! ]! @! @价格:
' V5 H' s$ G+ C( W$ e& d未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。2 |1 `" v m8 M/ |
结合国内报道:
- H1 J! `% }7 ]: B" y2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
d" G! [7 Q) G- \' G# Z1 Y数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
; \$ K2 ?' H4 _, vOPEX & 能效:
, p+ s5 G$ @ G: E. a+ c* D/ R2 B: } X7 V9 t1 P
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;3 G9 c# \, I/ n2 E
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。% j) ?8 v1 D5 r& d' E# ^' Q
六、综合比较与策略建议
4 I8 W( S; _, ^! V: _5 ] o6.1 区域维度:在哪里建 AI 数据中心?
K$ R# ~" u6 j& K" P- A/ P纯经济性(TCO/tokens)排序(假设无政策/合规约束):) K$ H7 T* o. R5 r$ N3 c, R* T
: f$ p* D& k/ d9 i) s中国西部/北部(电价低、人力低、建设成本低)+ Q9 n2 p" W* n: q4 O4 Q
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
$ W+ N1 Z4 R% U美国电价低但人工高;东海岸/加州电价上涨压力大7 |' ^* Z0 x# S2 `& w0 T. R) H
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
, h" Q$ f1 F% x V( `4 t若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
5 x" q/ Y3 }4 D) n- B
5 j$ ~6 ~6 ~& C6 q2 @: k9 v纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
+ d3 u# F% Q' A1 y$ T) E对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
8 g# C4 ]5 A( f ^6 L6 W但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
8 ?6 y& {! X1 I8 p5 Q6.2 技术栈维度:选哪家芯片/云栈?
: @ L4 d6 S. Y9 d8 K" m) w若目标是全球最优 tokens/$ 且不受出口管制:5 A- X- \2 j+ ] Z! m/ U
( E# S1 p6 i+ O: {* J2 a) `Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。6 y. H' J0 s: T
若在美国/欧洲,能自由采购 NVIDIA:
2 m6 ]# ^! [8 t1 V" H- [, o0 v& h5 |, {0 [/ j; [& s- [4 ?3 G! A) c
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:, d8 S1 o W& Z6 x- H; n
成熟的软件栈与生态,极高的 tokens/s/GPU;, r7 I) \7 N0 V4 M) u
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
6 M+ u; [4 ]+ g) u# J1 l) O但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。$ @" l, I; H8 w! m# q, f2 ?! _
若在中国或存在出口管制约束:& w# b0 l0 `% u2 a3 ]' V3 E/ a
/ {) X8 _6 l- Z. q5 w昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:0 {" l' P' S) p' H% n) r
性能上已能覆盖大部分 GPT‑4 类推理需求;
) F0 I/ @0 h4 R5 u* }) B单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
5 e7 [$ N$ Y* D+ Y! D软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;# Z% }5 d2 J9 a! ~: @
建议配合:
3 c/ _) ^9 C, u- K7 I高效液冷(PUE~1.1)、
. V, X0 V: C, Y4 h& s大 batch、路由(浅层任务走小模型/低成本芯片)、# G4 x5 Q" X! I+ T" w: G$ g2 F
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
0 K; n4 \! }1 V! A& G7 H; i4 O9 g( g长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
3 K( [# Z: F: L d6 [
! O* h( d" f. q数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];: b) v9 ?! _1 [
这意味着:
1 \- Y- L1 e9 L0 ?6 B& ^优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片); x4 A2 O% U. a2 a
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。8 V6 G% t% a$ K4 O/ S: Z8 j
6.3 针对你关心的具体问题的简要回答
8 f$ r( z" u4 }5 q+ WAI 数据中心建设 vs 运营成本的大体比例?
7 i, M8 Y3 B- t3 j+ U: g* Z, d9 r9 L
) T9 g& Q) S: v5 B9 |* G6 l( F在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。$ g: G4 b$ P$ Y
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。5 L5 G, \0 a! `% O% o
中国、美国、欧洲、中东的成本结构区别?1 V2 ^3 d" n/ m% ] B
: U! n# q; X& B$ J) }5 K* [建设期:% w |& e4 \5 b; H
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。2 j) v' H* k- h4 R, n
运营期:
% Y' ?8 D$ e; P# o5 n' k! B. ~4 E电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
5 ?, y1 k8 l: t; C! q人工:中 国 ≪ 美 欧,中东居中。
/ v% O i7 b9 f* V在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
, F2 X( s* T3 X- w
% c" I6 y2 m: r! j% g对于典型 1 J/token 推理负载:2 S# p5 A8 w" E
美国 $0.30/kWh:电费约 $0.083/M token+ z( Q% R+ E% w) D+ z# C
中国 0.3 元/kWh:电费约 $0.012/M token
0 c$ g$ [; c" n/ i' I对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。! {% L3 i# l% i3 c$ k0 x! j3 l+ E
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
) e# d/ I* l* R& ~9 m- S" l* k- O2 `( L* A. t& _+ p" ^! b
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
' K! i0 C" k3 H$ V0 s8 U/ K全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
' ]0 E$ h6 y& U! E, q中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|