TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
" R9 | E: D. J( Y H. ]! ]
$ p7 R+ q2 e* k5 U, I# n一、总体分析框架与核心结论
2 |5 {% X, @0 S7 c# K1 w7 a/ x' o- O7 l3 L1.1 分析框架概览( d; B9 P( X& R
拆分维度
* R* I. u% ~; L" C+ H, P
+ H$ E5 q/ s0 M2 e! s阶段:% j1 t, h. |8 f, B
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
6 z! E& K5 n/ _# Y- L6 o运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
. V. X2 b# u; b7 A区域:
* G' N& E" q |' k中国、美国、欧洲、中东(以海湾地区/UAE 为代表). U) g- C' H/ s& r
技术方案:
* |+ R) |$ {. V, X- [9 l% lNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)4 W: R4 |" h7 b# {* V; ?
Google TPU(v5e/v5p/Trillium 等)/ g. {/ N& j9 @
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
$ E0 R+ d9 h$ l5 M算例基准; z$ b0 ~! P+ r# O5 o' O. c
! F* Y6 }- x6 m8 N) }$ j
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
L8 C$ i3 f* {' C' F& z其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW' z2 U4 L5 n% @/ A5 P
PUE 假设约 1.11(高效液冷场景)[1][29]/ H) o7 l, u/ H* ]9 h
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]' z/ [) Z# N7 R+ s1 p) B5 q
关键指标
9 s: V) R3 c5 L: b% W% k/ Y; v1 @; K4 M. H# z
$/MW 建设成本(含/不含 IT 硬件)$ m% h# T0 D) c8 k8 d" @9 U8 B$ C0 k
$/kWh 电力成本、L/kWh 水耗
: }6 q' y& I: n5 P$/token 或 $/百万 token 的综合成本& V3 L( b7 ?5 p! A. v9 N* \& f
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
+ |) h5 M9 t1 O项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)$ k3 m% B% \% p* }
1.2 高层结论(供决策快速参考)
- w: P: f, b8 @ a6 ?建设成本:AI 数据中心相对传统云数据中心成本翻倍
+ t2 h. \: ]% W7 @
" g- T1 G2 _4 [ _传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
+ }- f" v y! Z7 ]$ u9 {AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。7 ^# c" A& T* J+ ~* p% }
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。 }8 G0 J& m: f& z3 {
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
2 u5 W8 a l: l0 R! K. C5 {# Z# x8 \+ e
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]$ y5 R' g0 P, g& Q5 y2 j" Y
美国:$8–12M/MW,400 MW 约 $4.0B[1]
+ g% z3 W/ Q5 m, m: `欧洲:接近全球平均 $10.7–11.3M/MW[2][41]; x3 J" q: s* ?* A' V
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
% m& D( K& e7 x/ W结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。3 Q7 L. {9 l) W+ r, O
OPEX:电价与人工决定区域优势
# D7 v3 f9 V- R# N9 K( L; h T* {3 U9 Q2 N6 @! u" ]! A/ B- Y" b
电价(2025–2026 工商业大致区间):
) h x- n: Y/ m) \中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]# h8 A% n% h7 _. \% J
美国:工业用电约 $0.085–0.09/kWh[44]
' Z+ e5 u; ?8 \7 g* g* J; y" h欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]; ^1 E* s7 J* t* i h
中东/UAE:工业用户 $0.07–0.13/kWh[47]
( ?0 L. O O8 Z8 x' Z3 @ c$ [3 b人工:
& ?8 w+ o, p$ L- M7 A- j2 }中国数据中心运维:约 $22k/人/年
1 {. D1 B/ O1 ?7 P) V2 k2 M美国数据中心运维:约 $120k/人/年[1]
+ D/ l2 `6 v) ^8 C$ b- {结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
6 R+ `, L, L$ k/ F& S; j能耗与每 token 能源成本:能效差异远大于电价差异 [9 [9 _1 F$ y: m4 i- Z
( e9 P0 _3 s4 n, XIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。/ f: I) j2 L' i- S8 w
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
$ j/ D2 X+ B+ T将 token 能耗约化为统一口径:$ q1 c6 k7 ~+ C# Y
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
8 j7 a" M3 S4 {! _3 \中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token7 O, y1 y- T3 ]+ f
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token/ j( X3 q `7 U0 j \
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。, W' O" y) z W
不同芯片方案的核心差异# s1 [" q3 Y- K
7 I* {+ ~/ ^/ Y" P( g% f
NVIDIA Blackwell/B200 & GB200 NVL72:+ }* E* J$ q. }9 b' s; k
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
3 j, x! o: U2 m2 c$ P' d0 ~GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。7 {0 z" r1 b! G6 }
Google TPU v5e/v5p/Trillium:
9 z" |) x J1 l% KTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。7 F* e8 n6 W4 I( L' h; H3 A1 D
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
( V: M+ U: U& u, y华为昇腾 910B:' l4 ]* K$ C9 H. h& W
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。0 e, F% \7 ]5 b1 Z& R
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。9 A$ a4 U! c/ c* y( U. c5 |( C- h
阿里平头哥真武 810E(Zhenwu PPU):
1 W" L4 M8 s0 v2 ^* l- v: v2 V4 L7 p4 \96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
3 {+ u- r/ ?" w, _) f7 \( v, O+ V结论:* z. y3 c( E) q7 Y8 ]! ]. M) R
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。* k# R! Z8 c) V. \$ |5 e/ I
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
f5 ]" a2 Z7 r: |对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。1 \- R! x, z0 \9 R
自建 vs 云租的 TCO 与 token 成本1 \# t4 e/ g' r9 a- n0 J% W$ Y
. T1 }: T. n2 t8 f" m6 l% M; h
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:" a( t/ } `4 ^! i' N/ Q# O( S' d
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
+ W5 J, N5 B/ Y9 n/ D7 M. Z等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。1 v, T$ k' _2 h: \! R& t9 O
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。1 Y: R4 b9 V# b8 L* c$ i: W) u4 v9 O/ U
Token 成本对比示例(LenovoPress 场景)[28]:# o2 M% v& V6 [; H. S0 {
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token, c6 b! L9 s7 m r7 ~$ U0 {
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
8 [6 @$ r- n0 w7 O# ?同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
, P) G! Q6 O! P4 N# JLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。7 w+ O1 x4 `* m& N) \. n7 g
结论:7 O/ ^9 c6 K% o6 V& i J6 c
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。6 s8 n5 Q$ s8 s( D: A6 D
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。9 w4 \, w) y3 z1 h2 d% ~. c
二、建设期成本分布:区域对比) i& `* H) u, A# b9 {
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。$ @) A5 O# d1 k5 L; W# e
$ s- Y/ d5 P* t2 [2 {+ G
2.1 全球/通用结构(以 1 MW 为单位)
) X9 K/ G/ {% n+ q综合 JLL、ConstructElements 等[2][41][40]:
: H8 ^9 w% t9 w, X- [/ Q: j% z
+ ]7 O& w# ^5 Z3 E6 q" ~壳体+机电(Shell & Core)
^( H$ |( l1 D" w
5 d$ N s! p+ m0 _* V1 Y3 P全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]/ F! F3 K$ D& I, @ i
其中按成本构成[40]:/ Q$ q9 l+ |5 D/ N2 A1 y" s
电力系统(变电、配电、UPS、母线等):40–50%4 _" T; z3 m) |
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
- Q5 k; t7 z, b建筑与土地、结构:约 15–20%
, N8 @; \5 M9 p6 u( a7 _; c- |2 \其他(消防、安防、楼宇管理等):约 10–15%/ t7 y6 }0 {+ Y, r7 Y3 W* w5 ]
IT 内装与 AI 基础设施(不含芯片)
* J$ T. ]6 X$ ^- v# p: l
. q- \2 v" g. G1 i* q. p高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。7 b+ z8 ]6 e( P5 a: }
GPU/加速卡硬件 CAPEX
' y2 g3 Q0 C! E: I
2 Y# E/ P2 [) U z' U多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
1 C8 A. J: l4 ]2 r2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX* e7 ?) @, q" ~2 S: h3 c- i
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
- N- Z" \2 N1 [3 w- O/ w0 l; {+ ~+ Z& @& }
区域 典型建设成本(壳体+机电,$M/MW) 备注
5 K, Q( z# _/ f& W* Z" G9 B: c& j中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
, M& g6 U3 _" {7 ^* g T美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
, \, @: ]* e4 q欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]: N0 a2 ~* L3 [0 A6 s4 I3 ~3 e
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
# H& j+ j6 L- i V5 v结论:
8 d, S3 T+ c3 [0 g
5 p' c4 x: \8 ]5 K+ w单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。# N" B9 K; k- H# Q
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。/ O" T( _: D3 F E; w9 E5 u0 U
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
7 g6 G4 Q( P+ Q0 u) @以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
: x" v+ O. j9 R* ?5 G
- h7 m1 z9 z/ s* v v9 }( O假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
0 m$ Y; l. Q( s8 CGPU 配置:
' ?1 b! }( Y" y- a5 l% H+ O' k8 O# R有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
# |1 k+ k; k/ q+ Y1 R$ a每 rack 成本 ≈ $3.0–3.35M[34][69];
* u# g S. q9 a# p0 _2 w) L; FGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
F B8 l; N' J与不同区域壳体+机电组合:
" B& i1 f/ ?' \, W' m- M" j" y2 U9 U- ^% A& E& H1 d' n
以中值估算: ?3 B, [' F, o+ D g& p0 X
4 n9 s3 {; T) }0 Y
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B' ?- P# `0 Q+ m1 ?% U7 _3 `3 x
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
3 S2 D' W: W( g8 Q( |( c f欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B+ n& e0 {) C& \2 { t, u. Q
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B8 P: t* `, |7 Q" b5 w
可见:
! T$ d1 s4 t0 q4 u+ s
. X$ O- M3 H3 p& R; \7 _GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
5 i* s% @( ?7 F/ U# q相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
B+ ^+ x( k4 ?! `三、运营期成本结构与区域对比: C2 {+ p7 Y' I+ ~
3.1 通用 OPEX 结构(高密 AI DC)
: l! a7 R( d- F9 R: w结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:, i! Z) B* t; Y4 }$ n) P) w2 M9 B& j; ^
4 k8 C5 I4 R9 p; m& h电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。; q: b! A; v6 V n
冷却与水资源:+ R1 l# I+ W7 ?2 x, V2 P6 J8 I0 S
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
& W7 t) c# p- q; x水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
, T4 {# X/ l3 a( }1 a r$ ?人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。# ~) ]6 y3 t# [6 j* {& \. y7 Q
托管/物业与维护:
" I( }! G F/ K托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
: g P% c2 \+ }* V9 `; ?硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
8 v! ^! i" Z/ A3 Q3.2 区域差异(以 400MW / 3 年期为例)
- c4 ~. C6 K3 y( h: K0 j使用 ChinaTalk 的电费与人工估算[1]:
6 a$ G% ^ s$ P$ n$ G' c# d( a$ ~3 r. U# n
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
) g# o" |& K4 X' R8 Z) B4 y中国:约 $0.06/kWh → 3 年电费 ≈ $350M/ o8 f, }& U6 j& Z7 {) V5 q
美国:约 $0.09/kWh → 3 年电费 ≈ $600M0 G* `; x. f' a; [9 G; v
中东:约 $0.07–0.10/kWh → $400–550M
: M4 L+ W& ]4 n2 A+ U欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
. X4 R- U# O L, X m水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:) o( b" o" c4 p, ^0 p
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
, T3 e/ H1 E4 i/ i" @三年水费级别:% B3 W# p3 l) Z" d$ @1 o
美国:$40k+
/ }& M: Q$ J2 E8 i3 V5 I- ]- u中国:$20k+
) v9 r5 }6 J- U4 ^; T9 ]2 u X& S结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。% ]( N. ~2 e' R' L& `0 I
人员成本(3 年) – 假设 500 名全职运维:: j$ \# W1 l& f8 z
美国:500 × $120k × 3 = $180M+
% J6 i1 N* |; _6 g" ?/ m. D: t. u中国:500 × $22k × 3 = $33M+! k8 |- b, C; N" {& h9 K
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。* D/ G& a5 b: C
整体 OPEX 粗算(3 年) – 400MW 场景下:6 c1 W! {) C, K' U7 l0 V0 W+ n3 N
. a, i3 Q0 W6 C, e7 O9 W: m3 d1 W$ G
项目 中国 美国5 [! d" `3 L3 D
电费 $350M $600M
$ Y! a6 N1 D2 [/ x% A$ M/ C水费 <$0.05M <$0.05M( ], X: }0 h; P) a" [
人员 $33M $184M
8 Z! |0 ]8 V4 N5 N+ r0 p- g- J' D其他维护/托管 同比例估算,地区差异主要体现在人工与地价 ) H2 i& ^! u |8 X: M3 Z. O" k( O! {
结论:+ _; t; q) B4 d
& H- |% k' `4 L5 q9 b9 a
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
9 @ N$ d* _: L$ U& F. ?6 P对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。" k/ h7 H- G* |7 C
四、基于 token 的成本与利润推演
7 V; r& t* [* `) G. x4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元); x- [% C2 D5 G8 d3 @" r
统一假设:
% D' m* K( ?! a. B3 G* F
0 y7 K. T& d# u8 `* G' c1 X5 u典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])" \$ r" }# j4 M
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
2 b- a4 X* w6 u" h" a, {1 百万 token:278 Wh = 0.278 kWh
/ c* K, n8 i: [- g9 I- U" P场景 A:美国电价 $0.30/kWh" F5 D; ?. @6 T* O6 X
电费/百万 token = 0.278 kWh × $0.30/kWh: I k0 Y1 g1 | n+ @' w9 [7 m7 z. t
≈ $0.0834 / 百万 token
) M9 m; Y0 M+ P$ B4 J场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh; }: J( \ g* x" V s9 I
电费/百万 token = 0.278 kWh × $0.042 ?& b6 J+ j( F% c6 K
≈ $0.0117 / 百万 token
6 Q R. H! b( |: [) l$ _' A3 \对比当前 API 价格(OpenAI 2026Q1)[62]
, f/ A$ o0 q5 f8 }& j以输出侧为主(成本最敏感):! r2 I: H: e5 J( P8 x" m
' O. [) U p. A+ o* H& O) G& D
模型 输出价 ($/百万 token)
: {3 }; x) `1 E: z) j) YGPT‑5.2 $14; ~3 R2 i9 K/ B/ b5 W
GPT‑5.2 Pro $168
, v0 o; w" B8 C; d7 B* e: TGPT‑4.1 $8" l2 z G6 A# b1 H. s
GPT‑4o $108 ?' J5 Z# f- B' w0 w% B$ w X4 Q
GPT‑4o mini $0.60 T: l3 c$ Q) O4 H6 s" ?) C
则:
/ n+ F, E% Z% {8 f
: P( K' [' Z9 `* \在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。, l/ N& u% |+ u* Z { g
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。+ A4 A( }7 {9 k0 |8 ~/ T; M" G
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
& `$ I I& G( o- N' z结论:
, g. W4 }( p9 d6 ?% ^! a1 r. r- T即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
+ h& d4 }; _' v: I- h3 Z Z
4 U# y: B- b% \7 v( j$ L4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)6 v# ~8 z) r5 O6 D
以 LenovoPress 的 8×H100 Config A 为例[28]:
+ S8 p: b( f" N; k5 [; L+ ^# l2 W
d- Z2 B' Q; G0 w2 W; w) V( f: t5 年摊销下,8×H100 本地推理 70B 模型:6 B2 y* ?$ y5 E4 a) f* j4 Q
小时综合成本(CapEx摊销+Opex):$12.08/h3 E% w* Y. T5 ^% `0 A% ~
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens0 r! o+ o1 H) m7 [9 p- u
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
' B# s- H; @4 j' Q电费在其中的占比:( ]9 }" q) z7 f) ^ h5 o
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
/ J: d; L& B/ u2 X9 h( ?% b% c! c电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
: ?% W7 x6 H2 S& m& ?% y8 b电费占 总 token 成本 ~7% 左右。
3 ^+ j1 j2 l9 [1 H8 b0 w若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
% `; q8 l% `# m* i6 }' v& R若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
2 R* l1 Q/ D9 U) n( M w5 X
( u4 ]$ K# N3 q3 Y因此:. Y0 Y, ?0 a' I8 _: H; Y1 N
) c9 g/ O6 \3 b: Q在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
t1 K4 M2 R" Q) G& J5 B在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。5 ]8 \+ S- E2 b
五、不同芯片方案的建设与运营成本对比& Z+ i/ I% u5 T( h8 B
5.1 NVIDIA 方案(H100/H200/B200/GB200)
0 V2 I1 ]) F. f$ b0 N4 }5 ]* |: lCAPEX:& Q/ o) J! C+ L5 t
1 K8 v H& K7 J! T8 \H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
: B4 m3 p8 i- o. h7 BH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。# Y) r) C' Z4 f0 L* S& C
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
. ?2 p% P: r0 X8 R5 Z9 EGB200 NVL72:+ K3 F4 T4 A, ]: g0 [0 |
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。+ f- w3 e/ m1 P. m. ]
冷却系统每 rack 额外 $50–56k[35]。
. D) L/ y4 G2 p1 V在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。. I7 Q+ n1 ^+ U: ^: m, N
OPEX & 能效:
t6 o6 G) r* V, \0 A$ g# E" H. f% d9 i$ e6 S# k% e O
单 GPU 功耗:: g: P" ]" N$ E2 t- x Y
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。% O# b: i+ e+ x( G @' C( g. d
H200:功耗类似或稍高,但性能/W 提升[9][10]。
! g' }5 r5 K3 H6 R" JB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
3 g S: c5 @, j) }6 b7 w5 xToken 性能:
* D8 D t, B4 H4 LB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。9 U5 s) s2 g& F8 D& e7 V8 W! @* `2 w
NVIDIA 的优势:
5 ^( c* a) O- w9 q+ j
6 W4 _# @& \% d Q2 h3 ?软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。7 E- u. O$ c+ Z8 X1 f
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
, a- z$ g& Z0 s+ [8 P0 N5.2 Google TPU 方案) S0 _ x4 D2 d
CAPEX:
* c6 q i5 c+ M& u1 H- I
" H! N% Y3 q$ J0 ^; h单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
# T0 `& F2 H8 Z. k0 Y% _; tGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。7 P. J, R* d: A R4 W& K2 m
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
) D$ \; v9 o. Y2 v/ N& `能效:
% ?/ e. H- s( [9 ?4 Y w. D1 H8 A
. ?5 @/ ]7 r! J1 X7 T+ H9 YTPU v5e vs H100:7 }9 |+ O! X K: b$ G) {* H
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。# v/ K+ ]) G9 v* e, m$ Z. e
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。 s& N0 ^. ^0 |& {! @. J8 i
新一代 Trillium/TPU v7:
7 E: S$ m; P) l+ n能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
. B, i5 M+ d4 Y/ F# w; `# WGoogle 方案的特点:. _% p1 i# j' a/ s) |
, `3 z4 Q; H: K2 d, x! ^
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;* U o8 v+ G- G1 u: U9 P* E
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。0 @# q v5 g5 {; `4 \
5.3 华为昇腾 910B / 910C 方案# q- ?( x3 I! u
CAPEX:
( o, @! o7 Z/ D+ F' \# a2 a4 \3 t! }" }. C3 F$ `6 z6 y
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。% @) T, x* Q+ }' g
与 A100 对比:0 V0 B7 k& h0 S
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。7 M9 u, E: M6 T# |! p+ i& h, O
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
0 \5 E ~. F' j, @使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。) [3 l3 l" _% ?' t4 j/ x# r
OPEX & 能效:7 I9 E. A, @9 J" ?9 o
1 ]) h8 H: ], W: A8 g
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
% U/ y d% _0 |$ `- F: U: K部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
! E. U# G$ t% E6 e, S在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。5 |: a8 ^9 M3 i; [2 m0 n
5.4 平头哥真武 810E(PPU)方案5 c" Z5 R& R) `& W! t% J: W. k
CAPEX:+ D+ d2 R9 X! a
* m9 l. N: ^7 n4 f! B- ^
技术参数:! v3 @. R7 b* U3 A H$ @ r
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。2 s: Z# X3 A$ d1 l
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
$ E0 B& c1 |/ j+ F$ m价格:% i7 w8 `0 h5 G: F* l& v
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。! L) Z. C3 U! \' U! ?, e
结合国内报道:
' P2 y5 b/ o( R4 d5 I" I. U0 D5 x2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。( }# y d# q3 Q W, w
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。( {, @/ b4 g% B
OPEX & 能效:
/ S) h9 j5 D& Q) O0 r2 G- S0 U2 Z$ L ^, y, F" T
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
& `. m. j4 r) C+ E6 K# O- |, t: _4 X! s在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。1 M$ P" R# A# B5 D& d9 ~* y# }
六、综合比较与策略建议9 P Y- C& |, b
6.1 区域维度:在哪里建 AI 数据中心?
5 L+ b3 x' k8 V/ o! m纯经济性(TCO/tokens)排序(假设无政策/合规约束):8 A9 ^. q$ b H5 g. W
4 B' _) H+ A$ a4 F4 a: q# Q1 ~# Q中国西部/北部(电价低、人力低、建设成本低)( K1 l1 i4 T+ l' N
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)" ^9 V" o, G$ s& ^
美国电价低但人工高;东海岸/加州电价上涨压力大
4 Q+ ~) ^' p) g8 {: Q9 X: A& x欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求- q) t) r0 N: T* E2 d3 C! P
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:2 U) h. ^2 b6 u( D1 X7 l1 w
1 M; n$ W4 x# w6 a1 F
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
! r/ n! |& f N# X对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
9 a$ Z. c) a b, e4 i/ Y但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
& D8 q2 W# t# u$ R6.2 技术栈维度:选哪家芯片/云栈?3 Y$ i6 o* ^- \" j* y0 i3 @
若目标是全球最优 tokens/$ 且不受出口管制:
8 O/ g0 b7 b$ ]+ V7 E& ]0 }$ r& v4 T6 l6 R7 o( V
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。1 `2 x9 x9 w' d5 x1 R
若在美国/欧洲,能自由采购 NVIDIA:
4 q; u8 a' [9 j" ]" r+ q0 Q
) u6 z) T5 H) z- U- b: ^2 O1 ]短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
/ O: w. a. g$ D8 s4 m5 F! \$ L# ]成熟的软件栈与生态,极高的 tokens/s/GPU;% Z6 S# j$ ~5 [/ ?& v4 E' E
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
/ @: Q& H+ I7 n; u+ q' L4 K但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
& s C7 @, h/ b- F# i# l9 `若在中国或存在出口管制约束:
7 v" ~( o( N. M. ~* }! h
) x. s; d! e0 g昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:, A1 {! J* e0 x# _9 i
性能上已能覆盖大部分 GPT‑4 类推理需求;1 T4 Y3 O: @% u- _) J8 g
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
. J3 H7 ?: j s9 o软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;: H8 k, K% p8 i& ?) o
建议配合:
3 V) ^$ x- W, W: n u* L5 K高效液冷(PUE~1.1)、4 X3 Y- t. F' t! J' B W. _
大 batch、路由(浅层任务走小模型/低成本芯片)、
, ~% {2 K7 @, @$ x, t' A强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。 Y2 Y8 r' w1 Q# _7 z2 k
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:0 b% g9 m3 r+ W: @4 K
2 x0 J" A% ^6 D8 q' ]( [" B' h数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];2 r+ }3 j% {8 ~: X, S; I; n
这意味着:0 n5 e4 x3 c$ B: y
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
) k& i: |# b+ j) \* K" W( \精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
. k5 o, T' B$ M9 G& _) M6.3 针对你关心的具体问题的简要回答1 k! `1 ]; R3 j! S& n
AI 数据中心建设 vs 运营成本的大体比例?: M. w: w( O% H
2 N) \( z/ A F! Z) C在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。( j+ x. J; h- W* z/ x: H$ s
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。4 b" N1 R+ S4 c$ H% D9 Y* l. L9 J- t
中国、美国、欧洲、中东的成本结构区别?2 v" L/ O. Z0 X! ~
8 l! F$ `9 l( Y& Y+ \% T. B建设期:& c; |5 z: I) I) `
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。$ x" [& w/ D/ i6 O/ F# p
运营期:$ }$ I6 t. x& N3 _# B& j; P: S
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
" _& m7 Z7 P' a3 r3 I# b人工:中 国 ≪ 美 欧,中东居中。
- \( S$ v: z" F4 p# i在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?( e2 y/ i! X. j
9 S8 Q0 B, {7 w1 \4 Q对于典型 1 J/token 推理负载:
! K( L( S6 }' Y9 ]& s8 }* _6 W+ k美国 $0.30/kWh:电费约 $0.083/M token
/ V6 h) H, [2 p9 t" ?8 [/ ^中国 0.3 元/kWh:电费约 $0.012/M token$ |2 \$ @/ o- m: B6 ?
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
) P+ n" c! c L# n3 o, u) ~' n不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?" W. D/ F$ G0 ?6 o
: a7 W: f9 O* T! V
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;& Y" I1 F, t8 P% L9 O+ k3 }
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;. S3 P9 f+ ^$ }) m' B8 D; u- T9 O, G
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|