TA的每日心情 | 怒 2025-8-7 11:56 |
|---|
签到天数: 1132 天 [LV.10]大乘
|
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:4 o! h" p% |" @
& \' T, |/ D2 l6 i一、总体分析框架与核心结论! |& r$ l4 j. L% J4 {; g* H
1.1 分析框架概览6 {0 o3 o y4 ^4 X. i. I
拆分维度
5 U) j- _+ O8 W( f2 v' s8 Z& Y
( l5 k& e8 Q2 r阶段:
% M9 W, a" a7 k$ }7 l0 H* y建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
& V+ H; Q0 c3 Z$ H% l( O6 L运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等& T4 F: _ s: S9 W
区域:& Q. v6 ?6 R& B( ?
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
0 L8 i+ O. c8 t) i4 C4 h( u技术方案:) Q/ R: @. }9 q# l, G& y' {$ B) v' G
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
* |: l, e8 v8 c& a; ]+ E7 F* qGoogle TPU(v5e/v5p/Trillium 等)) o" f& D" x R
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
2 O# x+ I# v" k2 z2 s4 ^算例基准
% p: U" Y2 k( l; E+ \) ^# T j7 z) V( s
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
+ f7 ~! H* R$ h" v, h& K其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW) o) h3 f' U( _1 o5 Z
PUE 假设约 1.11(高效液冷场景)[1][29]6 x P6 F# [* E' O7 c. u
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
: |9 i b% V0 ~5 M1 o. F关键指标
7 Q1 P! a$ Z `# F, [$ ?, D6 \9 X
7 c& V( F6 }7 g+ b$/MW 建设成本(含/不含 IT 硬件): [& n( u2 i4 s3 i; y# B7 l
$/kWh 电力成本、L/kWh 水耗
+ ]) B* [% U# p: ~ v$/token 或 $/百万 token 的综合成本
1 M* a, J d& Y& m$ j J# gToken-per-watt / Joule-per-token 作为能效基准[17][18][26]
1 ]8 l. w# n, l项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)# [9 d8 A% U: u( ?+ [
1.2 高层结论(供决策快速参考): u( ?6 l/ \4 a7 m I
建设成本:AI 数据中心相对传统云数据中心成本翻倍
# u, f. [' O7 C' D) j! r* S* j
0 u( j9 W% N9 g" a' j( \传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
. u2 W) s$ H Z9 o: [2 H1 aAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。! m2 b" Z7 c3 r+ s( |5 h
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。0 q! S: {! @! r( ~
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
! D4 b6 i0 h# E% c% a- f# I% W1 p) O# f. p: o: ]5 [+ W
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]) c1 R, S" ~6 q! f( S
美国:$8–12M/MW,400 MW 约 $4.0B[1]
: K; t8 I+ x$ e( T欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
4 y* y% \4 t$ b- a3 Q" R中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
- v' J3 { y3 r4 Q% l' {+ N) b结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。1 _+ k& D1 c1 `/ c
OPEX:电价与人工决定区域优势4 @- M$ ^4 G; ]; `
2 l+ f" n' X+ b6 S# p2 }
电价(2025–2026 工商业大致区间):
8 W r f2 Z1 E4 b8 d中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]# t* a" ^- c. o' T7 R/ d& ?& E, E
美国:工业用电约 $0.085–0.09/kWh[44]: ?7 m/ E/ S& ]) J" j1 ]
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
* S! {2 ^4 Q1 a8 G* R中东/UAE:工业用户 $0.07–0.13/kWh[47]4 p+ ^, N9 ~$ P8 M4 k$ m# t
人工:9 k" D" [# ~2 E3 U! e# O' w: d7 ]
中国数据中心运维:约 $22k/人/年, F. l* ~" ` @- O
美国数据中心运维:约 $120k/人/年[1]
( h, p0 u% ~' v' ]3 z) ^3 p结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
: f9 L6 ~( \. Q' u& C$ H2 L能耗与每 token 能源成本:能效差异远大于电价差异, j& ]$ e/ _0 v% E
, S* l# C# s8 d3 b: T- c
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
h0 ` Z% r& u+ ~4 W+ n大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
; y' a F- l5 g O" Y将 token 能耗约化为统一口径:
3 i% l0 N) L: w5 z! W粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:- p, r& K! N% R; W
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
9 Y; v' L1 }+ J( l2 J美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
9 ` H& z% T. I: ~% M对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。& p8 x( c: V3 s8 j" {
不同芯片方案的核心差异
, c& Y/ W# s4 M% g" s; `
3 } w' ^- e* o2 pNVIDIA Blackwell/B200 & GB200 NVL72:
?; Y5 j7 q$ ~9 O" _4 V单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。- ?& _2 t( Q! x7 j
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。+ a0 U7 F' T" J5 @1 T+ h
Google TPU v5e/v5p/Trillium:+ O% A. t0 ?. T' }' K; h$ f& o
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
3 p9 {# _2 d5 ]1 L, R7 I2 _Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。 K! b+ O3 }$ C/ H; D7 j. Z
华为昇腾 910B:6 e; ~, z, [; p- ]
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。' ~% r& t2 D: r; c) S
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
* B& a6 \0 z i3 S阿里平头哥真武 810E(Zhenwu PPU):% q5 l$ K1 r" N! Q9 J3 u& m" P) }% u
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
, Z" H J: U4 B3 B% B8 m2 j, ], v结论:
9 C3 k+ D- b+ s& t1 H能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
6 P+ v) X4 k! f! a2 Y单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。( N) C. o! k$ Q( g4 l
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。, K5 o% N3 x# L- \
自建 vs 云租的 TCO 与 token 成本
8 ? y5 V& S. b. Z7 I4 _
$ T, {7 _. {6 `. ?4 z& BLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
# Y# O) O$ Z. w0 Q) v8×B300(Config D)自建 5 年 TCO ≈ $1.01M;1 p3 n0 L- O7 Y
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。7 v ]7 { k0 C" C& ~! ^
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
; y% f4 M; |. l% k! lToken 成本对比示例(LenovoPress 场景)[28]:
$ g# c" x$ {+ E, ]1 Y: U1 l! vLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
* H0 p5 i; c7 x8 P3 c9 ?& Vvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
7 z4 @! ~; G6 g5 c同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。7 t" \" ]0 [( b
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
4 c1 i6 Q h+ b. h- r3 I* R% d' r5 f结论:
P/ v0 o$ L& O& z高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。+ p7 Q3 Y% U. n0 F
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。. F+ ]# t: p: D; ?8 v
二、建设期成本分布:区域对比
! A. n3 y5 q* w0 G k0 r9 I6 N以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。2 G1 A" o/ r3 l( q- k
3 L8 o1 T/ ?+ t* h7 T8 o' Y* S2.1 全球/通用结构(以 1 MW 为单位)
2 }8 p0 {" i# I6 ^综合 JLL、ConstructElements 等[2][41][40]:
+ x4 y! ~/ @2 x9 u* C" h" M- @; p5 Q
0 O1 J" F d/ [+ k壳体+机电(Shell & Core)
6 `( u9 k; J9 I# X8 O
% w. j/ L6 J! W n- J2 j全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]8 _8 }1 |: }, w ^' p
其中按成本构成[40]:
! t3 n: @9 b, N* E' ^ _电力系统(变电、配电、UPS、母线等):40–50%9 |. a: M( {7 w; w! o
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%- m* _: N5 c% C- O+ B& T* R
建筑与土地、结构:约 15–20%
1 x ?+ z/ Q% l其他(消防、安防、楼宇管理等):约 10–15%: {1 u3 f( R& w1 {7 A
IT 内装与 AI 基础设施(不含芯片)4 z7 ?7 a. u. o0 q
5 V7 X# t+ \" Q5 s( ?1 a4 A3 _6 t高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
. G9 E& G8 j0 b) y! VGPU/加速卡硬件 CAPEX
0 w% e, D( Z0 s" Z& ?. e& v K+ ~; o3 ^3 q; F$ F
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。$ Y/ Z+ s* p) f4 z7 F2 P( G
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
* n* j9 F/ u- `9 i- [. y6 ]结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):3 p ^, z0 q5 {8 _' h/ v
. L# {2 m) s, t: v" ]
区域 典型建设成本(壳体+机电,$M/MW) 备注* |1 S( j% d- U, t( F' F# A, N
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]* M: h7 ?+ {; D2 {5 O! v, r
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
/ ~0 y8 o0 V$ J w6 x5 R, N欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]$ G0 M' n: V& w+ P8 G" b Y/ v
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
+ }2 A3 n/ K1 D5 J4 i7 C结论:
% a9 K/ _1 B- [+ p/ j$ Q
7 o8 j) ^" {0 N. P2 V6 d单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。2 \- w" S( y% Y. i2 N' }
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。& \- D; q9 R9 w
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
/ L4 ? F# L1 n" f- m6 y k以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]: t, w3 D, x7 F# [& o
' V) u1 C5 [ D5 D; c# E
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;) S1 j# |3 l$ z% O" F
GPU 配置:4 N( u, g( b0 }) G' F
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);) z* h" R! Y( [. j! P4 b" Q/ R
每 rack 成本 ≈ $3.0–3.35M[34][69];* B( j. k0 A0 X1 W% ?. F0 _
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。" Y$ s( \/ D1 J0 z& ^, u5 X$ C
与不同区域壳体+机电组合:4 n) @( b9 B* R1 f8 g
& P7 i. a) l8 ~8 H8 r6 X) I0 N
以中值估算:$ y: B$ ^' ^$ v& b
N' p7 Z3 v# [5 n3 i' J中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
# S O- w# m; h" @; n美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B _7 O6 d0 v+ I( |* r
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
G% J5 X0 u- d- g, L中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B3 @) A3 _& `2 ] h8 ~$ r6 q+ q
可见:
2 {4 b. M- F; O: \- D& T" F
h. F1 x& d$ X) r2 @' wGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。7 Q$ ?) @" A. y2 ^
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。. o, G- Y8 k0 @, Z; F; F1 F% c! v
三、运营期成本结构与区域对比
( M3 R8 m9 C8 L1 b, i8 {6 `3.1 通用 OPEX 结构(高密 AI DC), N( D: q. x8 ]; c0 W
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
2 i: s t( T. ?! L5 t% N
, f. r' s9 }# V; X' r电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。0 J- t/ @1 ?$ Z% |! v M. Z
冷却与水资源:
6 O3 [2 `6 D8 W% ?能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。5 ~& w' A( v5 |$ b' [' S& F
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
7 R5 o: b( k; y/ s: i6 l' [, j人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。8 m/ S# t9 g' [0 l0 F
托管/物业与维护:
" c- o0 K( F' f5 z# ^4 l/ p' ^3 M托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];9 a( Y/ h: Z( P* x
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
" w2 K2 z% c& z/ q4 Q, A' Y' B3.2 区域差异(以 400MW / 3 年期为例)
& j; R% ]. ?' C9 W+ H4 O使用 ChinaTalk 的电费与人工估算[1]:
/ Q" Q0 c5 x+ [' p& X. p2 a( N+ H. I$ G, [6 Y! U0 _7 C( d& B
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
- x5 i3 A5 T1 V7 Y ~6 t中国:约 $0.06/kWh → 3 年电费 ≈ $350M3 O6 A& I$ p. U' T7 b+ Y* |
美国:约 $0.09/kWh → 3 年电费 ≈ $600M$ e( M6 w" f" p# @1 q6 T
中东:约 $0.07–0.10/kWh → $400–550M
0 k8 C9 ^( ~ x6 j2 I- l4 t欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
# p/ }/ @$ e3 c# W, T水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
4 s/ l" [( W: s美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]* B. o: h* ]* M d5 r& v
三年水费级别:+ O$ S* K5 J( }
美国:$40k+0 C/ j/ j! O& ~3 c/ E/ O0 T- _
中国:$20k+5 B ~6 G: O; ?" Z; `7 }" R( Y0 K
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。7 l# e" [8 K6 ^- J e: F/ D
人员成本(3 年) – 假设 500 名全职运维: _4 g) E$ @! F. i; R: P* t
美国:500 × $120k × 3 = $180M+/ M2 W1 D: O: q+ A: @
中国:500 × $22k × 3 = $33M+
+ m! j" m Q: K& z) B4 R" j( q$ j差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
( ~/ s3 o0 l G4 p整体 OPEX 粗算(3 年) – 400MW 场景下:" y' U \* q* j
) |" O, h! b; I$ M
项目 中国 美国0 A- v/ s* @1 s7 e/ [
电费 $350M $600M% l: @' u) X P1 b. p
水费 <$0.05M <$0.05M/ W7 T. o g3 D" D8 N
人员 $33M $184M
- g6 f# r' \( I8 M% ^$ b. i; A, \其他维护/托管 同比例估算,地区差异主要体现在人工与地价
3 a( X( K8 ^1 ?0 s: \( |结论:
1 ~$ Z0 a' ^0 [ d. x+ k X2 v( S) Z9 r+ g t! s$ n
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
! b1 O3 W; |4 K1 c; ~对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
7 B) K7 v2 V; A四、基于 token 的成本与利润推演
, Q+ P! [+ N: C% L1 [0 P6 w) R4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
# U1 f# P2 J/ l1 h# v# @统一假设:" @9 I4 ]' w0 o( b9 `
4 g/ ]. d! S( x* C1 ^3 p
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18]); z c& j. [6 H: w5 [
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
8 l: Q) B. E' |- U& `1 百万 token:278 Wh = 0.278 kWh* |1 N* l* b3 b: f5 m* o
场景 A:美国电价 $0.30/kWh! z. }, s# p% c+ ]) `5 }: N
电费/百万 token = 0.278 kWh × $0.30/kWh
3 K9 Q/ J# q. a- ]4 C' Y≈ $0.0834 / 百万 token6 P% H$ L$ x/ a8 r$ c
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh8 O6 h6 N, f s4 Z+ Z, `8 M
电费/百万 token = 0.278 kWh × $0.042
/ O3 } B6 e, R≈ $0.0117 / 百万 token
9 c6 G5 d/ P2 d. |' s3 R' K3 v对比当前 API 价格(OpenAI 2026Q1)[62]
: g7 c$ i* X, E4 w4 r, f# k以输出侧为主(成本最敏感):3 E0 S/ C" O% u/ W0 R* x: m
% S$ `. I2 p6 N' \模型 输出价 ($/百万 token)5 h1 v% l' w2 M( s7 v1 Q3 d
GPT‑5.2 $14
+ {) F" h2 V& A; g0 [( {- \GPT‑5.2 Pro $1683 Z- }2 R, c2 c% R1 ]. r
GPT‑4.1 $8
! ^6 g2 l6 H6 ] f6 k* C$ ^GPT‑4o $10
9 v0 O- J8 n& b* X! R: g+ b) EGPT‑4o mini $0.60: S7 I3 ~+ ?3 }& f: }+ S9 t% a
则:( j# ?; B7 ]- k1 Q
+ U* Q/ Q- n% @7 V( G0 _( N0 v: J
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。, _; k; T6 j8 R# v8 G9 q9 o$ C% p
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。* Y. z! o6 N2 n( Q% n. u6 `
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
2 B/ j- `8 I- C/ G$ I结论:
5 C1 A4 Y) h/ ?7 i$ h即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。) q' s! C( ]* {8 L/ }
; y# n/ s- [' z- ~; J6 K
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
! [& t: E+ i1 r$ _1 Y7 B以 LenovoPress 的 8×H100 Config A 为例[28]:, n5 I2 `7 e0 P. n; V$ C( f9 e- L
! X- [% M5 Z' m' e* s1 t
5 年摊销下,8×H100 本地推理 70B 模型:7 w. ?; y6 T: `! Z p- h
小时综合成本(CapEx摊销+Opex):$12.08/h" u- y5 U% i8 B {
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
( e# l$ m+ r- W# f0 s- x成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token" s9 M: S) p" K- w* s+ i' w* J
电费在其中的占比:2 I7 @1 b! n' I
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
& q2 h; D7 u3 U |9 j电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
" m5 P1 X) I$ o% O# V8 z电费占 总 token 成本 ~7% 左右。) F2 ?3 s1 ~$ Y1 e. z
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
) P+ j. Y, p3 B若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
, a" O* X! n1 S, x" N x9 b! v! A+ s
因此:) v- Q# s# Z9 @9 F
* ^ {: h) I( q4 p8 F0 a1 _
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
' B9 A; Q. q4 @6 f# C8 M! K在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。 C6 i) q2 u0 C( _, S
五、不同芯片方案的建设与运营成本对比
) b6 J7 E" E \' x5.1 NVIDIA 方案(H100/H200/B200/GB200); ~4 E: k6 j5 ^+ [4 {! b
CAPEX:3 M: s9 Q; Y# D" }, d
8 i" @/ s% m( O) y1 G! [6 m- [
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。4 v8 E* K3 X9 e) B5 M- X8 I% F
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
) _& g2 q# l# D! I' q- lB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
8 T+ r: @/ r) P; s& b4 w, rGB200 NVL72:- ]2 l; a* c) T7 P* W
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
- o, ]& |" c0 j& P9 _: Y冷却系统每 rack 额外 $50–56k[35]。. y6 {' A9 f6 ]. E' e
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
1 s- P6 n- j$ P0 L; v2 i) dOPEX & 能效:
) n$ ? @6 f& c; e1 T" W; G$ ^) u5 J' Q \" U! R- S, T9 l7 o# a
单 GPU 功耗:
- ?. T+ |" N1 X' M1 |: g/ P7 S: hH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
7 q' B4 A9 X2 R$ W5 u7 VH200:功耗类似或稍高,但性能/W 提升[9][10]。+ }' ]* }! q/ l7 s( X2 T
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
( m n2 H I# s) c9 iToken 性能:1 e, y( j! v/ ?, X& F
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。% g( T1 s2 b5 l5 ?. Y7 U0 C ~
NVIDIA 的优势:2 t; A) T- O" U/ c4 P
5 f- B8 S4 c. G! w7 h( U软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
, F" R* M1 Q5 B0 {但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
5 @" K( F9 p; y# i5.2 Google TPU 方案
, u, q7 R6 d; x0 g5 fCAPEX:$ W) [- a6 n! @5 r V# ]
7 j8 P% x3 }& A: ~8 u
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。' Z' P. ~ v8 {
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。$ w4 ^2 w) }# o, s. _$ y& X
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
5 q, m. [+ _3 r% m: L7 v" t, K能效:
: T2 y! I- L; D/ x# r# `. z
7 w: J& E/ d7 N0 w6 XTPU v5e vs H100:
: ]+ g* d0 G- O) J6 N- t同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
1 C! g7 I" f- B1 n0 X8 c* s' t' S测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
! p6 o+ k$ w, j8 u新一代 Trillium/TPU v7:' t3 @. m3 `1 j$ E7 }2 k8 |
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。; Z( P) k, k2 V* u4 O" B
Google 方案的特点:5 l+ d( a0 J2 T( s$ ^2 v9 e
, A0 w y7 G3 g1 D& h
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
1 e0 U) Y- L) H6 g# |+ F0 Y对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
" l* I' X- d* N+ f( t) B5.3 华为昇腾 910B / 910C 方案
+ u5 t% o: P: m& ?$ mCAPEX:# W/ p; n- S& ?& B0 `1 ~( Z) b
9 G/ V0 Q" I, E, x( h) y% v6 A单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
6 A3 S* ~7 `2 d$ l% t% [, q与 A100 对比:
, S5 j% j2 N3 P: d ~FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
( y6 I& k6 \0 v" u' e& @, l市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。( E' Z2 F+ i6 K1 H# K
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
5 O# c; s+ U# Q" ~OPEX & 能效:
! x# F- k0 P. R4 P& e
6 r( t: Z/ N9 u! \! M% D0 i910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。) g" W- h: h3 \+ W
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。7 A0 ^* \2 p' x( Z) c3 k) s) r
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
5 A" D9 Z7 X2 K9 B x5.4 平头哥真武 810E(PPU)方案& f& V2 C4 \6 |6 V7 I
CAPEX:! H2 l, v. U% S! X
8 s1 K4 L! p9 q
技术参数:% y$ F/ M' Q+ V+ u8 V( ^
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
* S7 I8 ^- B* M4 N1 t性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
3 N0 S$ E: z5 C! p- O0 ~% U$ _+ f8 K) w价格:
4 E* O; Z) e3 K5 }未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
/ l8 U( d P$ `& l结合国内报道:
4 b0 o& {! d. h( t( w' F$ f2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
! i) I( d. o/ I$ r+ f- |2 s! F数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
! a) L' q- O. S- Y6 hOPEX & 能效:( c/ i/ `& h5 X' Z6 J' [
! e% u. S1 c v5 P0 k400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;( [. C) v( s, `+ p, B
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
) w; b+ e, B, U% N% r# V; m2 R六、综合比较与策略建议
* U1 {) Z6 `, E$ {4 g( u% a6.1 区域维度:在哪里建 AI 数据中心?
i% _3 Y9 r3 U) ?. L) y纯经济性(TCO/tokens)排序(假设无政策/合规约束):0 S6 u! A- w. M
0 a9 N D- s. |2 `+ x* `中国西部/北部(电价低、人力低、建设成本低)5 ^* p+ k9 I( \/ ], R
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
* ^# e s) P) {美国电价低但人工高;东海岸/加州电价上涨压力大
( E- A6 I" a, g/ Q欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
8 I% y( y9 d* u/ ]7 h! t/ x, U若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
* G) S* t% v7 ^( d* P7 T
0 l) Q- \. p( _, ]7 S: u9 Q" L纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
' `" s5 |9 P% f" F对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;8 ~ w9 J: w" b3 `; K9 _; l+ n; n
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。; a+ `" i9 N, q& w1 G# f
6.2 技术栈维度:选哪家芯片/云栈?
+ r) q+ {# x7 m$ {, ^6 W3 ?( a若目标是全球最优 tokens/$ 且不受出口管制:4 |3 j# P; H& X- s' z8 g" L2 J
9 @% I" f% ], _ e: UGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。. g6 ?( J; c. f! k( y, {) L
若在美国/欧洲,能自由采购 NVIDIA:
( l i9 v/ r4 [) q
4 t0 _. N$ W/ Z0 t5 B) Z短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
$ W# |3 P0 ^: _+ O% e+ h成熟的软件栈与生态,极高的 tokens/s/GPU;2 [ L1 y0 v. W4 v2 c+ [
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;) C' d& I* G( p8 l
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。( K ]6 v4 c! |4 t' M2 i
若在中国或存在出口管制约束:- B1 Y$ P. ^3 D) E7 h9 n
$ P$ @9 u7 J6 U1 x
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
# ^0 K: p# Q: @; ^1 {8 K7 F性能上已能覆盖大部分 GPT‑4 类推理需求;
& a% [3 c7 D+ j单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
( g8 h3 p- C' v4 A软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;, j) S4 W9 ^" b
建议配合:
* d1 |1 t; ?0 }7 a高效液冷(PUE~1.1)、+ ], J+ [- _. ~) c; n, w
大 batch、路由(浅层任务走小模型/低成本芯片)、
`7 A4 Y6 u$ M1 T" s( R/ _- i强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。9 W, V8 a- V2 w- y' y+ ^
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
& Q7 x, X$ z$ b
4 N" N& V# L1 B6 ]数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];. U) ?" Y. g7 z( \
这意味着:
2 R3 Y: `0 ]) _9 h# f( ^ d优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);; B! c' ^' \& i0 c, i4 H! I; ?
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。! R- ^2 w9 J3 O B0 P
6.3 针对你关心的具体问题的简要回答, C0 C! B2 i& q5 @
AI 数据中心建设 vs 运营成本的大体比例?7 ^) W: w3 v" y6 z Z
@% ]# n! F2 H4 f
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
, h. u* q1 U, z4 E其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。( r- {2 q6 ?( }* r! H3 ~5 m
中国、美国、欧洲、中东的成本结构区别?
1 ]/ |* _* ^: e1 W
# x0 a& I$ k; X) _建设期:
& J4 d7 D( n/ z: Z% `中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。. d8 E! i5 V+ K1 j% \
运营期:; y2 n3 M' S' U8 V6 A* s5 D$ [
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲' p3 {) V8 y6 ]% i
人工:中 国 ≪ 美 欧,中东居中。
8 s/ h" z0 P$ A2 M2 ~8 t在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
0 l& X, N9 I& v' u& R- t
1 |7 ~; a; y6 L对于典型 1 J/token 推理负载: j/ U, C. a, B
美国 $0.30/kWh:电费约 $0.083/M token
+ s0 V- _2 T0 U' [: P中国 0.3 元/kWh:电费约 $0.012/M token
4 t$ i) l7 q5 z5 U% Y对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。' z s1 C& A1 z% ]* A6 U
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
* ^& v4 Q; s, T
" _9 i$ S0 Y# l* l( C" x在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
) D: l. \; i0 S7 f全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;: J' v2 p$ d2 S$ V( h. _. E
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|