TA的每日心情 | 怒 2025-8-7 11:56 |
|---|
签到天数: 1132 天 [LV.10]大乘
|
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:2 D( J/ t t3 [% P* N) w; f W7 W
+ v: ^. \5 \* x( ^* C5 O, x( i一、总体分析框架与核心结论- Z1 `3 I6 Q+ E7 U! \+ }; q6 z
1.1 分析框架概览
4 B2 p f! [: W* V拆分维度) _- b0 z8 ~6 M9 P' F, B
; h. p4 Q% g- Q0 M( p9 c阶段:
; ~9 ^8 ]1 {( c) ^; m! \, M建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
" [: o2 U6 m' B/ R& x9 Q2 B# a! _6 a: f+ Y运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等7 @( G; _9 C' |0 s. X
区域:
% _* I. z* p8 {0 J G1 U+ }中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
- a/ n2 f# u/ p+ E8 z技术方案:
6 z- v$ Z- G; P- E4 n3 S% sNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)! P4 q# z/ D; y
Google TPU(v5e/v5p/Trillium 等)- N2 _% s4 p2 `0 }
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
4 V# H" C( G# j7 d8 U7 s. m算例基准- j5 f6 n4 s, D% _' P4 X
6 p0 ?- M: E, ~
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
- G/ W0 H! S1 }其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW4 \* X2 T$ X5 t* Y
PUE 假设约 1.11(高效液冷场景)[1][29]( s( ?5 Q0 N, f P
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]7 o; t- Q! }& T7 Z
关键指标+ X! t( Y: ]9 b+ S) I% l/ g! n' o
2 L+ e' B: L# y/ `! n
$/MW 建设成本(含/不含 IT 硬件), o; J2 O9 g( N" Y/ r7 z! D
$/kWh 电力成本、L/kWh 水耗! c2 Q' Y0 m) W: A% j
$/token 或 $/百万 token 的综合成本
% t" c1 K. H5 }& \3 V& eToken-per-watt / Joule-per-token 作为能效基准[17][18][26]
$ @/ R( N: S/ v9 g m- b( n# p0 {项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
" G7 ?" n' j5 f9 h; u. \1.2 高层结论(供决策快速参考)4 T1 x( j2 W5 C7 Y
建设成本:AI 数据中心相对传统云数据中心成本翻倍
+ L# f# L0 v0 Y5 T6 H' X! h( p- G* W& L
, L- W- T$ @4 I# o# O传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。8 D( o# B% k1 O L
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。7 t% p' H5 p' X: h" ^
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
) l- m( k. c+ L5 i区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
. ]- K$ X7 ~+ S2 n: ^, l1 r, U$ m2 o* x& U- C* i' O
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]' b2 x$ h9 W: f# z/ K( F
美国:$8–12M/MW,400 MW 约 $4.0B[1]0 w3 S4 H& l9 I2 b
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]% Y& I) D' ~0 R5 ~8 Y' v
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
$ D9 f# \+ u/ W* V( m结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。/ j* z' L' J6 o- J: E
OPEX:电价与人工决定区域优势
1 i+ y- p b7 c8 Y9 b K; X& p- L7 e5 Z# b+ W
电价(2025–2026 工商业大致区间):7 ^" Q w5 Y4 y7 G! v5 H% S
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
& h! p: D% q. \( S- l; \美国:工业用电约 $0.085–0.09/kWh[44]
2 g$ i, o/ W$ M, c& k/ _欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
( I7 Q! V3 a w& X中东/UAE:工业用户 $0.07–0.13/kWh[47]
' r3 |5 h* [. L0 j! a( k! q/ s人工:: {% \8 t+ B; H, T
中国数据中心运维:约 $22k/人/年
/ M1 y- ]4 p6 f2 b& [, J" v' r+ h美国数据中心运维:约 $120k/人/年[1]
% G7 S9 a+ i/ A9 T/ a结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。; m( b5 A: t; ?' J! I9 D' ]
能耗与每 token 能源成本:能效差异远大于电价差异
% P' X7 l! _' ^4 k- B; \. J9 Z m! P: m! N( R) T/ O2 @
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。$ ^; _9 P7 c P: M
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。- Z6 J8 v; t9 y+ u8 Z
将 token 能耗约化为统一口径:" W+ ?: z, R$ L, x3 r& Y
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
* Y! c* B% U# W/ k# K2 l中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token9 _" Z0 H2 Z3 g4 H2 R% z5 ]( @# P0 t) \
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token( K- Q0 E0 L( \
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
3 j2 Q4 X; D, b! V8 E& K不同芯片方案的核心差异1 u& U1 b7 ~. ~) D
2 p2 B3 w) o! {; T% w6 P
NVIDIA Blackwell/B200 & GB200 NVL72:
5 F3 B& Z0 g1 d6 U. c$ i& x单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。/ ?! D0 W" p1 J5 w6 _8 l `, ^
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。! f( S F5 Y" \5 f- e" [
Google TPU v5e/v5p/Trillium:
1 `/ W m: j6 i, oTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。7 P7 B. \( |& ?, b' d" P* \" B4 d9 O
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。; @' J' Z8 s+ S+ k; ]; u
华为昇腾 910B:1 t( W; A+ t: p' h8 A/ y. i
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
8 R, l& O& H2 ]2 ^0 I单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
& Q7 Q# V* p8 C阿里平头哥真武 810E(Zhenwu PPU):1 z' z5 |) a; X2 O4 s, Q; A
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。1 M1 _9 F% }5 d2 W
结论:8 e( B: G% ~9 o9 G; k! T
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。: }" i2 ]& ~$ z6 k2 x5 }
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
! g+ x: l) |: E1 v, \! p9 r4 v, ?: m对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。5 Y2 \8 _1 @0 K- `( T1 V
自建 vs 云租的 TCO 与 token 成本
4 D7 u! z( y0 i
6 g( \1 e1 r4 q, m0 ELenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
* t9 D4 B; n9 g+ `# J3 a6 N8×B300(Config D)自建 5 年 TCO ≈ $1.01M;, u+ l6 `" q2 B) q1 K
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。5 k. l' A8 F, J: V
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。( `$ P5 C! @' @4 {# H @
Token 成本对比示例(LenovoPress 场景)[28]:
+ ^( |; ]9 {$ V" {! K* vLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
2 w" x! T8 ~; D0 ~0 b* N: \5 Vvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。9 @5 O4 m) A1 }" U9 t0 l; i: w5 x& c& V
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。6 ~* _# L9 ^1 s" p
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
`9 c5 p- G4 |# t; `结论:
4 A4 m' U) g& w高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。3 a/ M& y) _! J7 L/ M
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。* p7 x/ B4 r# I
二、建设期成本分布:区域对比! l: S( z8 ?$ G) E" X6 U% d
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
$ g: i y; W) a2 z# T
' Y$ g2 V4 @; r5 }% M( V2.1 全球/通用结构(以 1 MW 为单位)
: L. t0 s9 f! q2 ~综合 JLL、ConstructElements 等[2][41][40]:
H6 n% t7 L$ K/ d0 v7 o' A7 M& X, n% |* p h" w0 G
壳体+机电(Shell & Core)- U' x2 _! t* W; c' `) Q4 w) |
3 {, M( Y* T" y全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41], J+ g: u1 U* h% g) s
其中按成本构成[40]:: e. h% ]7 F, C) w
电力系统(变电、配电、UPS、母线等):40–50%
! E, J! i, Q/ x o' I5 e机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
9 R0 E8 c5 V+ J) I1 A+ C" s" f# V建筑与土地、结构:约 15–20%
( u; {4 n* \& T4 x* @! ]其他(消防、安防、楼宇管理等):约 10–15%
( b1 T. Q2 ~! L+ k' M* Z' fIT 内装与 AI 基础设施(不含芯片); s: m" ^/ a) c4 c: o+ U Q6 x
; F8 H" |* c5 w4 `5 c高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
7 J. ^6 q2 a# p$ CGPU/加速卡硬件 CAPEX
S- x6 y3 h1 U( u- x: c
L; f$ \: m* l" ^多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。1 G0 ` _! ^' t+ U" X
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX6 w7 m( `& O& W: u
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):7 ~2 d1 @1 L- O0 Y9 j' P9 `
! \- H5 n! B8 s8 C) J+ p
区域 典型建设成本(壳体+机电,$M/MW) 备注5 u; s8 Y0 [7 C1 D4 a x7 y
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]+ W, ] X, ^1 i" p
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]3 |5 `9 S; f. O+ m2 c
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
( ~4 e/ }. {7 {' n中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]7 r- g( R- o! J3 @6 b' p T
结论:
8 Q Y- k) n d8 h- o3 C. ~, `; G6 A9 n
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。5 ^% F8 r6 Y K6 r+ |( o
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
% l! \# j' X$ c8 u2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
+ {5 r9 |2 U4 N4 M+ E* o' N. N以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:; h: g/ O( b4 n" i1 k6 }
- k! e' K6 T8 l% ?
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT; b8 x( F* S+ \. ]) l8 `0 Y
GPU 配置:
z( U9 a2 ^$ H7 f, F有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
" F2 C4 r/ }6 W- f, n, D( n! g/ K% R每 rack 成本 ≈ $3.0–3.35M[34][69];6 t1 v+ b+ ]8 g9 H% ^3 Q) O8 ~6 r! a
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。# T s# r1 g% `2 e7 f
与不同区域壳体+机电组合:* H' ?4 Z& ]; F5 P0 N' ~# x0 k
U$ J1 I6 F3 G+ Q& F以中值估算: g6 n) h2 Q. C; Y7 c( E. p4 e
% J) P P+ A# K) ?4 o中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B# Y5 ~+ z; j) a$ w/ A! B2 E
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B& c# N. ~/ I* M4 G( ~
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
" K& b/ {5 T3 y2 Q1 L6 F; }) \中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B4 n u. o% B7 N. }
可见:: \9 ^' w/ h0 h* g; ]
7 ^0 z/ w2 g" ^4 [, oGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
9 L( V# o% @( D# R3 l相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。# R1 i& ^! x6 Q4 w9 L, j* T+ L; C( U
三、运营期成本结构与区域对比
$ Z `4 o) p) X3 I" Z3.1 通用 OPEX 结构(高密 AI DC)
+ r, H8 V( |" P6 \: b5 q结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]: g! K7 W5 w/ o* J: n- Q; S9 U
; V9 ~ [4 ~$ v$ n I5 _电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。: Y0 w, J1 d4 _+ Q+ {" H
冷却与水资源:- ~* Y3 R7 A1 a
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。9 P- ?7 W; t3 e' Z* ^" f6 |
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。$ m0 _+ ^( }( l
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
. G# r- O; v2 }8 ?3 g6 ]托管/物业与维护:
/ @$ @7 W/ K1 p9 ~托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];/ d9 H7 Y. x* E& `/ z* L" q6 C
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。' ^! N. ]$ L2 i ?: v0 b! P
3.2 区域差异(以 400MW / 3 年期为例)/ ]/ M/ l, ~% _" b% o0 E6 _3 N. f
使用 ChinaTalk 的电费与人工估算[1]:
4 E! T! m. u0 V
& h% `2 [: [$ J6 e/ {- ]9 y9 A" d电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:& H! e- ^5 w! J/ {) d
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
7 I4 S+ m9 D: X; R' c( y+ S美国:约 $0.09/kWh → 3 年电费 ≈ $600M% J0 c! l0 L8 S9 _5 `
中东:约 $0.07–0.10/kWh → $400–550M% N2 n/ A8 {% B$ u. F0 o
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)' W* T! H; [% O( m2 p
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
2 B( p% d" m; P: N% y5 {! c美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]; e' I* E5 r2 I' q5 y9 l4 n ]
三年水费级别:
4 u, n$ b; k) o; ?! F8 Q4 ]/ j: }美国:$40k++ w! d& w3 q2 V7 s6 P) ~/ I: p
中国:$20k+
( A" ?2 h4 x( V, H: x7 Q结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
$ U S8 n+ X1 p9 b- }; n人员成本(3 年) – 假设 500 名全职运维:
d" Y. V7 A! N' F3 v. R* X美国:500 × $120k × 3 = $180M+
1 i4 N& x- d' ?7 P; B7 {: w1 }中国:500 × $22k × 3 = $33M+3 R7 C5 f) K0 G, b3 l7 W
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。- L" [2 `+ S: ~2 M+ b4 F
整体 OPEX 粗算(3 年) – 400MW 场景下:
/ e& R$ w( R5 a% e1 {5 d* X9 Z2 [, Q9 F2 b
项目 中国 美国
( v$ N, n4 G" C& y* H9 y电费 $350M $600M' m s& k! N L1 R; K9 ?
水费 <$0.05M <$0.05M ~* V9 O' [8 Q- W
人员 $33M $184M
- ?4 S* p3 h' ]0 @9 l其他维护/托管 同比例估算,地区差异主要体现在人工与地价
0 z3 t2 V4 p* I: e% _4 j结论:9 D2 Y* n1 a6 k1 T) G/ h4 H4 P4 E
9 H& c( F' A; T E就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
/ U( U* M1 P/ u5 n9 @& ~: C对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。$ H+ t9 t) {* ]& T( b' |4 b# r
四、基于 token 的成本与利润推演- s! i* @. V! y/ r. U
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)- N( M$ G/ L3 d9 C; T
统一假设:2 X0 G E6 g; n' R# ^* ~
3 Q' t: o7 ^9 S6 b3 A" f$ j典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])" ~; j$ R5 {2 N5 Z5 U* G! G$ P5 R
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
8 G+ d2 Q; B/ V$ d8 {( Z1 百万 token:278 Wh = 0.278 kWh
3 G' h4 j; @4 c' k" U场景 A:美国电价 $0.30/kWh* X W8 ?; Z% {% y1 }8 N
电费/百万 token = 0.278 kWh × $0.30/kWh" u) v% Q$ t. e# u; W9 o; z7 {, [
≈ $0.0834 / 百万 token
5 ~4 Z/ R9 {! H/ f4 A场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
5 r; c: ^9 N0 t5 v9 L. E; a$ R电费/百万 token = 0.278 kWh × $0.042
4 e2 B7 m. B% E S% \≈ $0.0117 / 百万 token
) [5 w3 F. ?; U9 K; U" I. C对比当前 API 价格(OpenAI 2026Q1)[62]
4 Q6 ~* p% ]1 y+ V$ T/ c以输出侧为主(成本最敏感):
: u* e" k0 s1 }1 g4 R$ l6 K! Q
% u% i7 \8 t# `; d: c& ^模型 输出价 ($/百万 token)6 R" U. ~9 o' v2 b) q; V" \' A
GPT‑5.2 $14
4 B! K) H( X( A! b0 w9 c4 ]GPT‑5.2 Pro $168
0 f( [( ^- D+ O. E3 yGPT‑4.1 $8. m2 y+ G7 @* F
GPT‑4o $10" r# J/ D3 D9 B9 ?9 X8 }, V$ w% [
GPT‑4o mini $0.60+ k0 z; y/ ^9 D
则:
9 j, z9 a& Q; y) [+ S
# L% d% f! a% b/ D, H在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。" _" E& I2 J9 }7 k
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
3 o! H A% M; [0 N- G相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。 e9 ~; A7 U( ^. ^
结论:
, }% s9 z F, @即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
' D4 |3 h* r% d4 ]' j0 j# K! v5 |3 @5 d
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
# N/ v. \) J, L' g* {以 LenovoPress 的 8×H100 Config A 为例[28]:3 e# l% k) v) E7 i- K- U
7 P2 U3 x+ o0 T' j2 L. x
5 年摊销下,8×H100 本地推理 70B 模型:; n7 Q3 e, N$ L1 p- b2 b, G1 M
小时综合成本(CapEx摊销+Opex):$12.08/h
/ H: R* O2 w+ M0 ^3 f0 E吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens* e4 i6 s* o/ Z( ~8 q& A' d
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token# |/ v& ~( x2 Y
电费在其中的占比:+ K# J6 `( `: \2 n
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
e0 a) n; c# m( g* z# B8 Q" }电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
$ G: m+ @4 a% z9 J( K/ [5 Q n T+ o电费占 总 token 成本 ~7% 左右。
* S$ z# R/ N5 `& e若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。& I0 b$ l# O1 R6 N
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
+ Z3 i% M- i* P- f; U9 K: x: E
1 Y3 p/ L! Z9 N Y. J0 d% q7 B因此:
1 R7 X- u! n; x
: o+ A1 L5 f. `8 y8 D) [在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。8 S9 n5 P* |% V: H b
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
/ m* z; v" _- W: x2 Y; Y2 }五、不同芯片方案的建设与运营成本对比0 H( o" S$ ]) V' z( `
5.1 NVIDIA 方案(H100/H200/B200/GB200)4 g5 V- Z# v# C/ h! }% ]" O
CAPEX:( d( d$ w% K- {* z* Z( f
+ ?" @1 r. c0 _H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
$ l j% N. @3 a3 ~$ U- jH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。9 M4 z! B& }4 d4 M% J6 z$ `
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。2 }+ d" V) q S/ K
GB200 NVL72:
; O! j* _. y! v, p4 b& `每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
% U/ l; `5 }0 f: o冷却系统每 rack 额外 $50–56k[35]。
: F6 g5 l8 L% _1 M1 t& I在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。+ \, L0 m& @ p9 ^ `8 K
OPEX & 能效:
; d# {1 Q) T9 Z; h1 N
2 p% N: b8 n! Z* X# K3 o0 r单 GPU 功耗:
: f" q# E6 H+ y0 T' _7 h3 GH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
8 t& y3 |7 f- J! h* ] L& ]9 pH200:功耗类似或稍高,但性能/W 提升[9][10]。
0 |5 i% N f) m0 |- Y4 CB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
2 u3 f: z, m0 e" x# Z0 QToken 性能:
, t! s" U6 C$ wB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
0 o( r4 b6 \9 f! GNVIDIA 的优势:/ Y% t" y1 P! p
t" H7 N) h- n- X% H
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。8 O0 A. ^( S5 D; u) {9 Y* ~; Z
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。( e+ z7 E6 f* {1 _/ F$ @$ Q
5.2 Google TPU 方案
4 k: Z+ w' @. f$ F, ^. eCAPEX:. Y" A: b! _- K2 f
$ G- w6 I& Z `2 {8 F" M" t, j单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。/ S% S: M, B/ ]6 ?( e4 N5 `
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。) P5 {/ H* L8 j8 V# R/ S) r0 M4 {) M
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
7 x% Z3 d# ^7 D1 G能效:
9 j3 {+ q' R4 c) T' R' I2 {, E8 L* i4 Y* h
TPU v5e vs H100:
) {; j* ~# Z$ F' V同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
+ e7 z, G% x w1 }. U; A( D( f测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
3 X7 O6 E% W3 m4 A* P; K1 h新一代 Trillium/TPU v7:
& I4 P4 A; W' q+ ]; B# s$ Y. y+ y能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。( \) N4 \0 r, A) _- a% q- j! J- b& |
Google 方案的特点:
3 D" e# z2 F( Q1 U- Y+ E9 r3 {, @. o0 F9 P
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
/ D0 T" U4 W' ^. T2 M对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
6 z2 J$ r- t) k7 q8 `* u5 \5.3 华为昇腾 910B / 910C 方案2 R8 j0 Y" {+ d: {% Q* |
CAPEX:
5 D/ U) k7 S& i( _, M; r* b% ~: z+ D/ s* c+ _
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。8 J, x4 Y! s P' l2 ]
与 A100 对比:
- Z; g! h- \0 G$ WFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
$ X+ u. @. s* I- k! e- x2 {9 ^市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
& T$ @3 _' k! F2 K1 u使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
) Y+ T% W0 f7 m) g R1 |OPEX & 能效:* e2 ?* l3 h0 y' X" w
" j6 S, E0 h, F. d0 ]
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
3 R, x; @7 `+ a1 P h/ Q部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。0 `% Z3 t( O; F) M
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
* O) Q* f& g' b- v5.4 平头哥真武 810E(PPU)方案
4 @3 I0 k- S) y% Y# N0 @9 i& f) CCAPEX:( ?3 ?1 J% a0 K9 e4 f- c
# q8 H* }$ r$ j
技术参数:
) ^ T% [8 e4 Z+ ]2 N. e, J96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
' C4 ]' `, ~/ B% n3 s4 _' T性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
4 T) C2 m ]# g; n4 s价格:
( l- I8 k, V) v" R; H- p# _未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。* z5 @ k- B o. t
结合国内报道:& l0 \% }, o2 f$ w% Y
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
- M: _+ o& e$ J3 @8 _数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。! E0 ]8 @0 Z' b/ v# ?
OPEX & 能效:9 c' i0 P* H7 j% Z
% z4 h% Q0 F' }: z3 v8 k2 Y400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;/ c3 N! ^, ]- J4 v1 ]- G1 L+ Q0 p6 g
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。" D1 {' r k% C4 l: ?/ ^
六、综合比较与策略建议) S) Y3 Q3 F$ z& \
6.1 区域维度:在哪里建 AI 数据中心?
% ]) y' A" N, R) ?+ U纯经济性(TCO/tokens)排序(假设无政策/合规约束):9 h, F9 k9 j% R( W' ?# r
S) I6 `8 v1 f! C" J/ y# N
中国西部/北部(电价低、人力低、建设成本低)6 T" s, ~9 z9 ]/ H, {. H7 o! Z- E. J
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
0 d: V' v( |/ E! o美国电价低但人工高;东海岸/加州电价上涨压力大
8 l% V/ V( P* Q. }0 `( s" A2 l2 _欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
( D+ a7 o7 S& o# J, V若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:) g& e. h* _7 O0 U% U3 I
& p; d1 n7 F7 e: G纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
6 y% V3 H- j, h* Y3 V对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;' Q7 |7 l1 x' m$ Q3 r$ F9 q8 K
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。4 p ~1 J2 h) t
6.2 技术栈维度:选哪家芯片/云栈?
4 I5 D' |5 q2 g7 w若目标是全球最优 tokens/$ 且不受出口管制:
7 h7 {8 }4 {, Z% Z3 J: X5 z- q0 M$ m) j, y
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。/ _9 ]8 R$ e6 ^* t- l5 D
若在美国/欧洲,能自由采购 NVIDIA:
3 {( A9 O" u6 ~/ ^( t/ C% _6 g- f1 e* \
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
) o" O* u+ }5 E2 n- s成熟的软件栈与生态,极高的 tokens/s/GPU;
' ?; i( T9 P/ ]& U: R1 [+ b% [在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
/ Z$ B' S- \; S9 n$ Y但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
( b% n" r6 y: v$ P! R4 o若在中国或存在出口管制约束:
- S) j& o/ k% Y) @' O
& A- M# B' n3 o C昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
" O$ a' A+ I5 j4 O6 n9 l性能上已能覆盖大部分 GPT‑4 类推理需求;& g' I) h) O1 w8 i j9 j l# t
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
% U4 l: N8 x3 M软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
1 k: ~9 _0 K/ S' b2 } d建议配合:
9 S8 d4 N: d2 e t3 t高效液冷(PUE~1.1)、
: h% e" S8 k7 y" M" b' `大 batch、路由(浅层任务走小模型/低成本芯片)、7 y0 c j0 C! }: H: B1 \/ A+ g
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
0 w& M# p; I1 |5 ~长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:$ E4 H) P5 H" d. E2 \- ^7 X- o
+ Q. O) m7 n3 R$ O& u/ _+ k
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
$ w. A5 C* ^5 n# o# a. n4 }这意味着:
/ K$ R0 S% J) v" \8 c优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);. M! H5 T3 W1 V7 u; i* s
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
* C. v# I" {2 |( x1 a6.3 针对你关心的具体问题的简要回答5 L# U' u4 k8 o9 o% S
AI 数据中心建设 vs 运营成本的大体比例?
% w8 Y5 K( M6 U" p) l* s$ Q5 L4 ?6 w; B% k: r' u y' t" F8 D( |
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
( V6 o& T Y- E& B; I3 R ~ z! i其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。0 `& H! h" @4 h; J2 r, y0 o7 M
中国、美国、欧洲、中东的成本结构区别?
& [" l1 |# _" i% l0 W* O4 H% _4 W- ?- u! P& j! V- Z) i
建设期:
9 h7 R% o5 L3 c+ c) g7 P+ k0 x中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
& ^0 |3 S& I3 m- e# T. u运营期:+ b: y6 L9 V. K0 C( Q/ k
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
2 _5 W' f9 M' b0 ^4 g8 f2 _+ \+ w% |人工:中 国 ≪ 美 欧,中东居中。* {' G) C4 o; V6 w" H
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
0 m+ N+ h$ p3 e9 F
7 V4 Z0 @7 s# ^对于典型 1 J/token 推理负载:
3 l& O @' U" H. C" |' P6 [美国 $0.30/kWh:电费约 $0.083/M token7 K0 j, r* ]7 `7 n5 {& z2 _% l
中国 0.3 元/kWh:电费约 $0.012/M token# ]5 A4 x6 M- K: R# f
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
0 c3 q$ C4 M% r不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?3 [1 S3 p. ? Q {" {* Y
2 S4 s4 E9 n+ `0 e在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;# G, P$ ?4 Z( I, N. G/ G
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
7 }. I" G# N" ^6 L: y# Z中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|