TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:4 _/ H/ Z; G0 H
3 x: v$ X$ T! p8 u$ p一、总体分析框架与核心结论
1 c: n6 \, G; U, I, c" K) Y9 e" Z1 t+ w1.1 分析框架概览
* K8 p( G3 f; G拆分维度
' H1 j8 t, r% ]; G) }) v9 q
1 J4 o% ?% A9 H: p' q$ G阶段:) d% r+ P/ Y+ p) N
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施' V0 F+ v/ M l4 ^- P: k6 I# k
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
4 {0 ~& j7 C+ v; o# N2 M/ M: d区域:
( K: b5 ?* Y3 q; n0 o中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
2 A3 N) V6 H9 t技术方案:& t( _7 M* H7 x+ N' C8 a. F+ P3 L
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
+ U+ D9 s* `8 ]7 Z/ AGoogle TPU(v5e/v5p/Trillium 等)
1 i1 t/ D4 z n1 O, ?: T, `中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
0 ~3 I9 F2 q- A9 T+ Q算例基准
9 |" u+ b2 D5 d! P2 w
: h! M; i, e1 n9 Q# S7 D以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
7 F, i4 v, v2 B ]! ?) M其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW! s( e) z) E( l
PUE 假设约 1.11(高效液冷场景)[1][29]
/ e' o0 E+ F- @! n4 \. v0 S3 n$ R时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
' p7 u+ R& B/ n; h$ \关键指标" _" A+ y/ O$ j/ I/ M
* U8 h. }# A9 z
$/MW 建设成本(含/不含 IT 硬件)
8 a% k, |5 o8 ?7 H+ X! y1 R$/kWh 电力成本、L/kWh 水耗# j. b: ~ y3 o# I* \0 A* q
$/token 或 $/百万 token 的综合成本
0 C+ L: r* }( Y$ ]+ S5 @8 rToken-per-watt / Joule-per-token 作为能效基准[17][18][26]1 T/ `) v% F% \$ ^* n8 P
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)) f, b) e' F/ a# I9 L: ?' U
1.2 高层结论(供决策快速参考)
. a8 |+ S9 G2 B1 ]7 L7 z建设成本:AI 数据中心相对传统云数据中心成本翻倍
( t8 Z3 ?* E7 \ A# G+ ]# h2 H4 E8 }1 \( E6 t+ E
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
3 n. b1 e6 i9 |2 x0 lAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
. O& a4 A7 {" N& f, k7 W) F# D% e按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。: j" E$ T2 q- F2 B. O" G: Z6 N2 n$ S
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
% _' {3 j; [% T" L' h/ F4 b
- ?* `- l. U$ n ~" g* |" S: F中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
& N; O+ U* r' s: u$ }2 m美国:$8–12M/MW,400 MW 约 $4.0B[1]- P1 R1 b2 Z5 l9 G* _
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
/ M3 [1 ^) t! w' m中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
+ X6 X8 }2 g0 K结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。% |( f+ v J1 Y. r
OPEX:电价与人工决定区域优势
" C' N1 i K* y B3 H3 n) C
# H1 Z# N- w. h7 \3 H" V电价(2025–2026 工商业大致区间):7 ~1 R8 z8 h. R- b1 ]% s4 u
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]" X6 M g" Q+ G8 _
美国:工业用电约 $0.085–0.09/kWh[44]
% m3 u7 S& z8 a6 W# T6 {; k' L欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
0 M' @2 ]3 p' g; s6 w中东/UAE:工业用户 $0.07–0.13/kWh[47]
- _! S- | V: m3 p: P% k: c9 g人工:
$ w5 X7 J0 Y W: f中国数据中心运维:约 $22k/人/年
2 D2 g6 W( Z& ?+ C$ M$ V& | L美国数据中心运维:约 $120k/人/年[1]7 d. u( d3 h6 {
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
1 }! x9 c$ u8 i, N, B A9 O$ m能耗与每 token 能源成本:能效差异远大于电价差异) ~: E3 Z; c; S! ? p5 c' e
' o) P; S# t$ ]7 WIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。8 d0 G" n$ h/ P
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。( l- H$ t: h6 x
将 token 能耗约化为统一口径:6 F+ B5 H" W& m& D2 l
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
- E; ~4 p+ u# @. |7 }( Q! Z& D中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
- l1 Y& G ^) D美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
" Q$ ?$ B5 b7 V$ ^" f% ?! w对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
$ Y) h! T/ C* F不同芯片方案的核心差异
: v4 ~+ t$ s+ D3 N9 B) J* y6 f# d) d7 ^3 I) E0 H
NVIDIA Blackwell/B200 & GB200 NVL72:! u6 [) m* O) L7 p1 n
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
) c" m |3 Q2 x. R0 pGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
- d! ], F2 S+ i# A& e4 \3 IGoogle TPU v5e/v5p/Trillium:! q& \9 G3 I a' b5 O) b
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。. C) Q8 w$ M! \9 f. u6 N5 Z
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
' T1 @6 Z/ L% C- J, U" \0 K华为昇腾 910B:
$ q0 H2 b8 a5 U- g, W, fFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。4 t6 J9 k' }5 b1 F: i; V. |) S4 w. o
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。' U! S" q) U5 T% \, z
阿里平头哥真武 810E(Zhenwu PPU):
% x) A7 D, S) I8 W96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。# F& \0 x1 S+ E; b2 q4 ]9 j
结论:
/ }4 L7 L5 Q/ `能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。/ m- S/ v7 |$ y; o9 f
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。5 \% b- W1 F) n" _3 ?" T; ~
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。' n. \) ^" N, T! o( ?
自建 vs 云租的 TCO 与 token 成本& Q6 H3 q" }; v7 v8 _3 s* w
4 m5 Q* ]; ]# M' i0 `0 K- E; lLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:! { H3 t8 \0 o) P4 K0 y; r
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
* ]' Z5 E; q" D) `# _等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
+ r7 k0 z- r b8 a, @% G8 M8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
* f# p: a* {) w1 N' A; xToken 成本对比示例(LenovoPress 场景)[28]:3 B8 B" ?# H, H+ I/ L
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
+ @: D/ e" u6 A( [vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
& ~$ P$ o0 ~+ S5 Z- L同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。( E# A4 T0 y* b0 Q/ E
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。+ m( }" A0 J8 Q3 [) H
结论:
0 u8 _1 c% f9 a! c- H. a4 \高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
1 ~. w( y0 ^# d9 d% PToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。4 F `: s& p! O& ~! z
二、建设期成本分布:区域对比
0 y" p0 h- p9 g8 U% l# n以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。1 Y. c3 S }* y( \+ ~
$ T0 t6 ~0 d5 M# ]; H2.1 全球/通用结构(以 1 MW 为单位)
7 Y2 j) T' Y& ~综合 JLL、ConstructElements 等[2][41][40]:
* U6 N; C( J3 O! R q/ G* O* K. R9 D
壳体+机电(Shell & Core)$ M% _& g Z% o5 r# v; P. p/ l; F, o
( P* E8 ^0 J* O- z5 J5 C6 j1 H( ]全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
) q# C6 J/ P$ @' s9 P( f4 ~2 n其中按成本构成[40]:
' B$ N$ ?& V: ~5 {5 |电力系统(变电、配电、UPS、母线等):40–50%: {+ ?% G6 T. U3 ?
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%9 C( S" _) b/ H% E+ b6 A
建筑与土地、结构:约 15–20%
# I# f: Y/ p6 a- _& [2 \% d$ O8 L其他(消防、安防、楼宇管理等):约 10–15%
A) _# ~. L" q- UIT 内装与 AI 基础设施(不含芯片)% W6 _( P! y0 F7 N! a" K
0 a; d) T: k" e. y高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
' p9 Y1 B# [" v1 f/ i9 _GPU/加速卡硬件 CAPEX0 k& ~* @( R1 H, E9 E; W) w
7 A9 V. H4 A6 n% z多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
- }4 |' `0 \3 z* v6 r) Q. q: j2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
# D9 p" {" _6 O* `结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
. L; s# I: X j( O, n1 ?
) d7 a4 l2 [: C$ o+ ^5 N% {9 o区域 典型建设成本(壳体+机电,$M/MW) 备注
" [3 f. L+ T: q" \中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
3 t) O% |: I' p z8 q1 K! N N美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]" q, B$ y$ x, `! L" d9 b6 L3 ~
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
$ y/ n1 m) |0 o" W中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20] a- X* i, W- w0 J: C3 w) T$ g
结论:' ~- |0 u1 b8 s; d5 f- E# p7 `8 O) R
2 |; x9 ]5 j7 Z0 w单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。+ `. v1 h6 k4 p1 `7 o1 G" e: J
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。( \! S9 K V9 V6 j
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
! I# e3 X2 \" m2 P' u7 J以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:# d+ o) ?' u3 d- @- h
# X+ ]" t, [; h3 P' v6 L- D假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
/ D+ E2 k, A! @5 ^, E9 kGPU 配置:) Q- C6 Z1 H: y
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);' C! Y4 F( h8 C; d
每 rack 成本 ≈ $3.0–3.35M[34][69];% x9 U: f# o7 Z. j# k6 E
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。9 f+ [! q: I4 V
与不同区域壳体+机电组合:
/ m! H. k _7 ^8 N! m9 K5 @: c, u+ @
8 d6 m' f* h* @! m以中值估算:$ u% T/ H; H$ z) p( y
. p: E% i! A8 w* d2 T: d* S2 J; c
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B& `& s; J4 R2 b- h3 |. i9 _$ R9 B
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B! S6 T' |9 {$ i) p$ O# J1 c4 E3 E* N
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
+ v0 b! b- c8 g6 h中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
. ^9 M' L {8 l: u7 k% {可见:& j& G# `& D7 k- P
1 J1 E& e2 H ^$ L8 i; R; l5 @$ m
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
1 {3 @9 |: m& L# v相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。5 I) c& ^- f9 h, t
三、运营期成本结构与区域对比
* Q# x" z7 Z2 q3.1 通用 OPEX 结构(高密 AI DC)7 s3 v+ m& J$ n: r9 {' e2 S7 t
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:* K$ a% ?# a8 C- Y5 v
7 m& o& B( M" Y2 c) Z% v$ a) U2 M
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。' I2 t& w4 B, p1 S$ R
冷却与水资源:+ m6 y$ P8 u! f: q4 b' z
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
( t. b, M5 U# G5 W1 G- b0 n- @水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
3 E0 S# K" k& s! W9 s& g, u人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
* W3 Z: V2 y: |4 ]# O9 T2 ?# [5 X托管/物业与维护:( ?% `" K* s8 s! s
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
) J* q' V! F+ s" ` l* j0 R- Q硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
1 [" J, S6 a; |" a# }$ ]$ I3.2 区域差异(以 400MW / 3 年期为例)( d7 f' T1 s3 B1 |
使用 ChinaTalk 的电费与人工估算[1]:
0 f) M( d$ m- d. M7 H# z
+ [1 _ t1 O6 j# w h电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:# F/ @: i# ~( v7 b8 N
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
/ g7 W% r! Z6 e! V: L( m美国:约 $0.09/kWh → 3 年电费 ≈ $600M& o) G2 p, ?" L$ E* m
中东:约 $0.07–0.10/kWh → $400–550M, }$ S$ P7 C/ |2 p
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
! j9 @- c/ I) [" H5 ?# R! Y水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:8 o) K5 i" t9 R8 A+ ~% U
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
4 g% e' [; c% E- R% p% _5 E4 O4 i三年水费级别:
4 p; Q) F) J# [5 U t美国:$40k+
7 N5 g% _) `, {* N中国:$20k+
( a* E# v* z% C结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
# k8 A# t* G6 D$ i, C! i人员成本(3 年) – 假设 500 名全职运维:
$ L# L: K2 u6 ^( ?6 E' T. [# F美国:500 × $120k × 3 = $180M+
0 ~ `8 b: Q1 B, C( l5 O中国:500 × $22k × 3 = $33M+& V* o. _6 C; c# N; u
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。$ N: D2 G7 P c8 I) X
整体 OPEX 粗算(3 年) – 400MW 场景下:/ ^: T9 Q( N$ O2 G E
4 A/ g! B' N8 ]1 F% s6 i- c8 y
项目 中国 美国
p, h) `% _6 G$ H电费 $350M $600M
- I4 J" v- _- G" K水费 <$0.05M <$0.05M. h' {$ Q3 i3 P% d, r* y
人员 $33M $184M$ F- x l3 O- f, s
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
2 G9 }" {7 c. b$ z5 j结论:6 T) Q1 d) F5 N# z, ?% ~
- _- L( C$ p5 Q4 F4 u就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。% ]4 N8 k. N! x2 p& u: D0 \* ?5 E
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。1 d" @9 h" l" z- D" @
四、基于 token 的成本与利润推演
' D0 P F& D$ P7 y& P0 L+ u4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)' C* C2 A# @: q3 A9 w& E( M6 s
统一假设:6 Y2 x& \+ \/ |* A2 f3 s) g
' R2 g3 K$ R% q4 z
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
+ s' q7 R% G+ ^9 H4 L- F a$ c1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh) Z* d0 p! C6 T; n. F
1 百万 token:278 Wh = 0.278 kWh. l, v+ }1 I5 {. \# C0 \; I6 @
场景 A:美国电价 $0.30/kWh- A, j" ?! J; j/ `
电费/百万 token = 0.278 kWh × $0.30/kWh
! ?5 Y8 I9 E) e0 `' C. x* ]≈ $0.0834 / 百万 token5 r* l9 F+ v( ]- |! w8 u7 W
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
. d: G" ~# d. n1 I8 q8 a* Y% Y电费/百万 token = 0.278 kWh × $0.042
; _- p" v" {" J; X& l8 x≈ $0.0117 / 百万 token
6 W7 G( {; j/ R( y' t( P v. |对比当前 API 价格(OpenAI 2026Q1)[62]
: r* K( G7 F+ p5 B d0 i& s2 T以输出侧为主(成本最敏感):
! i' r5 A& X( |" d/ k
: g- `# m: e5 F* i% ~1 x( N4 {: k模型 输出价 ($/百万 token)
. P9 m( t- l* ^) y$ o% aGPT‑5.2 $14
/ ]! [- T& l( L8 H; g9 tGPT‑5.2 Pro $168
7 \7 {1 {3 f# M8 M* oGPT‑4.1 $83 h! j$ V9 K& B( U* D2 n
GPT‑4o $10
1 t! H, e4 v. Z" ~GPT‑4o mini $0.60
?; k7 t) n( q& `( ]# A2 e, h* B4 e则:
2 P; j$ e. V8 w# R2 o7 [5 K
% H' E/ F% s9 j在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
$ h4 T; i \8 Y, k8 N* R' [: X在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
9 }% B& |; v' t5 w$ K相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
& F& A9 P7 \* b, `结论:) {6 _; Q( t ~# }
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。* P* z% c5 h2 v, M
# @- D1 \. ?5 D' J( t
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO). \& x" ~2 |9 ?, @
以 LenovoPress 的 8×H100 Config A 为例[28]:' _" o7 k V9 W
! o5 c' k! T9 R: [! L: X
5 年摊销下,8×H100 本地推理 70B 模型:5 f3 { l0 u# F" Y- t) ?6 H0 R
小时综合成本(CapEx摊销+Opex):$12.08/h
4 q+ M3 a ~/ B7 P" W9 A吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
' M" [( J2 d" P! k0 s/ a- Q成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
: K' u3 P7 s$ B, F" @+ y8 n电费在其中的占比:
+ v! q: ~5 d; O3 QOpex 6.37$/h 中电力+冷却约 $0.87/h[28]8 z5 {% m4 R3 s8 ?/ Z$ P& p' G w
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token4 y, f# V4 R$ D: ~* P! m: O+ [! P
电费占 总 token 成本 ~7% 左右。( q z% ~+ S& o" F5 I7 n/ B% h0 G! J
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
7 E& O1 S( @+ f/ b: z+ c3 h' v若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
" [; ~8 c' f8 j0 D. i& \- h, x2 v3 y* o: c4 s
因此:
$ v( T1 a0 U% s$ ?* _6 C; g- _* ~* d6 \# O0 _: R6 M0 L
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
' X& ^/ W0 s& q5 k/ \在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
' A2 B. o& p u6 v7 K1 [( F3 m五、不同芯片方案的建设与运营成本对比 W8 P; h: \4 ^& d$ N( G* L
5.1 NVIDIA 方案(H100/H200/B200/GB200)
- O, x. m7 C3 Z, m2 }CAPEX:8 u* d9 C! C- F! i0 f4 E; ]
! l" @1 P* s. ]. g. N
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。5 F& |, x' U* Y2 E( C# {
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。3 G$ E. Q; F) Z, |1 e; Z% {* i
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
2 z, n* l' {8 hGB200 NVL72:
* m) t# \( D: A% u, B0 u$ I! B每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。2 K( _0 u7 F* I h5 w
冷却系统每 rack 额外 $50–56k[35]。. P# k' x9 z% \' Y5 I3 g1 p9 ]' ]
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
& b9 x2 S( g& k9 MOPEX & 能效:
" K! \6 `2 |% n3 [
/ _- e9 \8 k n& ^单 GPU 功耗:# V m$ u9 _+ |" S
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
, p- Y r6 Q. @H200:功耗类似或稍高,但性能/W 提升[9][10]。
' E, r4 L. Q5 W$ wB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
, A+ |: m# B' ?: @5 WToken 性能:0 A: p+ M) w U( p" n
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
2 I) [$ I6 {3 k! d1 f ^NVIDIA 的优势:
$ k; G7 L% }2 B, g4 T9 F' }% ]4 [* {/ x; A- u
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。' k" c6 F9 R0 u6 n/ u9 D
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
) Z5 D1 I# {8 \2 q2 |$ ~7 G5.2 Google TPU 方案
$ g Q7 {" W. A! T) k5 tCAPEX:/ ~% |2 V& v# j# [* g0 f9 P
% q' |3 y0 a7 A/ M7 q8 H单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。: i4 W5 i0 U" w+ F, ~0 S, }" j
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
( g* \/ I0 y( O8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
: q- X$ F% q9 n% D- p6 |, x9 @能效:
8 d0 i' K1 ]! n) o0 A9 _# x: T$ ]1 ?) x7 P( F! r& A
TPU v5e vs H100:
) h' H7 V6 [3 [% k同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。9 U# z7 f* w8 D% T# i. A4 l! `
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
. E6 U2 O8 D5 e; h# D2 }3 g; V新一代 Trillium/TPU v7:
2 x2 G- \+ m. S: z; y0 v4 Y! `能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
, c# W. C* |4 U0 ^Google 方案的特点:: u7 k4 d* O% O( N
3 `7 ^* Y! S8 T$ R自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
; l: E8 J; z! M( ^9 E2 g2 D对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
3 T: d# ?3 Z. H+ ^4 f5.3 华为昇腾 910B / 910C 方案
6 a, { |& P& q E8 X" LCAPEX:
- ]9 ]8 L( L' s1 J" J9 T1 Y2 Q5 y2 l7 y
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
( D; S0 V" W: ~与 A100 对比:2 Q6 y/ [( i+ p' H
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
1 Z, d2 ], G% w( `6 H市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。! E4 D/ E6 Q- Z0 w& Y: a) s1 |) ^
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。/ t9 V2 @4 ] r" Q N! C6 y# q
OPEX & 能效:: ~; i% h# ]" Y9 m& E
8 Y4 J2 w2 q( P910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。2 ~! n$ X3 b/ o& k/ M! M0 M8 x
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。3 P( C7 V* c! k: r
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。* k# F- J$ U* [9 J9 K
5.4 平头哥真武 810E(PPU)方案
: S. N$ _, R2 }8 K% i6 G ]1 pCAPEX:
9 x i. ?! I" k( b( K4 _
/ t* T& ^4 |3 w' {! W; r4 i1 h技术参数:
, z$ L! v& L4 _6 \* V6 ~2 P6 E5 h96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
5 h# ]) k" `$ b0 `' n性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
0 z+ O6 @% R& H价格:# j$ X! S H+ K$ L( m0 M
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。# i; T9 l8 H7 `' D* B& B
结合国内报道:
# b% H `6 A& _: w$ ^9 C2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。5 m9 P: \: A6 k2 Z
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
% ^" j6 a8 r$ c7 [5 t" b4 cOPEX & 能效:
. z v& D( y; K) m- v1 g8 B7 k7 h8 G8 \6 x% o; V2 K1 ?
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;8 T, Q% y7 ~+ f9 J) v
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
% s6 j# q6 ]4 L4 \$ h六、综合比较与策略建议, X7 q3 T! J3 |! C; {1 W
6.1 区域维度:在哪里建 AI 数据中心?( Z* I; Z3 W2 Q' @$ |2 ^
纯经济性(TCO/tokens)排序(假设无政策/合规约束):
, o' c2 l: a. x5 [+ [! E& a1 [
4 B" h$ |/ o, l' q8 U) g7 B中国西部/北部(电价低、人力低、建设成本低)
. V Y4 \8 O# L$ h8 [+ W H1 z% R中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)* r- B; n1 A' o( O/ I0 k5 F& ^2 w
美国电价低但人工高;东海岸/加州电价上涨压力大) t: f0 H4 r. b, h$ }
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
3 }! o' \+ j8 [若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:# q0 o3 C$ i( K* U
- L8 ?: y, {4 m) O* r; U; [& j纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;8 Y' f# A5 b, N1 q2 A3 i4 ~8 S
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;% H1 k# P: A1 J6 u! R3 Q$ Z
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。( t( \$ m$ }9 d0 @8 \
6.2 技术栈维度:选哪家芯片/云栈?8 E, Z& d4 v9 J
若目标是全球最优 tokens/$ 且不受出口管制:
7 a! Z3 k; b4 `: h* T: F5 W C# Z# v0 P4 u; r; \
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。3 U T1 P ]& v: X6 E) S) W
若在美国/欧洲,能自由采购 NVIDIA:
8 Z% l' d' r G2 ~5 @
. r) l7 O% R7 \! W0 r, }( k+ Z7 \短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
7 I: j* U7 E9 f% R成熟的软件栈与生态,极高的 tokens/s/GPU;. B' V8 A& Q/ C5 k
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
% c9 C+ B. l7 k l8 n但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。, ~1 z7 ^5 N' N& |" b
若在中国或存在出口管制约束:* K7 D2 R5 i# `7 w" h" M( T+ e
- n o4 u" E6 o6 [; I" ~' C
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:- s2 B I. j# @ `
性能上已能覆盖大部分 GPT‑4 类推理需求;) P* m! n, F( B& ?' ?. |& o/ o" D
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
7 R) M2 z6 L% `软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
; P$ G% C5 L3 ~4 t建议配合: ]# N' a/ B ^1 X; r
高效液冷(PUE~1.1)、
- d8 T! ^1 P- c4 p$ [. f6 ?& \! m, t大 batch、路由(浅层任务走小模型/低成本芯片)、
3 w/ G8 `3 z. T4 a! Y强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。$ z# ]' \) R, w# y1 s- M
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:4 S8 y! F$ [0 }' ^6 `
/ v: S+ [7 A0 r2 o; H4 Y
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
2 j) c' {# o/ j; }% a这意味着:& z- h$ f5 p* q0 D9 z( A3 ^2 D
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);& _; _, Z8 ]! v
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
$ l. _4 L: ]+ V" o5 F2 x: O6.3 针对你关心的具体问题的简要回答7 ~. p [- r, w" B
AI 数据中心建设 vs 运营成本的大体比例?
3 _9 C0 Z D4 O+ I" P/ T
1 I, T5 T( e* V. i' e1 y; f在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
, H8 h6 _# x0 [5 _5 g其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。8 f( s5 O/ m" b$ y
中国、美国、欧洲、中东的成本结构区别?8 a# [. _1 z3 r. _% [+ u
0 H5 K s, x6 |' X$ O" v
建设期:! ?8 o1 _4 m* H- x7 Q' t: X% |( Q" m# f/ w
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
1 Q5 H2 f- h9 o1 k( V运营期:
. U- V+ a2 G$ H8 T4 M电价:中东 ≈ 中国西部 < 美国平均 < 欧洲9 K& Y; s. V Q: K1 D+ ] Q. i: F9 Q
人工:中 国 ≪ 美 欧,中东居中。
: K3 ~* D8 F5 a/ P9 f在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?: |3 o. X0 o; r1 j8 A; ~: ~
( e8 h8 j B% M) g
对于典型 1 J/token 推理负载:% R% `0 q: Y1 I2 l: F
美国 $0.30/kWh:电费约 $0.083/M token
8 N- p; ]1 a1 N' `" W9 _& e中国 0.3 元/kWh:电费约 $0.012/M token
& x- F, S+ b8 Y& ]/ b对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
5 r* [$ ?6 X0 S9 ^/ Y* j$ J不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?/ c! T7 p; {% \* X# U I6 a$ Z
7 _( J8 A5 X, G8 k- Z% W( Y
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
+ U- \7 _8 P% {1 U全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
T. b' r+ n9 U- B8 K% {( x2 q中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|