TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
- ]7 x8 p i, v$ ~2 x6 l
, W) s1 H$ i' k! o* s一、总体分析框架与核心结论+ d6 p8 w4 `2 s, A. B* M
1.1 分析框架概览
. g0 g' H# ?1 s4 ~2 n$ J拆分维度" Z: H7 R X) ?/ F: R
) \6 E0 S' e# `$ X阶段:+ u& u8 }) V5 k/ m$ M" B1 L
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施. h1 L, u( m0 K2 w
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
$ ?: h3 N: |) G" i9 B区域:) H! ]9 n# d f7 n" t2 H' Z, C% b! k
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
5 U0 q) j6 i' l& }" y d$ ~+ F技术方案:
) c, o: g+ ?0 ~" z Q3 g, HNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)" L. I: L# \3 |- z& S. E& D/ D5 z+ m
Google TPU(v5e/v5p/Trillium 等)
; Q. u% I; t8 o$ p8 ]4 {中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)' M" |! U9 z3 x
算例基准' j& p4 j0 ~5 `$ b- h i& N. L
n2 h- ]+ k# F
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
7 d( j& }8 L. M Z$ m其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
5 Z7 i- _7 j5 F& P! c" L. d* k. UPUE 假设约 1.11(高效液冷场景)[1][29]' R8 j& ~& k, n; w/ e$ N
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
2 k9 e9 \: ~: o关键指标
7 l5 L7 _( s- a$ w) W
# g( ?$ |6 Q, |7 {% }2 z$/MW 建设成本(含/不含 IT 硬件)
# I) O0 ^+ l" w" W% I/ J$ |8 D$/kWh 电力成本、L/kWh 水耗
6 G1 B1 \' H$ X8 S$/token 或 $/百万 token 的综合成本; C) w& M+ p9 Y, R
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]# L& R9 B4 I2 b! R* L. Y
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租). A! s$ K; X4 c W) v, z) O
1.2 高层结论(供决策快速参考)
. q' X0 L% P! y4 i9 O建设成本:AI 数据中心相对传统云数据中心成本翻倍
+ Q" n$ K% a, u1 R; L# q$ Q6 {
/ {- Z4 I, D9 z/ Q传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。: R% C& r1 ^& \( g1 d( w
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。, }4 ]+ a2 e$ x; t3 e- w
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。6 c1 T, l, w: l8 i$ c. r8 {0 M
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
# D0 v/ v* J" ]) O/ t
1 w. n/ y8 g% [4 ^5 r# M中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]+ ]# y6 y9 ~. m& x9 B
美国:$8–12M/MW,400 MW 约 $4.0B[1]0 M* x. }& v2 d6 h! D0 e+ B6 v+ q
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]2 C" d& B6 i, p7 y$ A" }
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
0 z+ A7 P/ w# x4 q结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
' u0 @/ ]; v+ JOPEX:电价与人工决定区域优势
; Y. E/ W/ ^3 e& A. l: d: u
9 \) H) R8 D+ G& p$ [电价(2025–2026 工商业大致区间):7 K7 u4 {. d7 N" d% M
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]7 z( J/ ?! N9 m+ i
美国:工业用电约 $0.085–0.09/kWh[44]
: D# b% r( x/ H2 r [欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]$ \# c h$ V9 U: c( B5 Z/ u
中东/UAE:工业用户 $0.07–0.13/kWh[47]
& A# ~$ V3 C' S, O9 L A8 h人工:# Z0 D2 R6 J# L
中国数据中心运维:约 $22k/人/年/ b# x4 F" u; j7 ]! e) D% ?
美国数据中心运维:约 $120k/人/年[1]
" K8 u9 ~ Y1 Z结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。/ x) p) m: U! M/ ?7 a
能耗与每 token 能源成本:能效差异远大于电价差异
0 B3 f U( U9 |) R: G1 k0 E j) M$ s' J. r6 I2 z
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
0 `+ n) n+ F8 W/ Z8 B! p大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
3 b+ J. v9 {$ `$ W, a( T2 b将 token 能耗约化为统一口径:* a2 h" h" \" b0 t8 x9 o
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:0 \0 z) M; k) V( ~6 t2 P: S
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token+ \' Q% H# Z B4 s# W
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
7 p. p. l, E, N5 J7 a0 u( ?对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。" I1 I; T2 d+ ^* T8 @2 S
不同芯片方案的核心差异/ f6 r3 t7 U# U. t$ e" L3 ^/ u
- L E2 k3 |0 `NVIDIA Blackwell/B200 & GB200 NVL72:
4 O. w- `; X% P* q7 _' P单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。) |( n7 Z7 E; h2 Y" ^! {
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。* o, U" I w# [1 o. N$ A5 @) U
Google TPU v5e/v5p/Trillium:
2 @+ |, y4 l- h% r: j4 mTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
( {3 a6 m/ h; o' U8 O& m3 fGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。9 w6 |/ u. E, U& B& G
华为昇腾 910B:
( D. n: {6 E) X+ x. E1 j4 xFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。: }" Z; I0 ]9 Y# T
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
) q2 x3 S* S! g' ~阿里平头哥真武 810E(Zhenwu PPU): b# E* j1 c( h3 F7 t
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
+ V% t* s" A9 n: f0 h. y结论:+ r4 ?) d4 o+ X5 E& n* \1 R
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。4 `/ x4 w$ ~& q7 J3 y! ^
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。: p* Y; }4 g3 ^2 l; c& x
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
. s! p8 D+ h' t9 o8 [3 f, U9 U- L6 g自建 vs 云租的 TCO 与 token 成本
( T1 o2 p! w, k+ M) w; X' M
' {- _( _+ ], j" j. n$ X/ r4 FLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
* ]& X- n7 ^. m8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
! W* x5 \0 E V) y等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
# @# z% [% W. K8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
5 j6 i+ `; G, V! s3 _Token 成本对比示例(LenovoPress 场景)[28]:! Y8 z+ ]$ i( M& R
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
! `5 c$ f) s% @ J5 ]vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。, M d! p- y- D, c7 J
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
# T) {4 U e' T% t( V" k Z5 K0 l C4 }Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。1 N! H( H( i5 N2 \$ h& R( H: l
结论:
6 U: [" y' M) Y6 N6 {高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
+ k+ t1 I0 _# [3 u3 yToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
* S Z( E2 J1 L1 x# s二、建设期成本分布:区域对比
9 l L/ S. ?, i$ O9 ]以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。9 _: w) }" i2 \/ {
' l2 ?3 g* C3 W2 S O4 A2.1 全球/通用结构(以 1 MW 为单位)
. X6 r; N c! ~3 c! T. F! j综合 JLL、ConstructElements 等[2][41][40]:
$ W+ H9 y0 p: G% R) @0 E4 ^
% N( O0 I: {* _+ B( k6 Y* B壳体+机电(Shell & Core): _1 w0 j1 G0 W+ n0 {+ Q
8 u0 f# ?0 u- ~1 q6 t% U( G全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]& C$ o* m2 e5 X8 b
其中按成本构成[40]:
; L$ \' _8 G- T电力系统(变电、配电、UPS、母线等):40–50%) _) Y8 U0 @' N( e6 {/ H S
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%) P8 E' I; f( ?( }0 b8 b
建筑与土地、结构:约 15–20%4 b: a: m) h0 n% M3 ?1 |1 ?
其他(消防、安防、楼宇管理等):约 10–15%
3 U' G/ L! ?' u% \IT 内装与 AI 基础设施(不含芯片)0 n* c" {! ^. q+ {) ?
! [ L+ B* M6 [$ u高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。- h- _8 ^1 N2 l; [
GPU/加速卡硬件 CAPEX/ e }+ k( H/ e6 w3 u0 W% S- i
6 Q- i* K& W: A! o多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
% C# R/ Q5 U ^2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
0 U/ ~% A! U$ g5 z结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
+ B7 j9 G8 Z' U2 W4 g: ^( a% C# h" S0 } ]
区域 典型建设成本(壳体+机电,$M/MW) 备注: n9 W7 @3 U5 y6 g) j; w
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
+ J) A% w6 G9 E) y* d+ R美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]0 q( z( P% m$ l3 u9 G6 z
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
& c5 N, v9 _; k$ o中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]" W1 s+ A! k* v* i; C4 J$ T+ ^" H: v
结论:
2 e5 W2 h+ R7 m2 g
3 B# w$ f5 `# j) e- ?/ L# ~* G2 I单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。# _" Q0 ?! F2 v" V2 ^, U
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。7 W3 H$ z) s. L4 \, G$ J9 ?8 Q' L0 h
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
" _1 t* n+ ]6 P( _& M以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:, F1 e( s. _) @& F
3 Q W: A7 @( l假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;% m# h+ C, O/ p7 w0 O$ W
GPU 配置:
( l3 P, N0 U( S4 e( R- F! L有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);3 |; H F/ u0 i3 {6 u
每 rack 成本 ≈ $3.0–3.35M[34][69];
! w# o. y% U" K6 b: n7 bGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。* i9 {- }- e' n& h/ D- Y
与不同区域壳体+机电组合:
0 _0 A; S0 v a1 @8 n8 p7 c: y9 z8 Z2 ^
以中值估算:0 a" a' \/ P$ H9 g
' C& ]$ z5 S {* @5 U中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
9 R1 j* U. d' S: V美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
) z3 |* D$ V& e7 j; h欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
( l2 C q6 D% M2 v中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B4 o) F# a' _8 f% h
可见:
4 c6 u# S, p0 p7 R$ U8 l' o* h) `
; c( ?) a9 o" n3 `% [$ {/ c" L8 @1 n& yGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。. F: g0 L7 H' x- H
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
0 [( `0 h% Z" C! c* U+ {; L8 ?7 D三、运营期成本结构与区域对比# f/ U: ]* y$ `
3.1 通用 OPEX 结构(高密 AI DC)
1 C; j% z* }, N: O0 N/ b2 t结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
. g0 h6 C! r1 w/ h% V6 F" W' z6 w* L8 A. V6 {9 c8 u
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
4 N$ z/ T5 @) D4 a$ r6 Z冷却与水资源:, l7 z! @+ b2 ~5 w
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。1 g2 Q- E* o8 S0 V1 Z
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
. i" j5 J* f0 |人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
" s7 O- I# O$ s: o& p: H- Z: G+ x托管/物业与维护:+ b* P* y6 n# E% Z
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];' Q! Z J# b ]2 U' e
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。% T9 M8 \6 ?7 T( S
3.2 区域差异(以 400MW / 3 年期为例)3 M* @2 B K+ y7 D
使用 ChinaTalk 的电费与人工估算[1]:3 A! r) B+ X0 u7 ]8 w1 K
( ^& ]7 o" P6 V2 ?* T4 g电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
$ e L$ q% h) X" j- `, ^中国:约 $0.06/kWh → 3 年电费 ≈ $350M
- I9 Q3 N& `: H& J! G" w美国:约 $0.09/kWh → 3 年电费 ≈ $600M
8 \! b/ l$ t2 E中东:约 $0.07–0.10/kWh → $400–550M: G; z" V6 s: B$ r J
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
5 A# [$ ^ B" A7 e* j6 @1 S水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
`$ W- N+ N! r% `# e1 }美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
}& n1 J6 F/ Y* N. P8 R, U三年水费级别:. b n( A2 B |- h
美国:$40k+6 ?" W A) r( e n" Q2 n! d
中国:$20k+7 `* S9 @" _% v5 Z" {
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
1 d- B, S- x$ R3 b; `人员成本(3 年) – 假设 500 名全职运维:
m7 F) s; B0 a/ o' r2 C: Z. M1 |美国:500 × $120k × 3 = $180M+
. `% K$ H6 {, x4 q4 [中国:500 × $22k × 3 = $33M+/ f4 \0 J* {1 q! O
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。, Q8 n# }' h! i& v4 S1 y% _
整体 OPEX 粗算(3 年) – 400MW 场景下:
. ?2 J7 T% c0 ~3 f) n6 {7 |
* R/ m0 f+ l% I项目 中国 美国
X4 K" r/ b; y3 S; L) {电费 $350M $600M
8 `6 A, X. K V2 v4 x* Q& G水费 <$0.05M <$0.05M
3 d9 a2 u( {2 n2 Z. Y人员 $33M $184M
4 l: ~1 p% ^. |8 N, ]* }其他维护/托管 同比例估算,地区差异主要体现在人工与地价 1 _% U1 D3 R5 h6 S' X" d
结论:1 D# }* G E) p* y5 s/ \6 G
0 w! r; v; R, j6 i1 @$ h
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
n _8 ?# Y/ i1 I O8 _. d$ V9 h对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。8 _) ?. h0 a" ?# w& o+ B
四、基于 token 的成本与利润推演7 f2 d4 z7 m k0 H# N3 p$ Y" X
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元) V( b' N9 r" ]# N
统一假设:
. i1 ~, X% C! i n- x/ Z+ m: o! Y+ j5 N2 x
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])+ A& ^$ f. K0 D
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh( [& J( r2 {5 }% p3 I& M
1 百万 token:278 Wh = 0.278 kWh/ }" |2 j4 F+ O; z5 `; w
场景 A:美国电价 $0.30/kWh5 g+ ^3 Z( O# x! }. ^# _# t
电费/百万 token = 0.278 kWh × $0.30/kWh
; ?+ T/ u# t1 H h9 G≈ $0.0834 / 百万 token
# O: w3 c9 }4 N场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh7 K, Z# q2 i2 a3 x) Q
电费/百万 token = 0.278 kWh × $0.042
7 u g7 M' I' A3 ]≈ $0.0117 / 百万 token8 b+ C* k3 ~+ n' ?4 T5 G; ~
对比当前 API 价格(OpenAI 2026Q1)[62]
5 u0 ^ c' T9 p' E0 v以输出侧为主(成本最敏感):3 A* N8 ^. h7 N5 K$ A* J
. f. Z5 i% O! B' i: d4 n, L
模型 输出价 ($/百万 token)
- n; `- k7 F1 _: f+ i- G. n8 z9 X. g2 ?GPT‑5.2 $143 W. G. L8 Y5 E0 a* p Q( i
GPT‑5.2 Pro $1680 q1 ]: p" w2 k
GPT‑4.1 $8, r6 r8 S% O* L/ L0 U" J% `
GPT‑4o $10 u2 e, e. @) O+ @
GPT‑4o mini $0.60* O a# A: J6 m8 Z& i
则:
, k' e" {1 j! e. U( o6 U7 G& c2 A* Q
+ O$ `9 u8 A7 b/ [在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。3 k% t7 M- [0 b! H- Q; x; t8 `
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。! f k, d- V+ S2 O0 f
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。9 Y/ ?$ W9 I8 K8 F" M2 O: i+ K
结论:5 r7 Z1 ^- \, x: z: ~, t
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。9 H3 I0 M6 c# o' h
/ v/ p V2 h3 _, f" v
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
* \6 E4 b0 F7 c* G! _5 P" J. @以 LenovoPress 的 8×H100 Config A 为例[28]:( f6 ^! ^; X' M. i1 l) p# \
! ^# F) B8 A# ^- O/ w' l8 D5 年摊销下,8×H100 本地推理 70B 模型:
' S) P0 f# B" d' @8 I8 {2 c小时综合成本(CapEx摊销+Opex):$12.08/h: _3 T" e* m) d
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens1 v% Y) N. r5 h6 V; y/ G
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token: R8 e# `3 i/ _' A. ~
电费在其中的占比:
+ o( A2 H) I. T4 H8 |8 l" n' `# ^Opex 6.37$/h 中电力+冷却约 $0.87/h[28]4 [1 m% }1 C' W9 R5 D3 A5 `2 Y
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
/ I" v" r+ {3 I' H0 p电费占 总 token 成本 ~7% 左右。
% `- |) ]5 u& w若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
" u" J4 g# |5 l# ?# s/ D7 h若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。- S# q( k# T9 a( r
( L3 e/ ], Z2 T- _因此:
) I6 }, K" \/ N! S$ \+ P2 @
. }) ?% R8 w! W- }在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。9 o7 m! w1 _# }4 |/ a+ i5 U( C
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
) _- d5 x/ K, k0 X8 h' {# e# Z4 K# X五、不同芯片方案的建设与运营成本对比
; k7 r4 y7 y+ R7 k+ g5.1 NVIDIA 方案(H100/H200/B200/GB200)8 }2 |7 A0 a t! H5 t Y+ K
CAPEX:0 ~- b+ H* _8 L) Q
- Z, Q+ |) Z; I g' pH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。+ U, C; L+ V8 T
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。6 X* U# x. u! w, P1 M/ D
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。: ]/ Q# ^5 H4 b* p) \
GB200 NVL72:; B0 u6 E9 d+ f' V9 @. X
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。& Q. ?% x* ?& n) k- `* K" u# g
冷却系统每 rack 额外 $50–56k[35]。 |' y a1 q$ N8 Z6 n3 u
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。1 s. B. b2 T; y9 F& p+ \4 i9 b/ o K
OPEX & 能效:
2 N2 r. \* T0 ^! A2 X9 l: H5 \( f6 q
单 GPU 功耗:
. _ Q- u# L6 V; z# M+ I# kH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。# c5 O+ x. x0 S1 a) r2 E' m
H200:功耗类似或稍高,但性能/W 提升[9][10]。
; z- [7 @. i3 F$ R; OB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。2 o/ t9 O8 y E5 s. R' R
Token 性能:; `2 s: `: g# c( K3 H. ]" U
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
, @( m; [7 {! i$ ^9 l' G& K9 }% v" U; CNVIDIA 的优势:
. n4 c$ G; b% W1 ?- r7 u* C2 u/ E
% e- |# i+ i& g! E! g) N1 q软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
4 c. V3 N# {1 g y, j+ n9 a/ b但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
& B0 [; X/ N2 \% A5.2 Google TPU 方案
& U$ ~9 J2 H2 M i+ Y& W: `1 A: X) P1 xCAPEX:3 ~ r, V# ^& J6 P! V- i+ }+ C
. G3 x" F4 ]- x. B5 I+ C' x单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。2 e3 T2 ^/ B8 N ~5 w* ]
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。% E% Q, h1 F7 C* A, ]
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。5 T7 z& Q M( h6 g' B9 H% e
能效:
. J2 }. d) K- e4 ^6 d
& U: d) Z+ d! J' {1 \* C& @) v# \: nTPU v5e vs H100:% J: s9 C1 R9 V# m
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。; S1 A5 e, ~; P' D% R
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。( Q2 l, T' p4 A5 u! R; }! Y
新一代 Trillium/TPU v7:
. o5 P/ p. p( ?8 V1 F6 I能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
) s9 f7 I& @ ?) h' h; QGoogle 方案的特点:
$ G3 {+ ?+ y+ h, g9 K3 @ S+ ]9 V' ^( v! {9 _: v, t
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;" y+ h% q8 l2 H& U+ G; X" L# ]+ {
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。2 h7 \5 U9 v- G& g, }2 O& j
5.3 华为昇腾 910B / 910C 方案$ G5 Q* g V1 F4 I! E( C- J8 {9 ~
CAPEX:
, g$ O2 J* q$ P+ y8 s
3 d1 [# Y Z, @( ^; `0 w! C单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。% k* k9 |+ \% [ R8 \; x. S
与 A100 对比:
8 l$ g6 J5 X* h, E" _FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
0 d3 e* v% d x8 ?8 [, n# {市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。! A6 c; ^5 g2 O z7 b$ l
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。- h s, i6 z; j I0 P
OPEX & 能效:! j+ W( `$ d9 ~8 [& [
$ l( M" M z4 k( C+ g
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。! \4 _7 @" P8 a& d# D! e
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
. a- W5 J, f# u |2 x+ j在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
4 b* L0 I& l# g; I6 D5.4 平头哥真武 810E(PPU)方案/ t# q* `4 {% H) u) K
CAPEX:
% r5 h/ A, o0 o# C$ n) n4 ?6 u/ Z! D6 J3 m |7 ]8 g
技术参数:
F, v& v# b6 v* O. Q9 V96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
. n: f5 e* l- H9 t) n6 `& R性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
6 w, r% U8 u& v5 e4 t1 W k! h R& W价格:+ W0 f9 o$ P) w3 O8 s
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。0 Z) o T: B4 b4 h0 M* m# q
结合国内报道:
n4 L: ~' I" m' |# p5 w/ v2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。0 P* ^- R1 T) J' ^5 c& ]* ] e
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。0 B/ s7 w# }- z8 ^. K
OPEX & 能效:# D! ^$ \- P9 W9 M1 @. N3 V0 W0 N
3 p' B8 t% R+ g% b- j$ D400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
! v$ D* I; h, i2 g. @0 o在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
& |8 m( g9 a# u" L% m8 m0 X9 t* a; B8 P六、综合比较与策略建议
0 k; D9 a( \3 |# z3 K8 ?; O) r: V0 o6.1 区域维度:在哪里建 AI 数据中心?: a: K& ~* V2 B4 l I0 A3 P
纯经济性(TCO/tokens)排序(假设无政策/合规约束):3 Q% i3 j+ L3 x2 w L6 k9 l: \5 ~- W
7 N+ f; q( |# B3 t& c中国西部/北部(电价低、人力低、建设成本低)
# d/ F- c3 H7 C& I+ N中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)5 z, q! k( Y( x3 _: k6 l6 L$ E4 e
美国电价低但人工高;东海岸/加州电价上涨压力大
. R, J- q: Z0 ] L2 J2 I欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
- K9 b7 Q. a7 d/ l. K- T7 M若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:3 W4 w0 m) l+ M2 d S" ?& F7 j. P
9 J" i% G; f4 `8 V/ B$ I* ^
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
# R' B3 |. U# o- K+ W对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
3 R) C! L+ b U9 V1 o3 c但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
3 }4 Z9 K: V3 a) Q+ N, y$ y4 v9 [' X. l6.2 技术栈维度:选哪家芯片/云栈?1 @2 x' ?: @- W+ `! U9 o
若目标是全球最优 tokens/$ 且不受出口管制:* S6 A. W$ z/ R. E
& F5 z# D: W" n, H# LGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
& @% `* K6 T2 V& p! \若在美国/欧洲,能自由采购 NVIDIA:! q9 f3 H# L: m
9 b" Q, k. [7 [& g
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
) ^2 r [- }, k3 J成熟的软件栈与生态,极高的 tokens/s/GPU;0 P% ?, g4 x& r0 O
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;3 N& e3 ^. N$ M. W
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。( ]$ }+ d' I" U6 S, `: u" D
若在中国或存在出口管制约束:: X: a* G, p3 B% C
2 z0 W1 Z7 N; B1 j/ P8 j& ]" |
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
0 A2 t0 C9 Z5 x7 r/ {: b3 V性能上已能覆盖大部分 GPT‑4 类推理需求;* B0 ~; \+ E4 \/ w( J
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
0 \4 D! x8 k [: u软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
3 j( p$ h7 B" j; N( \7 ?建议配合:* ?# l- c T ^" R }
高效液冷(PUE~1.1)、
* a7 c+ ~" q% s+ t大 batch、路由(浅层任务走小模型/低成本芯片)、
$ i! n" [$ @; X7 s: W0 _4 i强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。/ l z9 K' `4 V p: |9 ~
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
8 C: N$ [+ }+ ~6 o9 _
5 u& ]) V) l G2 Y* {数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];5 x. s3 l# G* T/ D
这意味着:/ x% U6 Q7 u- f9 w* t
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);& m/ Y+ Q) i* s5 p: k5 ?# O% ]
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
1 S$ r; Q6 g$ ?" d# n6.3 针对你关心的具体问题的简要回答
- i3 N- } s- NAI 数据中心建设 vs 运营成本的大体比例?( D d0 H' R! }8 m( ?
+ l8 e4 J8 D: K- g" ]% b在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。% j; B2 G4 Q+ U! J
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。: y( F. Z. E1 P: V5 M3 n; o
中国、美国、欧洲、中东的成本结构区别?4 R1 i: @7 R; Z+ Z+ ?! X5 K
& z! e% ^7 T" ~8 u5 @& D5 K建设期:
, L% W0 z% c* T$ E3 u* j* b) y$ }/ P' x中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。6 ?9 `6 }' h5 Y. w3 `, i
运营期:9 I2 b- f7 Y& a8 C" @ `; |) y
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲9 M: y5 [( Y- e; C1 d$ B7 d
人工:中 国 ≪ 美 欧,中东居中。
1 M9 D' e# X- L- O; v) J5 t% N- x在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?( W/ V1 L T9 C4 b( N I4 C
6 @4 X3 w& d# I. P4 [
对于典型 1 J/token 推理负载:
i$ e" m. a+ J* b. }美国 $0.30/kWh:电费约 $0.083/M token1 S, h0 z- C9 _0 L
中国 0.3 元/kWh:电费约 $0.012/M token
, X0 J Q9 ]! Y7 Q) e. A( I对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。+ U$ L' D+ I, D
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利? i, F; v/ C/ G& h
' `- ?" o0 a/ I& g0 E% a在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;- A* p6 d2 c. z3 E
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
1 y3 u( z8 P$ y' L2 H: k中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|