TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:% i# f0 t5 c5 C
+ o; u- x3 }9 p7 T一、总体分析框架与核心结论 Z& o# w7 T- c
1.1 分析框架概览4 o2 P1 n& N/ G% E" Z* h/ [
拆分维度% ?1 u, K3 T: M7 s6 X" S
8 |6 J3 a" E3 u, \* v) M5 Q阶段:
% p6 E; W) D" {% u2 g8 `) ^建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
8 ]' c) ]5 G8 T$ F7 Y3 F运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
% R$ J% s8 o6 }4 t区域:
" G& Q4 b/ Z G中国、美国、欧洲、中东(以海湾地区/UAE 为代表)* L" X# l# s3 d: f" N' g0 E
技术方案:# s3 V$ W; n L/ g. o% Q/ k
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)# r" L+ a1 F3 p) i- x
Google TPU(v5e/v5p/Trillium 等)
! k5 k2 Y, S9 G2 }# E, W中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
6 T: g. B0 Z$ D算例基准
, _, O' w0 y \( T+ a% Y8 f# }: E
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:6 e& @& ]$ o: ?" X3 j% P
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
& Z# ^, t1 i2 i% `, ~1 g8 Q9 F' tPUE 假设约 1.11(高效液冷场景)[1][29]
* J/ \: G! J9 o, `5 j- L时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]: L; i) ^ J& J4 N
关键指标 _3 S. `! Y0 _. g; Q) L# |% V
" D8 O/ Y0 d) x1 i& S) V# H3 c$/MW 建设成本(含/不含 IT 硬件)- ~$ `9 w" T! r7 x3 j( O
$/kWh 电力成本、L/kWh 水耗
0 k/ n3 S9 a! Q1 z# L7 A8 {7 k$/token 或 $/百万 token 的综合成本
; V( P; E; L; e. `( M1 Q8 ?( @% LToken-per-watt / Joule-per-token 作为能效基准[17][18][26]
; c, X" o& q8 Z, E6 i8 k2 q/ F项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
n6 q' X% k- j T4 e1.2 高层结论(供决策快速参考)
5 x+ u4 B5 I5 C) p: c4 J1 D3 B建设成本:AI 数据中心相对传统云数据中心成本翻倍
+ x- D) j/ m Z0 }8 J0 U
+ w" n: w4 N5 u4 j4 e传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。( H2 u, W& _6 O+ Z* K
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。7 U" Y; h5 z& n8 Q
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
. g* Z u% s/ Y- B4 v4 t% I2 ]: k区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
% L1 o0 m9 v' h" |4 c- ]! h* Y0 l# i* @
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
- g" x a6 o* J3 I+ Q美国:$8–12M/MW,400 MW 约 $4.0B[1]+ i% U. Z& {; ?- N: J/ M
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
: h( l- d8 X* T% s" ?9 |( C中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
6 P) ~ i6 X7 v4 g% o0 S p2 [结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。6 I$ ^2 |7 x5 E. V
OPEX:电价与人工决定区域优势+ Q; ^4 _# @0 x! a' J& k: X7 D2 `* W
, ?6 [4 B7 x+ A- m f, o
电价(2025–2026 工商业大致区间):9 |4 f9 Q& x" ?( Y; n" R( {
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]5 V4 W3 k$ c( T% w. J3 S) |- O% \" x
美国:工业用电约 $0.085–0.09/kWh[44]
0 N( V1 I5 |3 x( c+ q9 ]' S欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
. ^* u# ?1 e" i. n, K, t- F中东/UAE:工业用户 $0.07–0.13/kWh[47]
: A8 Z+ j3 Q7 _$ y1 k; }$ T人工:. H! F$ x% T# d' M2 k& m v! ~6 s
中国数据中心运维:约 $22k/人/年
# _; Z6 E3 ?0 F% ^5 I美国数据中心运维:约 $120k/人/年[1]' F& |1 E) H, j* v. c7 m P/ \
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
V6 X7 v6 \9 J% f3 n能耗与每 token 能源成本:能效差异远大于电价差异+ q$ j0 D+ X( r, B
! D% Q0 \) ^4 G1 S$ W5 Z0 AIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
+ i9 O$ E0 }1 x- j/ P大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。- ?% `! F! M; b" I3 o' j
将 token 能耗约化为统一口径:: C9 _% m! V/ ~% K4 M
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
2 V1 ]* H, m8 _3 k8 ~中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token# Y% x' y3 l* F, g
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
: M, I, T" H- @3 O' Q对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
8 O0 H4 b( o* s) O不同芯片方案的核心差异
+ `6 A0 [6 y3 k: a
3 o* u) r, y# {$ G6 M/ i0 i- KNVIDIA Blackwell/B200 & GB200 NVL72:
# D, p+ N$ C* r/ ]( `单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。' I9 _( j& g, C1 U! ~2 ~
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
) {# b4 y' B! P* L0 U3 c3 m% KGoogle TPU v5e/v5p/Trillium:
G# G- P6 V: S: ]TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。0 ?- v; T* q5 s$ ~
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。& s7 p0 {* }/ ?; a0 t) S
华为昇腾 910B:. K/ a. K" p! Y) n# L
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。: m2 C6 j1 [* D& [
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。: B' `7 M6 s: t) ?# |
阿里平头哥真武 810E(Zhenwu PPU):
/ `! ~" A( R- y. h) Z9 `96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。. l. S+ F: n# o
结论:! y$ A' J2 d8 K( x
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。4 h' c, i& w) z3 k
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。/ v" ^3 t# r: R$ S' G
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
. I% ?2 R+ M: O, B2 L4 M) f# [自建 vs 云租的 TCO 与 token 成本 C/ D! a8 {4 C' I; N. S# M6 k" F
1 j/ C) N& T5 B/ I) Q% n9 R& F# e
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
& Z6 o1 X P6 m: I% h4 j8×B300(Config D)自建 5 年 TCO ≈ $1.01M;/ |, x' t; ~, X {$ P6 Q8 H3 A
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。. i) c! U7 u* p4 E+ F* {
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。! U# v8 A1 y m
Token 成本对比示例(LenovoPress 场景)[28]:
9 t8 H6 D( t$ S8 N: S+ V* yLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
+ }: p6 Q0 g7 @( W9 p) n/ ovs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。! V' n% z9 x6 m3 {& W2 }
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。7 I( [% y- |" z. t: k; B, w
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。3 s; j* N6 K l; t) Z0 |/ h
结论:7 Q) j$ z3 ]' ~7 h
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。+ d9 B& W* [+ ?3 t0 c' f) A1 B
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。& e e; i" Q2 X& e# H
二、建设期成本分布:区域对比$ ]* [5 |2 I/ r4 O
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
' ^3 M2 n' w1 T. |- N
! Q- J6 ^3 R4 K; O: u2.1 全球/通用结构(以 1 MW 为单位): e1 A, ?* p: J, ?) }1 L
综合 JLL、ConstructElements 等[2][41][40]:
/ X. k8 w% a3 A8 b* u/ u! b/ X0 V3 z
壳体+机电(Shell & Core)
2 \7 x0 \6 Q" c2 Q% S) d* l# e
: e1 ]; p8 Y: P/ {' t全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]& |; v3 w ?5 E1 G# p9 d9 m6 o
其中按成本构成[40]:
5 K* u8 V1 r% ~9 g电力系统(变电、配电、UPS、母线等):40–50%7 f9 Y( u: c$ m# N
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
( I. _' {- l, S* Q3 @建筑与土地、结构:约 15–20%; m: ?2 F$ R( g7 C& x, w" f
其他(消防、安防、楼宇管理等):约 10–15%
" s; @4 S$ J% I$ a% a' AIT 内装与 AI 基础设施(不含芯片)
9 G% ~% ^( A5 q2 Q; p% J7 f
& s6 c' N" X4 E* |8 B高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。7 ^6 N4 J/ i7 u, C
GPU/加速卡硬件 CAPEX
) f9 r) V, X2 Q0 G4 m# `" @' M" v# O
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
) h; t# Z. C O2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
0 `+ B! G m* Q. c x, k% I结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
0 k' `3 |- K5 z* ^
8 @% [: _. v/ @: @& I; r区域 典型建设成本(壳体+机电,$M/MW) 备注
8 s& l6 i; g- ^6 \* o中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]3 V, m7 a4 S/ C) W0 s
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
" [/ Z( [% D6 Z欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]+ I' {9 t3 W4 K
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]. o4 N( @- R+ c2 t- W; w. n
结论:
5 g2 M4 R7 a2 L1 N8 b
6 N4 \ D! J# l& `$ E; ~单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
) h% U8 A0 x" I" Z, `3 [$ q若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。3 F* ?/ o2 H5 c# e7 }+ K' o7 V; i4 J
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)4 d8 x1 I/ o3 V: N, g" z3 y% W
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
) B! R( O' ?& j4 A' ~" J# \% z$ z& m7 w$ z$ K
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
9 b* c# _5 ^' m1 |; zGPU 配置:# H4 V x9 w/ m% t7 Q3 c
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
: t0 a! C" p0 K每 rack 成本 ≈ $3.0–3.35M[34][69];
( A; d0 m2 v( S; ~! ]GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。4 k# L4 p; ^( D
与不同区域壳体+机电组合:* c$ W. I% a, R d/ Z
& |1 f' v6 P6 S' E
以中值估算:
+ a9 R/ k/ S- X: y
! A8 i' S9 w9 M+ O% ]. T' ~中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
( g; s+ z5 k" \- @/ I美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
! ^: ?3 W% w3 M" D7 B4 m" F2 Y |欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B7 o. w1 T8 J: Q F
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B1 a$ c) O. @- |; ~: y
可见:) |+ O* G8 h) M$ s3 e8 v
) B0 h' F1 C, u y1 j6 AGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
/ O w: T8 \8 p1 g相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。4 G4 ^) ?; m& R, k+ B& |7 s y) h
三、运营期成本结构与区域对比( l; ~/ k! k+ |8 }* o
3.1 通用 OPEX 结构(高密 AI DC)
* a# x# c% x, R, m结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:. g* J6 e4 B$ C( [) C
* O- Q: J( N4 B/ A# S
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。& O' J* b; O# @' i* }4 |0 n
冷却与水资源:8 T" S6 q/ u! D. V/ w8 h4 ?* w, b
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
! H3 }' p0 i# N. _) E水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。8 t4 ?9 l, W! {7 e: N7 ~
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。0 G4 W0 K- i5 w; y# Q+ R
托管/物业与维护:
/ ?0 _. B+ B8 p9 N托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];$ O7 O0 K% W& K8 k9 r
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
" C) K/ G4 K9 D* y' S* u3.2 区域差异(以 400MW / 3 年期为例)
3 i# Y/ w$ T/ _, ^# [使用 ChinaTalk 的电费与人工估算[1]:( p1 Q' S1 H1 o2 C) ?
/ M9 A/ y6 R: J$ ~. y电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
6 K2 n' g8 v6 O2 H- H0 ?9 `% w5 h中国:约 $0.06/kWh → 3 年电费 ≈ $350M: h9 p0 i; _' v# R9 z
美国:约 $0.09/kWh → 3 年电费 ≈ $600M6 q; e$ Y5 R4 X; ?% v
中东:约 $0.07–0.10/kWh → $400–550M
6 W3 Y& T. X7 K5 z' Q) p* d* b* ?* t! F7 M欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)2 {4 H$ @' T# V* a! L8 b( l
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:2 ~$ S/ l2 Y) `/ W+ a6 R. C! R
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
+ _8 b8 d" l% [三年水费级别:
4 {0 f. l' k/ e2 L9 M* m美国:$40k+8 D H1 A# g( q' c" w1 L# y
中国:$20k+
' R1 d i0 @5 V* d8 A5 o, H* {结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
+ ^( y, ^- d* ^- P! Y: f人员成本(3 年) – 假设 500 名全职运维:
3 W$ h: X3 L& k' j美国:500 × $120k × 3 = $180M+# R. Q0 D# T+ f, s3 x3 \
中国:500 × $22k × 3 = $33M+; z2 a9 `1 R% S) n
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
3 A: J( ?5 q$ F% N整体 OPEX 粗算(3 年) – 400MW 场景下:
1 D# }; _. W2 T% B7 ]7 z" u( i/ Y, p$ D; \' W
项目 中国 美国
4 e% |1 v( v. ~1 U9 }电费 $350M $600M
& x5 Y/ G7 A! A水费 <$0.05M <$0.05M, `* w f( l3 P' e# _8 z; U$ ?
人员 $33M $184M
8 u, F& h% E( l( o* I其他维护/托管 同比例估算,地区差异主要体现在人工与地价 3 W3 j* }* O% b. V X2 J% u9 X
结论:2 ~5 @- O7 {' m4 z e, E$ I
2 s# ] c, e6 J+ `- p/ {就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。: l% Y4 ?; M0 Z& {" k' P T
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
! z3 A5 X' i0 N: c. G, v1 Y% O( q四、基于 token 的成本与利润推演
' [4 |5 V9 u$ z3 ~/ q- ^1 s5 f4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)' H( Y2 w6 A/ V$ s
统一假设:& |5 T* Q" z2 {, M# X
/ u3 d w9 Z& e; Z典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])" e; n9 r% T) Q: v
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
) D) t% F0 z9 @0 z W4 t6 k1 百万 token:278 Wh = 0.278 kWh. q' _& R) W% o7 z
场景 A:美国电价 $0.30/kWh; V) P1 j8 z( ?! B# [1 x
电费/百万 token = 0.278 kWh × $0.30/kWh
3 t' z: A f( O5 m: S≈ $0.0834 / 百万 token- U8 r L. \- i+ K+ W6 k
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh: t9 \2 ]0 f: j9 _# \
电费/百万 token = 0.278 kWh × $0.042
. J( ]7 j5 d& M% e' ^* o+ L5 t≈ $0.0117 / 百万 token4 m" h. F1 H/ Q7 i6 O
对比当前 API 价格(OpenAI 2026Q1)[62]$ Q# B7 R. y% M9 o& k
以输出侧为主(成本最敏感):
; e7 S7 X* b3 \) E
, ?8 t* ~2 i" C: Y模型 输出价 ($/百万 token)' ?2 H. b [- k) q$ A1 x6 L
GPT‑5.2 $14+ a' I) O3 ?. e, Z. X! V* T
GPT‑5.2 Pro $168$ P) `. K8 H7 ?( p
GPT‑4.1 $85 J1 N: w# f6 }; y( ^$ ?" i
GPT‑4o $107 v9 y4 W. j7 h; ^3 w9 f6 z
GPT‑4o mini $0.60
M, U. L( s) I! I则:
; l& B2 Y4 m, s3 ]1 c0 n
: C8 S" [; y; u" y+ a, _" {, B在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
- o; z/ C$ ^2 R$ R6 G! x在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。0 u! N0 D4 r. i/ @- v
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。9 ^" p1 g1 E1 M( {% J/ g1 B# D( S8 u. ]
结论:" X4 `, d- x& T
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。3 t& Z9 N+ ^2 _3 g3 B- \7 K
3 G' S# G! V/ o
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)# m4 _0 s5 f# t
以 LenovoPress 的 8×H100 Config A 为例[28]:
1 r5 V. @+ k8 t1 F
9 ?& }/ T/ r- ~% U3 A$ j5 年摊销下,8×H100 本地推理 70B 模型:
: [" e8 e- A- [- @小时综合成本(CapEx摊销+Opex):$12.08/h
+ b2 W! z1 {5 f- ?) q吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens. c G8 w5 b" X. h
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token; ]) A8 ~6 U7 _* R8 i2 o& F
电费在其中的占比:6 S/ Z3 u9 `7 S9 a8 A" `6 j0 [6 X
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]0 a* f4 U; E5 s) `
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token: ]& t; l; R+ g& N% K w5 l! l' O8 J' [
电费占 总 token 成本 ~7% 左右。5 @& k5 U: @* X
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。: {1 \- y& ^( b# q& V$ w
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。0 a/ }5 R# h- k% s- c, t8 D
+ S8 b! ~5 n- y因此:
; n/ G) x1 P; A% `5 k% h+ e% J0 P3 |% _8 P# C6 m" R* Z
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
% `% b& U' Y* ~3 N! _* Q: X在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
! w0 z7 ?: e+ V! g& A) r五、不同芯片方案的建设与运营成本对比
9 [* v6 h& w G0 i5.1 NVIDIA 方案(H100/H200/B200/GB200)
( x' @' T" E7 Y" ^/ i% b. X. QCAPEX:; U/ C. {2 D+ `( m3 E
0 G, p9 R7 d2 H5 v0 tH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
# U* O; q& q, G6 f7 J, `. wH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。* p# G5 _8 c N4 z/ p
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。& |) q7 z* l6 h5 D1 @& X
GB200 NVL72:
2 Y9 O1 d q3 N每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
' B, Z. R4 ]2 {3 A& T) d9 `+ v冷却系统每 rack 额外 $50–56k[35]。
+ r6 w6 I H4 h# y' y在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。) \" m; N0 M$ A
OPEX & 能效:
O3 b2 G5 |! p& m+ x7 H! y. B2 E5 ? O" F y
单 GPU 功耗:
6 z6 a# d7 H# T% d8 }H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。% W+ }3 D3 f: Q
H200:功耗类似或稍高,但性能/W 提升[9][10]。
2 ?7 [$ n% c' X, h9 b2 ^# d& B; w$ k- kB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
+ G/ R+ Q, Y. ?9 A5 U+ v, L& }* NToken 性能:5 ~$ f/ r6 R6 o% S) V
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。7 N: t8 z" ^. n* I' R: u
NVIDIA 的优势:+ S- E5 D7 U" ]" ~* ^
( q, T) n% ^ M软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
7 y1 ~: n9 X7 I! P0 G但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。7 w: V7 w0 h; n9 e' J6 c9 [
5.2 Google TPU 方案
2 b) I3 Y, R& ^# P2 h0 N! f% ?CAPEX:0 P* Q3 N. f! s& V6 f/ i! x* `- u0 f
) s0 w0 D. N1 w* r6 v# u- Y# A
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。7 _" u( u0 @! A1 Z
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。2 [3 _% o7 a6 S2 t
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。! \/ A/ k9 m# k9 x8 }
能效:
7 L; d/ p4 M# F7 F
$ P( E( A: m: k0 _! V, q; z! {TPU v5e vs H100:7 J9 \- }8 Q) r# H+ G) O! @1 y
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。9 M3 {0 k8 m ]0 O, g
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
) y; {+ J. u5 X" g a: ?) b新一代 Trillium/TPU v7:* c& T$ g4 V0 z( \9 L
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。' T/ `4 I Y6 E* h7 K/ K) \
Google 方案的特点:3 T# L* {8 d. h* W7 B
0 r* y! O1 r4 G9 K
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
) o/ _/ A# P+ A2 G1 f' [对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。& \2 V0 C$ v3 G1 p
5.3 华为昇腾 910B / 910C 方案, d" ~$ S2 c6 r3 J, Z, {& m, J
CAPEX:
/ F8 G6 K' M) o# |* Y6 \# a/ t. I' r6 U3 f9 W0 _% s
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
$ R Q7 \; w) i7 N8 t2 v8 E与 A100 对比:+ W3 C/ Z; z7 ^; {' R9 @8 O
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。9 e4 I3 O3 O" }- j$ f E
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。% O: ]' E$ x/ t$ c. h |
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。0 ^ y; f, v* n% Z- Y" N8 T
OPEX & 能效:" H3 |$ i t- c& |7 f# n, Y# f
. \/ ~: j7 R3 L( ~$ B8 l910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
: R5 x! ], D8 D$ X `8 d' s部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
7 |* K% L# m: N+ N9 [% B" J4 d在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。: f0 u, a# r- ~
5.4 平头哥真武 810E(PPU)方案
: j" A$ ^' y, K. l, ?4 CCAPEX:0 M% }4 `% I$ T6 y3 O$ e
/ A, Q5 L6 S, x( F/ Y- R
技术参数:- `" J% v8 V5 C- s0 P
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。4 q& o4 q3 W7 {1 b; l& Y
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
: i- Z$ q: h+ N' S& E3 p ?% w价格:$ {2 _% x' C" A7 t( S
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。8 u. x% A( e" B$ b
结合国内报道:* }$ {8 s/ ~) p t+ k+ E( J
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。& Y& V: R$ [7 _5 C
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
1 _) f/ u/ O8 `2 Q% oOPEX & 能效:$ J9 P M" M' N* { h* r
5 {% {0 u5 L& a! k7 X- h
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;4 `- _7 U" E3 z3 G9 U
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
/ t+ x, O+ n- ?六、综合比较与策略建议) Y7 d' J1 ~, A: J" Y
6.1 区域维度:在哪里建 AI 数据中心?" q9 r$ ~7 {$ Q( Z5 q" B
纯经济性(TCO/tokens)排序(假设无政策/合规约束):3 C6 w4 H+ `8 S- q9 \: D, ]8 I
+ y+ l; Q0 g% p% z3 j中国西部/北部(电价低、人力低、建设成本低)( a. G# V# [# A x3 t7 u
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
* \- E% u* M7 G8 x( h7 o美国电价低但人工高;东海岸/加州电价上涨压力大2 g( O+ t5 ]- a, @
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求2 u- t% z. g& y$ X4 \2 P
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:* U& P4 i& Y# S( N
. H) y+ |1 s5 t0 m# s5 s' }( A
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;, v2 }8 a, U( H
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
" d& x' U) r7 f D- h0 H) y但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
) l8 y- }7 I4 W1 K6.2 技术栈维度:选哪家芯片/云栈?
( [ z) X& b0 q/ L: s* M( f5 g0 O若目标是全球最优 tokens/$ 且不受出口管制:
1 A" V" _# s: ]3 B7 l" w; p2 i( I, ^6 `0 d8 s$ d
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。0 W7 |9 A ?. S. r( t
若在美国/欧洲,能自由采购 NVIDIA:
& r0 Q1 J' D$ Y; Z# b: V9 x
$ G; X; x8 u- X短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:. `9 l# u( Z7 i8 y5 e" ?
成熟的软件栈与生态,极高的 tokens/s/GPU;4 C h' z: n! l% p2 C
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
" ~# {: [2 B) o4 I) B& D( S但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
" K+ _8 n+ C) w) p若在中国或存在出口管制约束:% o0 e9 J: i% p; _( r" {6 n
) o+ K1 a' y& W, v0 S& r% V! b昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:) e% [. ~ {0 C( q" X
性能上已能覆盖大部分 GPT‑4 类推理需求;- c; {* j( M1 y9 C
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
4 Y1 B8 X. e5 Z X7 g" }软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;) |) Z5 k1 {& U8 y! M T: W
建议配合:
5 t* M8 [- S& ^& ~2 K4 m& ^" b高效液冷(PUE~1.1)、7 L6 a) ~+ D! @8 x! p3 y
大 batch、路由(浅层任务走小模型/低成本芯片)、* v0 @, g' C8 J7 Y$ F* a1 m
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。 w! ~3 G5 ^! f( h" I/ {
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:* e; Z( D$ }. B
2 m7 [7 O+ I& g* G/ g* ]3 w, e1 J" c* r
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];. r ]2 _. E, N* R- l' V
这意味着:* U" ?' E( |& j7 Y% v1 c
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);8 X+ ~6 S. w8 p! v! |
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。/ ~/ J( W- g l" F* p
6.3 针对你关心的具体问题的简要回答8 ^4 O5 M( o- L8 A' k
AI 数据中心建设 vs 运营成本的大体比例?
$ f$ b/ M9 a% S
4 w; |8 A1 z- E4 ~在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。, X) K7 o: Z j5 `& x$ p
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。: G8 Q& ]; ?. N" S* Y8 L
中国、美国、欧洲、中东的成本结构区别?' | _1 ?' P( a8 q) e
- \6 z* S, ^. g$ [
建设期:
! ~8 _. S5 d+ [) m% a9 \' ^0 Q中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。1 n9 o2 @9 [1 _' n
运营期:
! M& t* K0 `3 m7 g: |1 h电价:中东 ≈ 中国西部 < 美国平均 < 欧洲* `1 N4 W' ^0 W& Y2 f
人工:中 国 ≪ 美 欧,中东居中。$ Y% N) S) d1 S, `# @, B) u; D
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
; T, d! @ N/ j2 _7 D0 L. w) P3 T7 J
对于典型 1 J/token 推理负载:3 C) G" Y2 C& f) ]% g
美国 $0.30/kWh:电费约 $0.083/M token! Q2 j' x* l2 e
中国 0.3 元/kWh:电费约 $0.012/M token
1 H- @$ C! ^; i2 a8 _+ z对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
. ~2 p- ^! Y$ O8 @不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?3 Q# i1 Q7 C$ [2 i' r
$ s- h4 L0 t3 ^7 c# _% R) Z0 [. E
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;0 D. [( a5 b* C, B
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;/ U0 w8 O$ a# Q0 b
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|