TA的每日心情 | 擦汗 4 天前 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
/ b1 U/ ], g1 F6 f& S" {- _) m2 z @9 J( A; J3 D1 o
一、总体分析框架与核心结论4 D% |3 N9 J% K4 r' Z8 B& e# z
1.1 分析框架概览
: u. ^- z% u$ a拆分维度
5 W0 P9 c* q# w {* @ s
3 j0 Y4 P. g& t阶段:
* j7 ]8 M. l' A& u建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施" V! u) E: e+ \2 L. ?) L Y& Z* H9 d
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
+ J7 W$ Y3 |: s8 [- n- B) i区域:
: T1 J0 j2 A: D) J中国、美国、欧洲、中东(以海湾地区/UAE 为代表)2 P: m- o: {0 C3 Q# i
技术方案:
; v- M3 s* m7 A6 o: m+ BNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)& e2 t" O4 G6 |* X6 m1 J a
Google TPU(v5e/v5p/Trillium 等)
, }, l$ M( z) }! ~9 Y+ T中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
9 I( n( A2 r# R4 `, `) O) p/ Y) ?& O) y算例基准
" Q& X( I% |8 _; `: H5 H/ u
: o9 X# Z: r. c9 x" H% P) e2 a以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
+ F9 g' z& a) t& V ^8 `+ Y其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
n9 t' [; a4 Q5 Q, ePUE 假设约 1.11(高效液冷场景)[1][29]
0 q5 H s- J' t$ B: R: G; D, L* h% X时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
0 R8 @' J7 E, O3 O: Z+ [& N关键指标
9 w+ D5 [; s; R8 d. h+ \
! a. b6 b2 o( W$/MW 建设成本(含/不含 IT 硬件)
u7 \+ x7 a$ S$/kWh 电力成本、L/kWh 水耗
7 Z* r5 k7 d0 }7 H$/token 或 $/百万 token 的综合成本* v( ~! Z0 u7 G- W9 X& t
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]& U$ R( b s2 ]
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
% M4 q$ a: T4 v7 C) D, x7 x W1.2 高层结论(供决策快速参考)8 b( F: z- U! e. G+ |( q! f; r% `; ?
建设成本:AI 数据中心相对传统云数据中心成本翻倍" j* h; }$ i& \3 P/ S
$ s. | }3 u9 U; I3 h& D/ i
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。3 o: S7 v% k: X% x
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。, ^9 D$ j7 B! m# p, m
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。1 n1 D1 @9 |6 d! V1 g
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
8 p2 e# ], K, ^ y b+ j+ j. Z( ^2 X9 }6 R+ s' t
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]* a( V" k; J- K/ |% @5 k
美国:$8–12M/MW,400 MW 约 $4.0B[1]
# J/ o$ C+ ^, N6 a7 c6 I6 [$ t欧洲:接近全球平均 $10.7–11.3M/MW[2][41]* v% t' C( o* ^6 T; ?* E" w/ J& {
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]5 d) \2 r) |3 L0 p
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
4 @/ [8 u/ r! d1 ~OPEX:电价与人工决定区域优势# A4 g* ^4 i% V% |
2 [$ C( e5 b8 Z电价(2025–2026 工商业大致区间):! a4 G0 V4 o) u R" _+ k
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]2 J( O# t! q! ]- T0 ]
美国:工业用电约 $0.085–0.09/kWh[44]/ ~* N# ]' G' q* b5 V7 G" I
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]+ I0 C5 V' n( v$ t9 W' R
中东/UAE:工业用户 $0.07–0.13/kWh[47]- {1 q: U6 ?: _5 H% H0 P
人工:
$ z) v/ N& S$ \0 X2 L( [& B中国数据中心运维:约 $22k/人/年! q! w7 K |8 e# K% \9 r- ]* }# c
美国数据中心运维:约 $120k/人/年[1]+ F/ L" N2 M7 w8 \( x4 @5 k
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
. g) K0 v& b9 s能耗与每 token 能源成本:能效差异远大于电价差异4 [: F% Y( H: \0 [$ j4 @
4 {* h. @- _7 S+ s% v# gIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。: C# P1 m) i0 a/ B0 k$ ]9 S7 \9 s
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。# ~0 V" [, I& z
将 token 能耗约化为统一口径:
; {% p. r, K3 J( X2 h粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
4 P& @' h; D$ U% a中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
9 @$ @. a' u3 G' f% e+ R9 r美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
$ {- W6 Z& J+ z. O2 K对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
* `- B/ y' V! a }! Q不同芯片方案的核心差异( L0 W+ b; m6 }% t/ H5 B" O
+ Z" O1 z9 ~" u/ O$ X
NVIDIA Blackwell/B200 & GB200 NVL72:
1 W' G F6 \7 w单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
, k2 r T+ m; `2 ^4 D, \! nGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。; ~9 Q. ]4 C. E; I8 p) D
Google TPU v5e/v5p/Trillium:: c8 @! s1 l8 _& P9 s' w
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。0 }( J$ E2 f- I$ A
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。& P. B% X6 _9 G) Y8 x: a
华为昇腾 910B:4 \3 u; A7 H5 a# [
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
S2 z1 l9 b. X+ a# C E- ^- ?单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。- y! t/ W4 y# o2 T; A
阿里平头哥真武 810E(Zhenwu PPU):
* j6 g6 `9 M% D* ~96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。% I' x1 [" L& O8 @% r
结论:( A( i+ F& U- E# J0 r n# ]
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。4 {, }/ t& }* [3 T9 R
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。) f3 D6 W9 [; ~% h) u
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
% L, F" t' t7 X0 ^. j& j自建 vs 云租的 TCO 与 token 成本
; @6 E8 E( J! g+ m. N$ K
: Z$ u3 H* p: T( L1 ^$ q. ]2 ?LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:+ ]% f: e7 _& x% ^) q( E* u
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
" l' B+ t; R6 N0 k2 ^2 m等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
) e8 @- x- a: \* j) c' q8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
; ^% m7 D# e h6 N, b( f# N. j% SToken 成本对比示例(LenovoPress 场景)[28]:
9 G* y& h: t+ h5 R% MLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
( a5 W! x/ V' Z& v: V+ m9 ~vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。: |& I1 K/ c4 G4 b3 }
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
% v/ H9 c2 y3 ]+ O4 c' h6 \& @( fLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
0 A ^6 p9 _# E8 v [结论:2 }* S+ v" b' M- u f3 c
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
0 m9 I7 R& A( z/ u4 D6 QToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。. w; ?1 r# {6 k9 v3 @3 }
二、建设期成本分布:区域对比
- c0 b/ x) M. d, t$ g6 X以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。: M) ?' O! t, j# r; A. n# m, }
x7 L' q$ z- x x9 |: j4 H' H2.1 全球/通用结构(以 1 MW 为单位)
) {- a# Q# w" V( J+ {综合 JLL、ConstructElements 等[2][41][40]:
P, Y2 [1 s$ \, `, X4 d* l, ^' a- R E* B* N6 H
壳体+机电(Shell & Core)5 k7 k4 I) v3 B+ v8 Z
+ j9 W( C" r/ V1 s4 x. g7 s全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
5 H$ N y5 E) ~" g9 E, `其中按成本构成[40]:. v* B+ k/ I1 Q4 ]2 R- l; O) L' _5 U
电力系统(变电、配电、UPS、母线等):40–50%1 L; a. M9 e5 G# }) I2 _- z& U! u
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
0 J- ^/ \3 D3 u: U建筑与土地、结构:约 15–20%
: S( f6 B9 c+ O. ~其他(消防、安防、楼宇管理等):约 10–15%9 O, X! n9 }7 m2 F, Z9 a
IT 内装与 AI 基础设施(不含芯片)
& P6 D" E6 M3 T2 I* i
! t* j% K' d9 {2 q$ P9 J( t高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
6 c7 P! h) o8 d& P1 e7 xGPU/加速卡硬件 CAPEX- a$ I# m. f7 s9 E" Q
/ H- S) I) [( v4 J& @6 O, P
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
1 z) k) K1 M; R- A2 U! L2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
/ Q8 d) h& r2 s1 t结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):5 P/ \: i2 e# N+ J7 b v
, E g" T; r! W$ A. i
区域 典型建设成本(壳体+机电,$M/MW) 备注
/ N1 w0 j- u5 i( }2 H' T中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
4 Q" y* Y) R1 u3 b3 r* C% @美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]! T/ _5 I2 r) |- f
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
9 H6 O& R: F7 j) _9 F+ u中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
1 \/ x! m4 _- D# O" i7 c结论:2 H+ u* I: p1 a+ T
- R9 p: U N5 S/ [) V" u* h
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
5 @" c1 v4 f) W- G6 |( G1 X1 V, L% t若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。9 O7 g1 M' a7 e9 d5 f" E! y
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
) j) \% D4 O2 f; |7 A" C以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:8 X2 N5 q. Z- l/ |$ B# a
( j, E, [# F+ m L4 y假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;. Y" [. G* n P, _' H$ g# g7 x
GPU 配置:
% A: _, C9 t. b* H1 J: J' L7 _有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack); O+ T: N6 k5 k- M: ?
每 rack 成本 ≈ $3.0–3.35M[34][69];
1 Q% `1 D$ ^' R ~$ ~1 u. EGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
: p: n; E& P) Y* z* b) g与不同区域壳体+机电组合:( \2 [5 W9 c" n4 N% e$ y2 H9 K
, r. w p! y0 W6 f7 q U% v
以中值估算:9 S# A& @$ _9 m; i
( S; d7 M- ]5 {9 i' r- m
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
" F7 W/ v% o$ S! T美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
% V* `( e* A$ Q$ Q9 K3 `( Y欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
* t: J T0 K$ p中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
6 k# r) Z- m, o1 {4 Y# I: U5 G4 f$ D* ~可见:6 [& R4 p& k4 m4 V/ R
* J! e: k5 v: iGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。6 L$ M4 O0 F4 V/ C1 O1 j
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。' n$ V8 u1 F6 K$ E
三、运营期成本结构与区域对比4 S* n) d1 H1 o: p9 F* |
3.1 通用 OPEX 结构(高密 AI DC)
. l9 @1 |- {, R结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:5 z; Z7 c; |" E6 r [5 {1 Y6 W$ o/ S
3 t7 R! s; o; F; w% a/ g6 A电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
+ V8 I4 E0 V8 m8 `" D9 Z5 z冷却与水资源:7 | h! m' g' V# V; P, S$ h, w/ J
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
7 j! W4 G: e* ]) j9 s/ p3 ~水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。# T' f2 ~7 r3 X) e Q- b+ M
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
) \$ g$ R" l8 [7 v6 Y% i) ]托管/物业与维护:
6 R* ?/ U5 I5 K( E: ]4 E托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
7 _& Y$ E/ g& n7 f6 b# d) Z硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
$ Y4 h" ? k. d- E1 X3.2 区域差异(以 400MW / 3 年期为例)
% [; P% j5 z( W+ _) s9 T* |# ~使用 ChinaTalk 的电费与人工估算[1]:
, y$ R+ N% Y6 ^( c$ B' E, A& w v( z6 s
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11: l t/ q$ M/ t. F8 h; d/ T
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
; x- {4 \7 d8 W2 \% i' N美国:约 $0.09/kWh → 3 年电费 ≈ $600M
: m6 y% T9 U2 ~0 N' V& ~( ~% F中东:约 $0.07–0.10/kWh → $400–550M
. i( Q4 n- _4 V/ n. m1 F L欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势): Y: d) A6 }2 D" H) O
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
3 e& L% Z6 Q% O0 y; t0 q8 e* D美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]. k# \$ T9 j. y- c# I2 i [3 ] k
三年水费级别:
8 L& P% J9 z. z, o美国:$40k+
9 [! N) h6 d' o- U; l中国:$20k+
1 C) B6 q* W/ r) s9 Y9 a$ C) X结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。: D) m* R3 Q- t; X0 g: N5 Q/ H
人员成本(3 年) – 假设 500 名全职运维:+ m) H! I. N- s/ B! Z
美国:500 × $120k × 3 = $180M+; f H$ S& s6 y; x! t) Z( Q
中国:500 × $22k × 3 = $33M+
" Q! ], O( l8 y6 a9 E差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。% N' N/ ?: r: `; R+ r! }: R) @0 b
整体 OPEX 粗算(3 年) – 400MW 场景下:( c/ b- Y3 L- U0 m4 L S
+ e2 m! A5 K0 K* h1 a
项目 中国 美国" {+ `2 p! A9 R9 E3 d
电费 $350M $600M5 G$ U/ X9 K3 {/ }
水费 <$0.05M <$0.05M) K+ K: W! D6 Q2 _
人员 $33M $184M
f9 v. W2 B% w4 J. t! P其他维护/托管 同比例估算,地区差异主要体现在人工与地价
& }% c+ S8 U% q3 l+ `结论:
# t7 {8 i7 q" p) Q6 Z
5 {6 }# T7 }9 u5 j* ~' M+ c就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。# w) r1 ~ s' m4 u! }4 P1 S1 r) r
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。( W) y- v2 z' ~# ]! U
四、基于 token 的成本与利润推演0 b) X6 g: V+ I7 }! t
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
# ^, D' w3 K3 D& y) {统一假设:
) {* u0 U0 J& W: d# F- G3 b% c# p' ~& T( i$ v. W H T$ e
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
1 ]2 J8 r4 l: M! S) F1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh% M2 M, G% C' W7 k. n8 [
1 百万 token:278 Wh = 0.278 kWh
7 f, g6 q5 L) j) i" [场景 A:美国电价 $0.30/kWh
$ Y- T6 Z# z% I& M电费/百万 token = 0.278 kWh × $0.30/kWh: v4 G+ L3 r: W7 X3 ?3 U+ @ @9 t# ^
≈ $0.0834 / 百万 token
3 [2 v2 Z; h" F: _- S$ k场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh" b0 R l* b) G3 T
电费/百万 token = 0.278 kWh × $0.042
9 O: p, c, a& v% R. }0 `' g≈ $0.0117 / 百万 token7 R7 y# e9 V% ]+ A$ r0 S4 q; K
对比当前 API 价格(OpenAI 2026Q1)[62]& A( B; ?- x8 K6 h4 h
以输出侧为主(成本最敏感):
' R9 b8 z7 _! Y5 Z6 ~) Z4 \
3 C) y; W$ l/ b1 ^9 U模型 输出价 ($/百万 token)1 l! A, z5 a- X& b
GPT‑5.2 $14: G4 z l K, z& X0 A' \8 |
GPT‑5.2 Pro $168
I4 ~4 j4 l1 V3 _; |5 BGPT‑4.1 $80 Y F5 A9 |# j. Z& \
GPT‑4o $10; i$ S# }' |+ m: w; e
GPT‑4o mini $0.60
2 J: N/ a" Q7 q: Q: C9 N0 j则:8 f/ H, h8 K" R3 S" X
& |& [0 i z3 v在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
; }: {* M$ Q: C5 E在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
0 ], C. G. ?: _! V, o9 {: k8 \相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。# u5 U& v# M) U1 H7 v
结论:
2 S( O; E8 d7 q) o% n$ c即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
7 C% j: G* \! s# t% _1 h0 ?
, l6 ~! T) i: T/ h: `6 H0 s4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
; y9 k* p. u' X' l4 }以 LenovoPress 的 8×H100 Config A 为例[28]:
1 E( a& P6 S0 l& h' g! |7 W$ y
- V8 z$ x3 L1 u5 年摊销下,8×H100 本地推理 70B 模型:
b5 J- ?" {. e, H) S0 |# R小时综合成本(CapEx摊销+Opex):$12.08/h
# _; X" s5 e) Z, n( S; H H吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
" h& w7 b; r5 i6 O6 k6 q; z* v/ {成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
: g' b- ^; r* J: L) H. q电费在其中的占比:
+ U5 N' ^- j! IOpex 6.37$/h 中电力+冷却约 $0.87/h[28]
O) [+ t/ p9 D- _电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
/ j% v! A% |1 i t! v6 g电费占 总 token 成本 ~7% 左右。$ D( M( d# b9 V) `
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。' w, f+ F- s( y. f$ [8 {$ c: H
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
. o9 O' @& c _3 u( t6 S2 {2 L1 w2 g6 Q- G8 P% d
因此:
; M; P& {/ {' E; o
2 I9 t$ E0 }8 Y$ X7 `/ Q在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。" O: V$ M: n( ~3 d
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
! c* B2 e- X5 i. k五、不同芯片方案的建设与运营成本对比9 _* N9 J' q' y+ I
5.1 NVIDIA 方案(H100/H200/B200/GB200)9 C2 O2 C+ r4 A) M/ K- U( F, F
CAPEX:9 C+ z6 e' W; n+ T+ `6 ^9 }4 d
; z( t8 x4 t9 e! Z, h0 qH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。9 t; }* k1 M' `7 Q
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。- m' _% k3 z0 }8 T4 A: @0 w' J
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。5 {( ]$ O( J/ L5 a9 h
GB200 NVL72:* m8 x6 [7 ~; K- l
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。9 g. Z8 y$ c6 k8 m4 y- [# G7 ]
冷却系统每 rack 额外 $50–56k[35]。
& g' Q. K* b) J在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
+ Q3 i' d+ B$ [ KOPEX & 能效:
& D9 W+ R% S2 c- o5 o6 w8 s
! Q6 l$ t& Z+ y$ U3 E) Y: o% v单 GPU 功耗:8 p) o/ P$ w4 d- P' T; H
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
" @ T! b. r* k1 k$ p& CH200:功耗类似或稍高,但性能/W 提升[9][10]。# G; s+ w0 j# k: x! L' X& y
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
; s; p0 g8 t& H' J' A/ L3 {$ k d0 xToken 性能:
( J/ C0 E5 k" \B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。: S7 W$ a- E6 O, o0 O# u- c
NVIDIA 的优势:
" z0 }$ @4 y* e& H( R& x% z9 } [
+ G( o" `' A0 j- ^软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
z: @ d' j9 w1 }4 ~- w但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。; H/ k$ i% }' D' l8 |
5.2 Google TPU 方案
% M$ }; R5 D U. I5 Q s( P2 @; h% N1 tCAPEX:
3 B; w4 z- ]& T- N# f4 y
# O/ P2 ]1 n6 v7 ]* W8 X: V' }单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。' o. T, A# U5 k% `" v' B
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
F6 G7 z% ~1 l3 t5 q% V8 t8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。 {0 V: {/ y8 h
能效:8 X% a. r! y1 @) D' j3 }
; {* N. p3 T/ C, W9 WTPU v5e vs H100:' \2 \1 @+ |) G0 y; ]
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。0 ]* _! b2 |2 l" n- l5 T
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。! p: W6 V; H" e$ _/ J
新一代 Trillium/TPU v7:; ^* K4 [: l% H& N! s/ n: i- \. _
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
( R% ^0 O! S+ x, `& g9 v$ g) @" ] {Google 方案的特点:
; R7 g! g' }- n1 `# N0 ?$ s
. n4 U9 Z4 i8 t自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
+ |/ i6 Q, q2 C# }1 B8 W# \对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
: z- F. o5 d3 f# B5.3 华为昇腾 910B / 910C 方案
, G( J6 v7 V1 e$ y7 [. e3 u; ]CAPEX: g; ^, h0 k; g/ C% s2 R
* q& |: R! x" y3 O) f
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。. k' ?8 @ l5 j9 [ q5 d* D8 a
与 A100 对比:
( ?5 T- Z5 Z, U5 i; ]# e: o* Y3 eFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
, H$ t" |5 Q/ ~. r& o% x市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
& q/ p. U1 P/ f8 `: p7 s8 q使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。( B$ c3 i' y& m2 A# Y5 G
OPEX & 能效:
5 Q2 o% e }' {, t6 @+ h# e
5 }. y6 F& O/ z. s) ?# T, B910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
9 R$ h4 U% F, ]2 J) W部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
0 L6 Q# {: Y! l3 [1 ~/ e1 t在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
]" e6 C. R: L% q4 {+ E0 Q- `! q5.4 平头哥真武 810E(PPU)方案
9 B3 c9 w x1 A2 W# Z! R, ]% qCAPEX:9 W0 D# ?6 z* h9 W" ^
' L) v2 d' R) ~% g. E技术参数:2 S2 ^; w- {2 ]7 m# Q) o
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
/ ^" \! @1 M! Z& [1 u性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。% ?; U9 G7 E* _; h, i: Y/ n
价格:
, ~- X9 e; h' h& ~未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
6 G8 C5 l# l4 D4 y结合国内报道:
5 v0 ~3 h# U% e* D1 q2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
2 P3 j9 ?3 {/ t3 |: n! A5 Q数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。+ i7 X! x* {. D: u4 J* _# ~4 J3 l' ~
OPEX & 能效:4 [0 n9 N* X, x8 _
9 I4 o4 b9 q. p/ J0 c( x400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
% \+ o q3 y3 ^) D在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。* m Q; U+ j P. h- a
六、综合比较与策略建议
. G" t( b6 i1 e! w$ x6 C* s, l6.1 区域维度:在哪里建 AI 数据中心?
2 H8 i | Q$ v9 ?纯经济性(TCO/tokens)排序(假设无政策/合规约束):
$ L4 l* I. _" u
( U) j9 J( F. W2 v中国西部/北部(电价低、人力低、建设成本低)
- f& e) w: J8 b1 m8 u3 h! ~; N" |* E* R中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)5 \; R. j0 h2 G( P& s7 f" A
美国电价低但人工高;东海岸/加州电价上涨压力大3 Y# b% j3 W/ F/ |5 M: s
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求) H% ~* @' C& K. \7 q) c, F
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
3 u2 z0 H7 P7 \$ H6 L1 U+ e
. t% b& @6 F$ B8 u纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens; V" q1 V0 \ Y; C6 `5 Y0 g
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;+ r$ J# t9 C# W% h3 L
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。# }' J7 `9 b7 G5 |" t7 k. O W' R
6.2 技术栈维度:选哪家芯片/云栈?! ?! X* t; \( M( u! E6 z, U7 {% h) I& |
若目标是全球最优 tokens/$ 且不受出口管制:" a0 C" I( t. G
9 c5 X& b7 w& V, I' [1 ?6 W0 K
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。$ G/ u0 G4 t2 r
若在美国/欧洲,能自由采购 NVIDIA:
0 I* p# H4 }. `- D& g( X+ w+ }9 ~3 N! W2 Q
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:; h- v) x0 m* k: l" N
成熟的软件栈与生态,极高的 tokens/s/GPU;9 m7 s+ x8 d: }% v, e
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;7 C# p' Q# D' t" f; A. U% u
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。6 p. a/ w9 E& N7 s" O) t
若在中国或存在出口管制约束:
6 F$ s7 e( @- N! `. u$ x8 y/ R" k; C" s8 r2 U8 E' |
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:6 F. o( r, U* S9 Y/ T
性能上已能覆盖大部分 GPT‑4 类推理需求;
; x5 o2 n( @# F6 X单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
/ o" Z: ]0 j5 Z" T0 J软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
" K$ X" q, K7 x4 D" j建议配合:
|/ j- p) ]/ v9 ~- Y$ x高效液冷(PUE~1.1)、4 z- {) U0 q9 x- w9 `
大 batch、路由(浅层任务走小模型/低成本芯片)、
* s/ y. A3 D1 U: ?强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。$ G. U `, S) B+ {
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
8 h D8 I; D& B( Z0 z5 A4 b
8 w5 ]2 e9 w* b3 h数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];4 p% T, K) J# D! [5 X
这意味着:
/ G2 k$ l/ o. r1 l8 D优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
4 x4 l1 [2 f1 J) d6 f精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
' \% |; L5 I2 ]# h6.3 针对你关心的具体问题的简要回答
- D3 ?/ P' Y$ g6 C" f4 K2 w- xAI 数据中心建设 vs 运营成本的大体比例?
9 Z2 m& N; h* l9 b
' ?. c8 R. n* z* s, R3 W- ]在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。# H e& j( S9 p' `/ p
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。& _% H7 D! v p3 Q$ @; @
中国、美国、欧洲、中东的成本结构区别?
" E* |0 S* H' J5 Z6 e7 e2 p; l0 ^9 x. B' I; v, A- K) l
建设期:+ ]; y+ }8 Y3 s! m
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。4 @4 _8 j5 E* v" t8 R
运营期:
+ Q8 b% [; v. s" q; g2 Y电价:中东 ≈ 中国西部 < 美国平均 < 欧洲# z3 h; [0 q" [# b) h# Y9 N" o
人工:中 国 ≪ 美 欧,中东居中。2 M4 U' k z7 D- c0 ^" y" K0 I
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?+ v$ \% u4 |$ H1 q2 A' t5 C* \
3 H# R9 D$ a! h& U
对于典型 1 J/token 推理负载:& I+ r% ?+ F! V! N' G7 a# l$ b
美国 $0.30/kWh:电费约 $0.083/M token3 ]) ~7 r/ s( i f0 E L- w
中国 0.3 元/kWh:电费约 $0.012/M token* T5 h; a0 Q' d k; {& p5 A6 _& j
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。/ E; } _) U/ w I6 P0 r& M
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?- V4 N3 F* c8 g6 B9 P) Q4 ~' k
) v$ @' \6 J2 D3 z- f8 W6 D在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
# G- M/ L: ]- ?) I: i8 N6 C全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
; p* Q/ }. N, S% a8 I中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|