TA的每日心情 | 擦汗 4 天前 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
! ?" H* A2 D0 q6 _' }0 z& v7 Q z' \
9 J8 E4 b$ k. w4 p+ _5 [一、总体分析框架与核心结论
) ?7 C' r4 A; o: Q1.1 分析框架概览 [3 m0 z- ^" \ |
拆分维度8 H$ o. s- G3 t
. Y# P- O) t" i8 r, \1 ~/ O阶段:1 a# @+ g" z! X p# C! e
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
* H0 S/ S/ Z& Q3 p7 c- G) y& ]运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
# a6 z5 ]+ j3 m. b区域:3 y9 N) i9 i. f# W4 F0 G
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)1 U9 u$ |6 d* t$ \$ d/ Z
技术方案: n* |7 z5 N( r
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
! j9 r4 s" o( e: G u2 k9 MGoogle TPU(v5e/v5p/Trillium 等)- r7 x* T( Y2 ?! |8 T
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)* b& L% P ]1 \0 C7 A
算例基准
* @$ Z9 C; G3 A1 m7 J; n" H" P! w2 l* C3 K& ]
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:6 z! h3 A: u4 D, ]7 \0 }9 W/ `
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
y& s- P8 L) E/ E' N& I; gPUE 假设约 1.11(高效液冷场景)[1][29]
; Q6 q# f# }) F, q3 K时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
% |( T: A9 M" R; w$ z7 d" l1 U) i9 L关键指标0 ?6 o" H- \. b2 |- B' [& ]! w% I5 H# t
" @9 Y9 k6 c: G( `: p
$/MW 建设成本(含/不含 IT 硬件)% o& n' L7 n$ R% ?8 P5 a n; X. W$ [
$/kWh 电力成本、L/kWh 水耗
. G6 ]+ P7 G7 c! z$/token 或 $/百万 token 的综合成本0 f, \/ T/ ?9 E) o
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
! p8 P" v2 r. n l4 _) a9 Y项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
& o1 K% D2 w$ F" c: y P( V) g/ \1.2 高层结论(供决策快速参考)! M: f6 u' q; D
建设成本:AI 数据中心相对传统云数据中心成本翻倍
6 L3 D( o9 C: i8 r& w8 q& \# [% C0 O- Z
# U: G% ^9 T, l) ]5 |* I传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
5 r z3 d( }+ t+ f' TAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。# X' }+ q! G5 }+ e
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
: [% |; `6 V) A4 |. G( G6 C$ v# U0 c区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
/ T$ t/ k7 F' A! \" _
+ I) w2 }4 C# f, M! C/ u5 b& |中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]& F; r/ k4 N/ j r+ c
美国:$8–12M/MW,400 MW 约 $4.0B[1]0 ~2 }/ q% }# ?% {
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
- F; J2 |1 Z- S$ u7 Q* }中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
: y1 W# ]# M, l4 F3 {* w4 i% _结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。6 U! J5 U$ z. i/ \8 }& H
OPEX:电价与人工决定区域优势8 N& Q: r, t4 d: }9 I- ~, V# J
2 O4 E3 B9 V" l电价(2025–2026 工商业大致区间):0 [7 N8 F4 d9 E
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]9 A0 J2 }, `/ A! ]- ^9 e6 ~( ^
美国:工业用电约 $0.085–0.09/kWh[44]! y% z) R4 S: ~! m* J, x( M
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
+ ^2 E* ]9 I8 l2 h* c" r中东/UAE:工业用户 $0.07–0.13/kWh[47]& h3 K2 N( H# H' |. o# b! ]
人工:
" f6 B) @/ ~2 D) P. f中国数据中心运维:约 $22k/人/年
6 d, }: A; }/ d! t! |美国数据中心运维:约 $120k/人/年[1]
2 Q2 L$ j8 j( @: t结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
% G H+ J6 {" F6 O5 h Y0 a能耗与每 token 能源成本:能效差异远大于电价差异
! Y h8 F) b1 g+ v
9 c3 @7 M5 R6 _7 cIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
5 K0 c2 Q, _& V6 G3 ]$ ~/ z6 j大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。 q0 d+ Z& `% Z+ Z/ a: M) p8 M
将 token 能耗约化为统一口径:' N9 o1 F9 n3 ^5 G: b+ T b0 s7 R
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
8 _* B, I; g6 @" U中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token! v {: m2 s$ }* n% l+ c
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
& I# a3 Q3 G/ ^% |5 E对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。' `1 U( U/ m. ?9 B4 d, Y+ E4 { U
不同芯片方案的核心差异 x0 o& {0 m1 q; Q H
$ ~6 j, ~$ Q0 c6 A8 C4 ?7 d' F) n
NVIDIA Blackwell/B200 & GB200 NVL72:% U. N/ i0 |$ u& K
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
5 D3 h1 k* w. J6 FGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。6 Q [. `9 H4 \ z
Google TPU v5e/v5p/Trillium:% J+ W; B5 u: h4 v( |! {6 P; ^8 n% i
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。( X0 l7 a8 J& V. u) ]$ u+ z8 T6 d
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。 a) ]) W0 |& l( w' w
华为昇腾 910B:& {/ s: P {* r! ] ~
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。4 n5 s" F% E# a7 b5 Y! m; k
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。, X0 ?, L) B7 a
阿里平头哥真武 810E(Zhenwu PPU):
- A" K! ~1 e& F96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
, x( x+ K* \/ }) f* Y9 l1 `/ y4 X6 f结论:
( e |. k0 J. @能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
, O% Y T, K- P* j# q% i单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
3 l9 D" A1 m" E9 ]0 L( a$ K$ J: J3 d/ S对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。# }# }8 ?9 S' v9 ]# H& k
自建 vs 云租的 TCO 与 token 成本& j, [" t; y# \( t+ U$ b6 W$ @
. a% W& d7 d2 `8 |: T4 G. LLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]: e/ B) A1 ^* G8 o$ C8 A! J
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
6 X1 t0 X+ U; Z7 l# n0 r8 t/ T' X等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。8 _$ M, g) U3 V- A
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。' Z( F- J) w. `& W9 G
Token 成本对比示例(LenovoPress 场景)[28]:
5 H8 b# X6 b! ~# j3 f" O6 `- p6 WLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
: S- u! ^+ |) K9 Q. f2 g/ svs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
! O6 i+ T$ V* V% T) ?2 k同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。0 K# ]+ \+ a, w! D( |3 a( g" U) P
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
9 O; e5 V' ^, _& v: X) g结论:7 G+ c* ?' R4 k1 g6 ]9 k
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
) e+ l3 M! {1 }9 z0 f/ \Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。& R4 U/ G D0 b0 I) D
二、建设期成本分布:区域对比
% o4 W) g% z2 M, f' P( X以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。! G: Y7 d! C4 }4 _
2 T; s; N- Y# j" n0 t
2.1 全球/通用结构(以 1 MW 为单位); m( q& M. f) m. d2 w! V
综合 JLL、ConstructElements 等[2][41][40]:3 `( B$ Q# g: t5 [
+ y; |6 y3 q+ l( b2 P
壳体+机电(Shell & Core): O* C5 v1 P' j, J
Q, g% b4 O7 `3 Z
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
* B5 _* r$ H: R" a: u8 f5 ?其中按成本构成[40]:
z: t# x3 t b+ J1 }电力系统(变电、配电、UPS、母线等):40–50%% a M) M3 @. p, y/ R8 j& V: d& X
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%7 m; O* J w! u |& y. j9 h9 e
建筑与土地、结构:约 15–20%8 j e1 E% z; A; C0 E0 g
其他(消防、安防、楼宇管理等):约 10–15%! g8 u6 n$ b Z0 j
IT 内装与 AI 基础设施(不含芯片)
. |4 w; O, R: _$ b' M* c
: g5 F8 }. W1 ]! u, z高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。# C/ Q1 @" x. E1 w8 T0 t& O
GPU/加速卡硬件 CAPEX
9 d- w- n5 o/ d1 w2 E2 K5 x4 G- l X4 c; g, k, ^' B* a
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。8 a, U% { B0 |; I5 n2 t
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX/ h# n0 K) ?: @. Y3 }
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):3 a0 }3 y" [. s0 n; b" H7 d
: k7 v! U- s- a& y
区域 典型建设成本(壳体+机电,$M/MW) 备注
/ S% c/ Y- j) I1 A中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
4 [1 Q/ s7 x: j" I( ^3 z: M$ w1 Q美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
+ m2 t" b2 u. d欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]/ \# e9 y1 ]- Y& H$ P' _% h- d7 Z
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
$ m4 E0 m0 c5 e结论:4 h! H6 U) {" [. D
# _" V3 `/ d; O5 j6 ~单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
" o6 r* F, L7 N/ f2 h0 B6 D# \" y若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。1 X( `1 X& }' m) Q1 c9 V7 f7 ?
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例): m8 N) c' Z% e2 z R
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
1 J4 c( k* J5 r0 N7 p
$ J9 ^& f6 ^6 G4 ^7 g% C假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;8 \+ }* C3 u$ C( n1 ^7 v
GPU 配置:) w# o- S4 c# ^' t
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
( Y& H }* |6 y S每 rack 成本 ≈ $3.0–3.35M[34][69];1 E4 c r! ~6 I' k, l# K5 ^
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
2 j' D) k; j, n) g与不同区域壳体+机电组合:
. |% c4 Z2 `& c$ q) X/ Z: G7 Y8 L6 t6 @
以中值估算:0 `! ]3 }; b, b
5 S* X& F4 p2 W; c
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B* T6 r, k% t( T$ \. }; U/ ?
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
5 o0 a) [5 H/ x' j3 Y8 Z8 ^欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
]0 @4 ^$ w% l* q8 Q中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
# b0 @+ t4 M$ n$ h8 f5 H可见:3 I3 j% s' t! g+ e2 O
' `3 p& c# U$ [6 q2 M$ d
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
' i6 f+ w) A: @9 m$ Z相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。1 p& X( o' X& I' ^1 _. j0 [4 _
三、运营期成本结构与区域对比5 @2 q6 b2 W) N" e+ |, T: ^
3.1 通用 OPEX 结构(高密 AI DC)
* N& A; L U5 l8 J结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:* s' u0 a2 G9 d* f6 K; M- f) @
- U" }! E) F, l! b8 Z电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
! t6 k% ]7 x- W6 C1 V+ W& A冷却与水资源:4 h* R D, A/ y" P/ Y% D! F) B! V% G
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
" ]( V8 V0 }3 i/ z$ s. F% t水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。( d( R W4 C& l" K. r Y( {
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。/ j8 ?6 U7 S# a+ f+ u& R# P7 Z
托管/物业与维护:( T5 h2 j) r% C" {2 t) Z. N3 g
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];* L' T) \$ X- a S$ Z' c. L. O
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。4 g2 E: f* w2 E) V* _6 b
3.2 区域差异(以 400MW / 3 年期为例)
7 e! A" V3 U" A使用 ChinaTalk 的电费与人工估算[1]:4 R, I" f$ v5 u/ ?8 L
( |0 Y% h( b5 }+ v$ I1 z4 e# k: X1 y
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:: E+ o3 c0 x2 N/ z
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
! |- B+ {/ z6 d; H美国:约 $0.09/kWh → 3 年电费 ≈ $600M
+ i- f6 Q% F) t中东:约 $0.07–0.10/kWh → $400–550M
8 V2 X: @. \0 h V3 J欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
3 H6 w! @: t9 T( p3 Y( i8 F水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
% w' v' h5 @: y美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
; x; \4 M6 o. K% K7 p9 P( ?三年水费级别:( h/ @' S" V8 A; F! E
美国:$40k+' J* ]" h6 h. W
中国:$20k+
* L- v1 h0 q* D' w7 A: \! |结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。9 {+ h1 S, \5 C( T6 `: e- F
人员成本(3 年) – 假设 500 名全职运维:
6 {# @! P1 h6 d" d4 _1 N美国:500 × $120k × 3 = $180M+( Z+ N" N% F1 D4 E# z
中国:500 × $22k × 3 = $33M+' V# D3 D! P: s- a& w
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。/ \1 n4 M4 x2 m0 Q0 n# ~
整体 OPEX 粗算(3 年) – 400MW 场景下:
5 U7 E* R4 W; T$ x" C: O' i1 d, C& u) b8 z( l: J7 ?2 q$ s
项目 中国 美国
6 a) g- [1 m/ g% {电费 $350M $600M/ d0 [: [" {0 m
水费 <$0.05M <$0.05M
' t0 B% Z- t& u7 B! k人员 $33M $184M1 ~5 W8 n% C. [" c
其他维护/托管 同比例估算,地区差异主要体现在人工与地价 h& F+ y1 e3 b
结论:$ a( c$ v8 N3 M; s5 }
+ T4 O) L1 b* I0 `1 ?就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
; {' P6 S( u4 V对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
8 h- x9 n+ s- O) y5 l% K- H, N I2 j- N. e四、基于 token 的成本与利润推演
' b/ U( p( T3 {0 G% ?4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元), S1 W+ C9 p. W7 P |
统一假设:9 q e# u: L$ o
1 J( p+ E2 g B! X: a, ?
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])4 ] j. F Z' u8 a/ u# e: `
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
: }2 @5 a$ N! V. G* Y8 O1 百万 token:278 Wh = 0.278 kWh
. J' w: O! L/ `3 `' ^场景 A:美国电价 $0.30/kWh
5 J6 P3 @6 ^* G4 A9 q6 S5 B电费/百万 token = 0.278 kWh × $0.30/kWh/ T9 |) F; H; [! @( _
≈ $0.0834 / 百万 token
: n9 ?& ^ R3 w" O" B, \$ F, ]# z场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
; A( X( u! z7 }3 b: R电费/百万 token = 0.278 kWh × $0.0428 X+ k5 ]& M5 x& i
≈ $0.0117 / 百万 token6 _) Q, A& ]& f p+ Q$ R5 F
对比当前 API 价格(OpenAI 2026Q1)[62]
! o2 \& y9 z: L/ v以输出侧为主(成本最敏感):
% B9 G8 M4 t# I! N" c7 m U: J+ N) {
模型 输出价 ($/百万 token)" x! ~! M! A' W. q2 S9 U
GPT‑5.2 $14
1 X: A8 g* b8 M- D* J- dGPT‑5.2 Pro $168
% v% C; C7 d5 P2 Q) AGPT‑4.1 $8
/ K1 j3 A8 q) lGPT‑4o $10* R9 R; {8 J3 p7 Z7 P
GPT‑4o mini $0.60
: l% M9 L7 ~; Q0 c1 [则:! v$ ?8 x+ O/ d9 I F
9 d, V' o3 @+ E; F
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
8 D6 D1 }. C9 p在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。6 H% ^/ c8 f- X# C* O
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
; W: w" |& z- H7 y0 v$ s* f# x结论:" N8 p# W# Y* k9 o& _2 _
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。; `2 `( s" R$ s5 f
$ I6 h: J2 Y9 X$ Y% c2 ?! O2 e/ ^4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
1 D* I( v/ @" b& S以 LenovoPress 的 8×H100 Config A 为例[28]: l* B4 M3 z7 _0 ?% W2 \! ~
3 u+ P3 f2 S! p# [5 年摊销下,8×H100 本地推理 70B 模型:
7 _; Z, n n, ^" q6 ?4 n. T小时综合成本(CapEx摊销+Opex):$12.08/h6 I* }/ U+ @# Q5 G- z
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
2 v+ }3 _ q. d9 k. T2 X+ X: A1 H成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
- [7 X6 s" \- ~7 D9 [0 x5 |1 E电费在其中的占比:5 t7 l; f2 k6 Y/ \4 }
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]5 `1 P& d6 ?8 n, T f
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
|0 j' F! ?5 ]- X5 S电费占 总 token 成本 ~7% 左右。
$ a J% r3 v2 F4 E2 ?# r" m" Z若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。- ?. y* u8 i5 T1 N: b+ K A) x( Z+ o
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
' ~) E, `- l" B6 o# U% b
( J! q' c% M4 X& @1 N因此:
4 {4 H; [; C9 w- @" A0 G" Q" _0 p2 J H$ }& G* J: L; h% X/ l
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。, F+ @( [0 D6 }# ~; L) h
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
) ?$ u0 ]1 e/ W: {五、不同芯片方案的建设与运营成本对比: e/ S4 s+ p) {( O1 C; w3 u. {
5.1 NVIDIA 方案(H100/H200/B200/GB200)
+ n; Z* M4 I+ P( `CAPEX:) G6 j) `3 y0 p M3 V4 |& Y3 O V& }9 S
; t6 J% i' L0 G- BH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。7 \8 t- ^0 ^7 [' ]
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
% I. l+ W+ X1 j$ U$ [# fB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。) i( _. u: g- K" i: F
GB200 NVL72:
* n+ s7 H2 n& Q: U8 s" ^) i, W每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。9 b. Z; x; U! a& {. U
冷却系统每 rack 额外 $50–56k[35]。
* \. P. d. M, y0 r在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
! `2 u/ Q4 {% Y7 TOPEX & 能效:
5 K/ a1 ^# g: ]9 \5 P4 r8 q
' U8 Y Q. [* J6 c% Y单 GPU 功耗:2 Y0 L- X" G; O P( v, z; M
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
/ {, A+ p' D4 \H200:功耗类似或稍高,但性能/W 提升[9][10]。; r. Y$ e5 N* u" n6 E0 G- a* ^
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。7 ^ @" o# o8 {
Token 性能:, X3 t8 [. w2 T/ C+ G
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
. b3 P1 M/ ?7 _NVIDIA 的优势:6 _' v+ ]6 \$ S O+ k3 `1 A4 \
! F* {% e$ ^; o/ o4 N软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。* ~7 ]- ~. D, r+ e5 f" C3 M, h
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
$ c6 f* E1 E. L7 n% t, }* S5.2 Google TPU 方案9 o* h. Z6 {% r, w
CAPEX:
7 U. ]% a$ W H g. P% T- s
- ~4 L4 G3 @7 S8 i9 A1 m单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
, u: u+ x; T7 }' G) p: s4 }GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。1 Z% A5 x7 q( L
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
7 A5 {4 B5 m* `能效:% Q7 }6 m6 R$ `8 Z, |
- F- W- s# Z- ]: [ M2 m' e' w7 ?TPU v5e vs H100:- `8 E. ^& i }; t. c- H0 t
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。! }7 z* C$ X- `2 J& H' K
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
: T* \/ ]9 i" L% u- U新一代 Trillium/TPU v7:
' j. L) C. z' ^# H8 L# Q0 U( b0 m; I能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
1 ^" l/ p- L& R, pGoogle 方案的特点:$ j, M9 O. S3 j5 ~: g- B! j
. r0 D9 g' _5 D. N( C# C自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;* A% P! C$ w% v# A+ W
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。 D0 B! ^, D/ N0 t. A5 I0 `( P
5.3 华为昇腾 910B / 910C 方案% M3 }( l0 W+ ?% n
CAPEX:
! P- k/ _, ?" o; |; Z/ ^, n/ c) i) r, `/ t
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
: }% M! s' B& e8 T; C- ~/ j与 A100 对比:! f. O' k! u ^7 h9 q
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。+ D! T2 ]9 E/ V$ g" {( E) K
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。0 z ^( W" f# }! k
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。 U2 x8 k4 U, E$ f% U+ Y
OPEX & 能效:& G U2 ~, I5 F
" y( N* H r' Q; D910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。4 o0 \1 C* H7 E! f+ y
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
* \3 L) S6 s$ [在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。& u5 n- Z2 w. X x2 \" g
5.4 平头哥真武 810E(PPU)方案$ F v C( |5 i( D; t
CAPEX:
" \ c* N* S5 p6 V3 _/ B0 U: N! p) G! X# t
技术参数:% U$ l) | c0 m, ~4 W3 q1 z
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。( z F2 h( H5 y4 M" N
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。. [1 Z/ V8 @) M) [, H
价格:
0 b! d& M- r1 e! T未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
4 B( c" Q2 p5 w* P4 b \结合国内报道:
M9 C! Z# { ^2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
! |9 H0 P3 M1 f9 B) O$ z* N3 V+ h数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。% q- _$ W8 l0 F
OPEX & 能效:
0 [3 h( u O: u2 B9 E" d1 k
% Y- i8 n; }! q) J3 T1 G4 r9 S* A400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
7 f$ }/ y, E! v在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。1 _# |! S' ~: c. m$ v
六、综合比较与策略建议
6 ], h$ n. b6 D0 F2 k4 M6.1 区域维度:在哪里建 AI 数据中心?
+ k' z2 G6 ~- O: ~9 }8 _纯经济性(TCO/tokens)排序(假设无政策/合规约束):
5 u4 f% ~3 N" l0 C* p3 b$ H% @" v9 z" u; S9 R4 Q% ~4 ^
中国西部/北部(电价低、人力低、建设成本低)
. o+ a7 f- o. L% h' n中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)5 a! f; f8 s1 g2 _0 A/ F( ] H2 ^. }
美国电价低但人工高;东海岸/加州电价上涨压力大
( A3 H; ?- H9 i欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求0 K' U1 R: Z! H3 C
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
0 \& ~' z3 j- \0 m) k4 c7 c k5 `3 ?; h e! q0 G
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;# T9 n0 S/ |4 N9 r1 @2 b( G- O" _$ L
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
# y$ [) Q. h6 F但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。/ d: `) S+ Z5 X
6.2 技术栈维度:选哪家芯片/云栈?( g! f; _8 t# F! E: B. |$ ?
若目标是全球最优 tokens/$ 且不受出口管制:
+ O) A! v, I8 P6 o
" s& T+ ]& A+ `0 K* _Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。4 M& M3 C2 M N7 U" U
若在美国/欧洲,能自由采购 NVIDIA:
- f# t; {+ v5 ~" ~: [2 h+ F* G V0 I* \& T* E/ O
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
' S3 N0 E" a% N, H3 a! n+ U; r成熟的软件栈与生态,极高的 tokens/s/GPU;
( f8 f* q( o( I0 |! I6 ^在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
$ Q, S4 C* N0 G$ @3 {但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
' |$ o$ p: f" J) K若在中国或存在出口管制约束:# v3 J. G0 P4 }& Q7 ~) J8 O$ f3 i
4 D! n4 ^& @7 M昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:% l. s( X% x; L, ]
性能上已能覆盖大部分 GPT‑4 类推理需求;
' X" B5 h3 e/ s% u- |单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
: C3 b2 q& j# b. _( G3 [7 g软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
( ^1 p9 Y2 d+ k* T) [% V5 l: T建议配合:
0 u- p5 N& ?$ [; {) W高效液冷(PUE~1.1)、' L3 _, T5 x$ _8 H3 w7 @
大 batch、路由(浅层任务走小模型/低成本芯片)、
5 L# b5 H( Z. O o1 J, h强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
, O* E, j, O; T- Z" l长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:, }. h0 n0 D4 k2 V1 {& W. d# O5 T; S
& o3 m/ Q; x* d! Q6 l数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
6 G8 v0 d) `1 {) }& p这意味着:
+ Z: v& u& Z7 B优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
5 K, B* @: O- G4 U, V _精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。, U6 n4 d2 L/ J: \( f8 P9 b! |
6.3 针对你关心的具体问题的简要回答
4 W1 O J; b% q9 U5 W% C7 ` ^4 AAI 数据中心建设 vs 运营成本的大体比例?* C# T- f+ M& ?7 X+ R2 u% Q
' D9 j- `: ?4 r; S在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
1 z/ }7 q$ v0 I其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
$ r+ t, n% V, X* \' I! P中国、美国、欧洲、中东的成本结构区别?- M4 @" ?' K1 f7 h2 f
# D1 f/ Z! \7 w+ W& }5 R; @建设期:3 P) P% D: t' @
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
5 [" V/ m5 D7 g1 n0 y+ A* l运营期:
& [5 o0 l! j, F% s$ w) _* l电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
0 h% N- d) o' }" l5 K# F I人工:中 国 ≪ 美 欧,中东居中。+ V" o- f. P( A( H+ J
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
. g) ?# e# w" u% H/ Q+ |) c
: C8 Z9 o" C0 Z7 A r" y/ ?对于典型 1 J/token 推理负载:9 d' i# }6 W: I: @$ }$ _4 O/ O! d
美国 $0.30/kWh:电费约 $0.083/M token% }3 K6 |8 m8 Y1 ~$ |! L; `- g( H
中国 0.3 元/kWh:电费约 $0.012/M token
G/ L9 \, ~8 D对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
2 O9 }( J! I; r" L* [* p3 K5 S不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
2 y& U0 n1 l7 |) X/ b
& v' E' x; a' q3 ^* ?" a$ J在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;+ Z' {7 F- w' Q1 }7 r
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
4 J! } _) s+ Q1 `中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|