TA的每日心情 | 怒 2025-8-7 11:56 |
|---|
签到天数: 1132 天 [LV.10]大乘
|
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:$ F- c" |* Z1 ^. K
' E u9 }% G" _; b' K一、总体分析框架与核心结论
! `5 y1 r. @7 ?1.1 分析框架概览6 w* b5 t6 u8 a* a7 u; }+ N8 h
拆分维度6 h) w* ]8 r6 y0 v7 p! X2 n D* p
; p4 _. J# \& X3 `( t) Z! J阶段:
: C5 P( }# B ~8 R/ b; W# b( ^建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施9 O- @7 G2 @8 p& ^
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
' l% j# E/ O0 y# O区域:2 ?, c! g# o: r8 q; |# X
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
" H3 o' z/ ~( a, K3 Y+ j技术方案:. k e3 M+ Q' Y8 ` f) u
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等); z" Z. I8 c) n7 a
Google TPU(v5e/v5p/Trillium 等)( O8 ]; C' M' i/ r+ m7 v
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
; R0 Y6 s6 M9 {# D7 b. ]) |算例基准7 J3 s. F% I/ N' o) l! E3 a+ H
$ a. X& V4 J; O$ ]) v
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:) ]2 Y% d6 T$ I" _* i, m( G- \
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW1 i# X$ N* r. |) Y, ]2 l# g
PUE 假设约 1.11(高效液冷场景)[1][29]
$ n- Y; L, z. N/ G" x: e时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
% y) Y1 P" z! i% c+ X2 v关键指标9 z$ c6 v1 A" q/ k
) }- Q. l! Y* ^* x3 G, K$/MW 建设成本(含/不含 IT 硬件)' k3 _# J) l' O! D
$/kWh 电力成本、L/kWh 水耗* B J2 [( |3 S* H. N' V3 P
$/token 或 $/百万 token 的综合成本
+ P4 |" M. c2 |5 w7 p& F, RToken-per-watt / Joule-per-token 作为能效基准[17][18][26]8 R+ Q; P0 h* p
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
8 j0 {& d+ F! j; W% x1.2 高层结论(供决策快速参考)+ F4 h! [/ n, j' e
建设成本:AI 数据中心相对传统云数据中心成本翻倍0 M( `) \: |5 n2 V3 ~
; d, N1 { ]8 Q$ w5 G4 S$ U传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
, M2 u7 j% T# j- Z3 i* G8 y& Y, Y' aAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。9 D* e2 P! t) a8 q
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。# b6 Q, ?+ G% z
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
+ c; \. I* t) i" D
0 I5 v+ `; A/ L$ d6 d( s7 V7 c: N) M3 r中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]( Z! R$ U; r A" H. A; T
美国:$8–12M/MW,400 MW 约 $4.0B[1]
* d7 o8 ]3 U! E% ]欧洲:接近全球平均 $10.7–11.3M/MW[2][41]$ X9 _9 l1 E0 s! ^9 Y/ r/ `
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
; T+ k. Q3 g6 W% [: O! f, h结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。5 Q% P% D r1 @6 T" F; r# p
OPEX:电价与人工决定区域优势
+ J4 E5 S4 e8 T' N! Y/ d
7 V* f. z( q* X' n9 g4 }/ A* \. w电价(2025–2026 工商业大致区间):7 V, ?4 ]- H/ E- e O5 q5 w/ k
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]' _/ }( f" ?7 k7 b8 q) H! u9 |) n3 j
美国:工业用电约 $0.085–0.09/kWh[44]
5 w/ {, H6 _$ J, J% Y5 ]欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
/ n7 A' T; b; }& h中东/UAE:工业用户 $0.07–0.13/kWh[47]
! A+ ^0 [" ~' E' b8 T人工:
% Z( _6 _$ j+ X中国数据中心运维:约 $22k/人/年
) L9 J. X5 g' X, X美国数据中心运维:约 $120k/人/年[1]2 q, C; @+ A! e& v: ^3 W6 f/ G# Z
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
9 `9 C2 S: K# h能耗与每 token 能源成本:能效差异远大于电价差异
+ p: d' `' Z0 U0 n8 p3 j
6 J. u; }! r" z5 j5 IIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。" L/ n# \5 y* R8 s& S* u
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
8 H* w( r, |- I. _将 token 能耗约化为统一口径:
& |9 v8 ]8 @! v/ k* R; Q粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:% S7 x: r0 L7 p6 s0 w# N: A
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
$ `- A) f" f1 U) x3 X4 I* h# b美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token: I4 s! Q3 e& P' g7 ^# ?
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。" n, J( ?9 M7 O7 X. [7 r% z
不同芯片方案的核心差异/ O P/ F' g3 v3 c# G
" {1 B* B" i7 f9 s! CNVIDIA Blackwell/B200 & GB200 NVL72:& G2 P8 t7 Z9 N
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
5 n5 z/ f" ?9 R9 c- [GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
* ~5 T& Q6 {* O- i4 q% z: s x! WGoogle TPU v5e/v5p/Trillium:
: N8 @; d) T$ t% y/ kTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
) c( N% }7 }, ^3 z u, t1 s1 |Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。 ~! w+ d# `1 u# ]9 C/ r
华为昇腾 910B:4 Q" S/ T# l: [5 @9 f8 d
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
5 m: R- |& \- _5 Z) w单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。3 t' b6 c4 b& h, S! L V
阿里平头哥真武 810E(Zhenwu PPU):
; n' E3 K# L( C96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。! X. N9 z1 J# a3 Z$ b& u0 h! G
结论:
: X# j6 z! H8 S0 z9 ?. N能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
+ h% {, s4 z% g7 h. f* d: h单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
: I: o# p9 N- w. ]0 l2 S对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。; N( J" f% V7 c5 r; j3 L) K' e
自建 vs 云租的 TCO 与 token 成本! L" \8 i/ T; j
+ z: s3 Q- d) t/ g) l
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:* E" k1 ?4 t. ^3 E3 O7 j1 ~
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
. n/ j5 m. {% [5 t! k等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
' D* _! ?) W) I" F8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
7 G- _4 d- B4 F& ?% Y+ t$ [- \Token 成本对比示例(LenovoPress 场景)[28]:
# S4 |$ Q7 d8 oLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
; H6 e; Z4 `6 W, _vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
' T( N A) m H同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。) m) Z5 `) d+ k5 `) Z
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
0 V8 y* I7 O- L) C结论:
! o r/ t- v# j5 Y1 `高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。: M: v8 ]% ], k; v3 U& J: {! A0 X6 H/ o8 A
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。" h9 N/ d* h L. m& z. t: C
二、建设期成本分布:区域对比
' T/ q% Y2 V7 @, W& a7 X以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。6 p* f1 f7 F% O1 M$ z" E) J2 S
) R1 t/ }* u" D$ M8 v/ m1 p, a. ?
2.1 全球/通用结构(以 1 MW 为单位)
4 B' d: s- s9 u* ]4 [ ^2 _综合 JLL、ConstructElements 等[2][41][40]:8 b) ?* `) ^6 @& B
& n* Z! b! o$ d2 {壳体+机电(Shell & Core)
/ w0 P' F" G, b% h" E
' y2 s- ^( [% Z8 ?% q全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]' \! F3 U7 W# [, L' }: a3 V
其中按成本构成[40]:
& Y" r5 F$ W* [. A电力系统(变电、配电、UPS、母线等):40–50%
0 T/ _' C. y" G, `" b D机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
# H6 U$ p4 n; _ r9 b建筑与土地、结构:约 15–20%
8 G) T( Z v7 Q% @+ e其他(消防、安防、楼宇管理等):约 10–15%
6 b! ?) K) D' t4 p' T6 ZIT 内装与 AI 基础设施(不含芯片): z: ^! |( O1 m! O* `
! I. V+ h" p% o( O, j高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。 n3 f: V- D7 p6 a2 N5 h
GPU/加速卡硬件 CAPEX
# I [- Z3 b) k1 X8 S3 K, v- [7 i. a2 F7 J, y6 j$ m( S0 I9 S
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
) \7 i% `0 B. ?5 M3 D1 M: v! n1 O2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX+ \: @/ j; ~$ o
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
9 P% _1 ?( {- P& m; p
/ Z3 c4 J/ }( d: K1 {8 a区域 典型建设成本(壳体+机电,$M/MW) 备注6 j- H& R% D% q9 u: {
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13] k' n0 r3 v) g& j' \& P! Z$ G
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
\; ^' t: R0 v, [7 H1 M, s9 D欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]' C& U0 ^" K9 _: ]7 d' g
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
3 O! n+ x3 z6 o( A8 P结论:
! ?% D) P1 z. F* z3 M
9 k: ]4 r, [$ Y单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。/ U1 x, w8 {8 A9 w
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
3 L' }9 T& h9 _2 h6 x2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)( A1 }" V/ q( W1 W
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:* Q: N Y8 h. ?) J% `3 l
1 ? ^- n) o# `- Y4 C; U
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;* N* c% v+ q q$ b" E9 s
GPU 配置:1 q0 I# d5 c3 ~
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);) m8 P& z8 u# d( ~, V! F
每 rack 成本 ≈ $3.0–3.35M[34][69];
; K- `5 S& ~$ Q% _" [9 A$ `# {; KGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。' y7 Z. U, S5 n: w1 e6 {
与不同区域壳体+机电组合:
7 {- O/ x: @8 Z
: |* P) i+ ]) H. n, W+ |% f以中值估算: t$ U+ K7 ^. P3 ?6 M
8 z8 R# e, f* V5 |: J中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
" l6 w5 M' Z2 Y( u; n# w# A美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
" q f. H9 y$ h g2 Y; O* m欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B8 B5 R& Q! x9 |8 R0 u2 G
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B9 [& l" a" k( \" [. T
可见:# r6 ?$ u5 m: z8 L, N: }
`* P1 L f, Z8 ?
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。2 Y( V. o; {4 m# p4 z
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
$ c! Y+ v/ A1 r5 \* d三、运营期成本结构与区域对比7 p. M# f: C/ V0 d
3.1 通用 OPEX 结构(高密 AI DC)+ W1 W; Z) I& v! e( P) w6 F1 V1 Z
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
- |; |4 D% i8 [0 a1 B P3 J2 J2 Y: p% G: Q7 A/ Z! A& b
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
) M$ @) E$ X+ M2 Q3 T冷却与水资源:
2 T" |4 I5 w$ @9 c能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
# @/ w- e4 g4 s4 X+ r& m! a水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。5 i0 J" K; H) R
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。/ X3 G4 w% ~% N
托管/物业与维护:1 I K$ ^, X' ^7 l% O
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
' ?) ?! h; w# p6 |6 P1 r硬件维护:LenovoPress 模型中按设备价 12%/年[28]。. a! a: {8 }; X0 Z! {8 r
3.2 区域差异(以 400MW / 3 年期为例)2 k. [& g5 k5 M' S( J5 d
使用 ChinaTalk 的电费与人工估算[1]:
2 k6 w N- F1 e Q
: s$ I2 z( e6 a; B2 v* U9 O电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
' B% R4 ?1 @3 T0 {0 e# i中国:约 $0.06/kWh → 3 年电费 ≈ $350M1 |, H$ n1 L1 u1 B; v% Z
美国:约 $0.09/kWh → 3 年电费 ≈ $600M5 w5 L7 l4 T% f5 c6 Q. @
中东:约 $0.07–0.10/kWh → $400–550M! s& F0 M u, e1 \) f: y4 Z# j+ h. k
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)! N6 j- W0 E# X; F7 H, x
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
* L) C, i# F; O0 z美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]) g' T# z" f9 e; h( R( K# n
三年水费级别:
* g+ u* ~0 ^& Y4 h* \: {美国:$40k+
; r7 R* |) w; I6 p C; j. _中国:$20k+# X; N$ U- b# v( x+ j2 y! e4 O
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
# r' C, y1 X. f1 n/ W4 }人员成本(3 年) – 假设 500 名全职运维:( ^1 b* L% K( |0 n
美国:500 × $120k × 3 = $180M+
& [/ {2 ?, q# U5 w! a2 q中国:500 × $22k × 3 = $33M+
% n4 s) t3 a$ S# k1 A0 ~, S' }差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
+ L% k3 ^. N; I! W1 N7 g整体 OPEX 粗算(3 年) – 400MW 场景下:; E, r4 w: ^! \
# Z8 T5 F- n* H, E
项目 中国 美国
! ]. p2 J0 V' D; O9 Y6 e4 S0 m电费 $350M $600M
& n8 g0 j0 i' c) ^" L/ U: w4 J水费 <$0.05M <$0.05M4 a: ]- L3 e6 a; D, Y8 s7 R/ h
人员 $33M $184M& K. a/ _" ^3 f5 r1 a
其他维护/托管 同比例估算,地区差异主要体现在人工与地价 * A: O0 o+ h' E% o7 Z; q
结论:- c) T- O' C0 e$ w' U
m2 u, E v J; U, m k
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。1 a/ x4 m( g1 b: H
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
1 H& ~1 |% n5 O' N' |: C四、基于 token 的成本与利润推演
( \ s7 R$ v. N8 Y) f4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
- t$ w' j& Q; V& \统一假设:, w8 ^4 h* t3 m' B+ S5 P5 i
" [, v$ b0 T7 h( _, N/ n
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])$ P2 ]( E( y* z% `" r' t
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh, j! f% P2 L* Q9 P4 M; t) C( u
1 百万 token:278 Wh = 0.278 kWh
0 q6 F# g4 u/ S( y9 C8 e" \ _场景 A:美国电价 $0.30/kWh$ Y7 p+ c' T) v, \( k/ _6 @* P
电费/百万 token = 0.278 kWh × $0.30/kWh
- W0 _( K& M) P≈ $0.0834 / 百万 token
8 J, ], h/ x. B* A" o! m" J场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh/ _, e/ ^; _5 i
电费/百万 token = 0.278 kWh × $0.042
4 V8 h- Y r5 o6 c≈ $0.0117 / 百万 token
4 s2 G2 `2 C0 Q; b3 n7 `对比当前 API 价格(OpenAI 2026Q1)[62]4 x' I6 Q* | Z2 Z# Q! x( M$ i% `
以输出侧为主(成本最敏感):
4 i6 v7 Z% n9 {' E8 K- t+ _! j K$ C* M$ r; n
模型 输出价 ($/百万 token)" i, n6 P$ E9 F! N% F9 T6 q4 M" s
GPT‑5.2 $14& g }2 K) V2 Z- Y1 W" K3 x
GPT‑5.2 Pro $168
1 M# U) O/ _6 fGPT‑4.1 $8
, p% s* G( `; E) X8 e, `GPT‑4o $102 U5 a% O+ n+ ]4 `* V4 D5 g
GPT‑4o mini $0.60) M2 Y+ `# `2 K+ v0 M
则:
2 s1 S8 Q' l+ ?1 _; u% d) C! h: J, q4 {% E! e4 R d% v- n, B
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
4 W& H- D! M Q+ N6 f0 k/ y在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
9 L$ A+ ~6 n6 J. l相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。% @2 X; h; z" g4 m; h; d
结论:) A @4 P J0 w. h+ h6 U/ }" k
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
2 |- P! D! ~& ?( }, C" l( l
. T$ i' Z) q2 c; \* N+ d4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)3 W8 j! r2 m3 O1 p0 d
以 LenovoPress 的 8×H100 Config A 为例[28]:/ O, I: M, _! K+ {
" V$ ]: Z( s2 Y! l5 年摊销下,8×H100 本地推理 70B 模型:
& S" _2 a0 R, B! A) H9 \& N小时综合成本(CapEx摊销+Opex):$12.08/h
. W- L7 @( z3 t4 g* F4 N吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
# y1 j _8 u) N: Y& d) N成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token0 p# S1 p2 E2 e9 I& k- g. r* Z0 S
电费在其中的占比:' i, `1 T1 S+ d8 p
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]: o( g2 @: u% E- \& Y% j
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token8 ~/ B: ]1 k( V. K R' c
电费占 总 token 成本 ~7% 左右。
+ u; ?2 F/ S" Y8 `1 u6 Q若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
# t/ q6 e( _9 F/ I1 |# w若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。& p* v+ q! ]+ E- j0 T, O* m
5 S1 y9 o& G7 ~9 F6 V' _- M5 }
因此:7 G9 ~5 N7 h/ D5 @# _$ m
) V8 c; N% Z) L' w
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。6 X2 p5 J0 a A
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。) F; s/ w' z: {- q6 ?" [
五、不同芯片方案的建设与运营成本对比4 { T) z% j U- J, Q3 L5 ?
5.1 NVIDIA 方案(H100/H200/B200/GB200)
9 Z4 h5 N0 R" \' g! P; S2 D/ bCAPEX:# x( K9 i3 W* B# a' _6 ^4 Y
3 ]1 R5 D# D; \! i5 M
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。. [5 _2 k" _9 a' [' p9 o
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
x# r8 R ~5 Z) X$ |/ U3 qB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
+ l+ _ z+ ]3 r" D, BGB200 NVL72:
6 t3 \4 e2 v) }0 T: j每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
! v' h( f7 M4 c T; g冷却系统每 rack 额外 $50–56k[35]。6 |5 i( [+ W) p1 n6 z2 X" V
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。4 H; z8 V5 Z. T: t# {/ a
OPEX & 能效:
0 z+ e; C5 C& x3 q; j/ u2 c0 z/ Q7 F9 a' H$ T2 _3 @. z
单 GPU 功耗:
& ?* E3 u- e: l, y! N5 B2 @H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
4 r- ]% p! h4 X! R2 o1 H, y6 v" nH200:功耗类似或稍高,但性能/W 提升[9][10]。$ F5 p: w( |8 q" b8 [' G
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
7 a: \; M9 H2 uToken 性能:
+ }6 V' g6 w, E5 uB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。* _8 V' y" n1 s, ~/ f5 O3 N) J
NVIDIA 的优势:
# {* i- v5 Y, i( y6 n# c9 J" |+ D0 _8 F7 C% M
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
+ e1 L( u' F1 Y* K0 s3 S0 u但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
2 w2 _. C$ R9 Z9 _5 k- K5.2 Google TPU 方案" B! d% y2 r+ `; H; T" Z! V
CAPEX:' Y" L6 Q0 c4 r Y
! u$ K2 K4 |: `2 ?单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。+ j( L+ E- ` o# X( {
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
+ c: x* j& u7 b# K9 s8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。* o, }+ x% U, [
能效:
& F: T6 ]! I! m- b% b; l% q
* {! ^/ t& z9 _0 k/ a" Y8 _, tTPU v5e vs H100:
" {2 v& f6 u2 L/ u8 J同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
- J1 f+ d5 T+ R% V/ c测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
; Q0 N; o% g! r3 O; Z新一代 Trillium/TPU v7:7 x4 n: Y* e; [) p
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。 X7 ~- X" r" t3 z9 O. x! Z! y
Google 方案的特点:# d+ V ?7 x2 g( O$ }# _
' X: `; p5 n9 q1 l2 y6 Z% ^自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
- \ p3 q0 y' X* @9 i对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。4 ]3 A x; s2 D' w0 Z4 @* J
5.3 华为昇腾 910B / 910C 方案
" z& T8 [0 T& M. O9 J8 w( FCAPEX:: L) g0 i# F. S7 q. S! i0 l
0 {: d2 P2 p% [' _5 Z单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
. q A' o4 s5 D- P: B与 A100 对比:
# e0 A6 [ P2 k6 W) R6 I" hFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
& W* X2 y5 n2 \# k; n q G5 a" X# x) _市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
0 R2 v8 {1 A( x使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。( x! L0 X) S& `' @
OPEX & 能效:2 b! ~5 m1 i" |
: q$ A* \) |. M( \: X
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
; P# S8 C1 B6 v6 K部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
& o! [; z. l& b8 ]/ q! w9 }在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
( H/ H' Z4 y. I8 y5.4 平头哥真武 810E(PPU)方案
- s/ k$ v3 b! VCAPEX:
$ Z/ I9 L/ H6 n% a2 I8 W
) o2 u1 U9 B( R( j2 n6 z技术参数:, p9 z9 s0 N) }' U% J& [
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
& ]! p2 q" i3 s& l4 o) k- _性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。) I1 J& R1 B& i" q. ^5 m
价格:" t9 w7 L1 m" l4 L' S
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。; L- H7 Y1 f7 v6 h' R$ ?4 N" z
结合国内报道:
' _) z! k$ m$ G- L- q" a$ N% K2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
2 K( [! a7 K; w1 |0 D# s/ q9 B: b数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。' x2 C% ^: _5 Y3 c; d, J9 a
OPEX & 能效:
# a, ^5 i+ B f8 Y x$ S }; G3 I7 }2 B% W, Z8 A
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
0 t0 ]6 h" C& d& o" u2 h在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
6 D% N( F) t: g, S( N' V六、综合比较与策略建议7 {! A1 T/ U$ c w& H/ d: l
6.1 区域维度:在哪里建 AI 数据中心?9 x# `7 S& [/ B, \' ]
纯经济性(TCO/tokens)排序(假设无政策/合规约束):
: ^. w6 R8 `: Q/ E6 }1 S- q" g6 e1 \/ p( |8 C* B
中国西部/北部(电价低、人力低、建设成本低)9 L4 z, Y p* ~- |2 c2 A" x
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)& `7 v, M: C% k6 [/ k; X( g6 a, w) ~
美国电价低但人工高;东海岸/加州电价上涨压力大1 {; D. o! V: `
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求# w: @ H+ R$ q2 T3 S8 w
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
' E2 n: t( e! A3 W$ i8 K
5 \1 y# a) H* I9 e! c' W' X& x纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;1 \: O* V7 P* ~6 w) F
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
) |8 H- S) B/ r$ F2 l但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
* V/ U' y2 M% e0 N6.2 技术栈维度:选哪家芯片/云栈?1 V( Z$ V# p3 c4 u8 c& C* a
若目标是全球最优 tokens/$ 且不受出口管制:' t! k2 Y6 t+ U8 e' H
4 }( ^4 S* a2 u' AGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。3 i$ ^/ Z8 T$ T( m, Q" _2 K
若在美国/欧洲,能自由采购 NVIDIA:3 v$ ]/ b; t3 [3 ~ N
* K# w" @: e6 Y) b# k; _+ k短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:" t3 G9 u0 T! Y1 o& H5 P+ K
成熟的软件栈与生态,极高的 tokens/s/GPU;
# c: r8 s8 s f. e5 S! ?9 i. V在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;2 Z3 P' g6 r2 U% ~; A9 s L1 c
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
* T& g7 h, z5 {/ D# \- z/ U若在中国或存在出口管制约束:: c+ [' U# t* f9 F* a& G# P8 J* @
# U8 {& H8 h7 C2 R1 u! s6 M昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
( b( K1 H0 A& ^7 d1 V/ X' j+ o性能上已能覆盖大部分 GPT‑4 类推理需求;
1 t2 n7 d$ ^9 t单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
+ G2 e! v" {; w9 X软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
! i" d6 q* w! R4 V建议配合:% n, \5 N$ @" ?! L
高效液冷(PUE~1.1)、4 m1 R3 r" K h
大 batch、路由(浅层任务走小模型/低成本芯片)、
4 ~7 g" I9 J x强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。! ^& B7 o; f6 \1 p+ A
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:" U# Z, ?0 b3 i4 D! S2 Y
5 W* n$ R: s% x* L9 p) r0 x
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];' |6 O# v0 n3 H. ^" A4 |
这意味着:7 Y# [( x1 R8 X
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);( K4 Q4 M+ V, Z+ `; p+ S
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
+ L, {& i7 w+ L5 U' j+ y6.3 针对你关心的具体问题的简要回答
$ M) r7 V+ t2 D$ X) {, G# H4 M yAI 数据中心建设 vs 运营成本的大体比例?1 X! x/ |* I- N' ?* y7 a% d
0 O& p, L, L; n; f在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。! l6 L, f. Q, k l
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
2 ~# b/ K2 z; w中国、美国、欧洲、中东的成本结构区别?5 h7 E; `! k) Y, a
" v8 _; ^1 |) [, [/ h
建设期:8 h Z' R; q1 ]+ [. E* S z
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
/ Z- X. |$ I' g运营期:
' G F- R0 ^) {: f5 B( @0 z* l电价:中东 ≈ 中国西部 < 美国平均 < 欧洲; n# O: ?- v) |: A
人工:中 国 ≪ 美 欧,中东居中。, G: ~! `* T$ t
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?0 R7 W7 e% H* Z6 ?0 ~2 j5 ~3 O6 V, D, {
& J) z1 y9 ^- M- m对于典型 1 J/token 推理负载:8 O$ x: d0 w8 b o! Y9 K/ b
美国 $0.30/kWh:电费约 $0.083/M token
) ^2 X$ e* r' ]% X$ L中国 0.3 元/kWh:电费约 $0.012/M token
) M P& r' A$ M/ f对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。; E+ I; s5 a5 T; L$ v0 D& @
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
/ A( b! p. q7 p z' n( v& E6 F8 B: h, Y* `9 r0 Y
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;/ y) a0 \! E* z; I; @
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;. n) s8 q* w8 f# y: D5 [
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|