TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
! t7 s7 e# P | B# I
3 ~9 r) |4 Q3 M8 t$ o. ^- h一、总体分析框架与核心结论
' H: E8 ~5 g! I( N1.1 分析框架概览4 w5 e d$ T: S: \
拆分维度
1 |% Z) E2 w9 F: L6 m" w) [/ Y4 O z1 |. X) w+ \: v4 n
阶段:1 E7 f1 v- S4 P' ?1 F" c0 a/ q
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
+ n. u9 |, G; C% N4 r* X运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等2 x4 d5 q* K/ D& `
区域:
6 a: N' x/ M( L" y; \中国、美国、欧洲、中东(以海湾地区/UAE 为代表)3 y3 ~1 I+ d! q1 T2 {
技术方案:+ W, e# A; O0 M- @4 }4 c) \
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
6 c' Y8 o- u) k# eGoogle TPU(v5e/v5p/Trillium 等)
+ U5 [% B4 k M0 {" r* H- v中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
! b/ @( b8 ^) A- q y' o; q% _算例基准
) y/ \0 q2 o( t. W% A: p
% P& U, r- J) e以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
" N- U- F G+ [7 p# b其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW# |, Z0 K% m3 n5 P# f7 J" }
PUE 假设约 1.11(高效液冷场景)[1][29]
( C6 r. i% e3 F5 ^时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
4 d h$ m& Z2 q$ ]9 r关键指标+ B2 r5 g0 U5 d+ k% \2 \% l' d7 l" L
8 _# v- W, X* r5 U
$/MW 建设成本(含/不含 IT 硬件)( f% b1 l, o8 J8 Z! B. V; v/ K' s. ~
$/kWh 电力成本、L/kWh 水耗
- Z& ~; K* F0 O. q7 v$/token 或 $/百万 token 的综合成本
, K, m, p3 A5 M! FToken-per-watt / Joule-per-token 作为能效基准[17][18][26], @- F' g. `$ Z: m! c& z
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
& Q: W- T( P+ e: L3 q/ F7 P5 o1.2 高层结论(供决策快速参考)( a8 A! g8 r$ {$ k& E
建设成本:AI 数据中心相对传统云数据中心成本翻倍
. V% n$ o/ M; P2 a u' q, I8 g! Y
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
' E( l3 E" z. ~* SAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
' v- \( w# n2 F按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。: q1 M" t# \" h% @) P8 t
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区2 t/ p% T$ e) z; G
. X" F4 N: _# c( G' W. P0 v$ Y& }中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]- }. A$ q% s( T' b& x3 R7 H
美国:$8–12M/MW,400 MW 约 $4.0B[1]3 d) _6 s9 o$ Z( z3 l
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]# w( Z; g: \8 C0 V' I
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
- J h; @( J8 k8 L结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
3 W' Z+ i' }" g4 A9 z0 k7 B, \5 ^OPEX:电价与人工决定区域优势: ~2 v2 a7 J2 t9 X/ r, K
0 I* C4 k+ I7 _: E电价(2025–2026 工商业大致区间):
2 q& ?6 I* U! Z" d中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]0 u1 o3 J0 ~# Q: z
美国:工业用电约 $0.085–0.09/kWh[44]/ @* [4 r; S6 H% q8 z/ v/ b! ]/ P/ b
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
" e/ R( l& Y: C中东/UAE:工业用户 $0.07–0.13/kWh[47]
/ K! t* b" y) Z2 d! O人工:6 Y+ a3 N9 h! X$ D. V
中国数据中心运维:约 $22k/人/年6 T& j+ D) E' v x4 r+ j
美国数据中心运维:约 $120k/人/年[1]5 b A( ?: l4 u1 n- C3 A b% B, y
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。9 Z" ^& j0 w' B" S" u
能耗与每 token 能源成本:能效差异远大于电价差异& u1 p* j- M! M; l* I8 ]
; o( l W3 X3 N% y) h7 Y2 G$ l
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
* u" ?2 h- o% N1 u大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。9 O3 {6 _8 c; |! o) I( e
将 token 能耗约化为统一口径:
) @4 {% l) x2 r1 v粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为: t3 F! e( {- N7 o: Z5 r
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
# M) ?1 d! ]. S6 P- F0 t) `9 n0 F美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
- j0 b( o4 h, q7 Y) a. d对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
0 l5 w. V- b$ U D不同芯片方案的核心差异) N0 b& K# _+ A5 M
y4 }' q F8 ^. q7 Y& D
NVIDIA Blackwell/B200 & GB200 NVL72:. b5 E6 k$ Z# \- i
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。' F2 L0 ~& }6 y' O
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。% i8 m+ T0 ^( \3 ~0 l
Google TPU v5e/v5p/Trillium:/ ]' ]- z0 Q! a( T8 H/ b$ a+ D
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
0 J I, Z# u$ A# J5 ]Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。! D9 n( B& k2 l$ L0 e
华为昇腾 910B:
! I, E& o: S& p' NFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。/ u4 ~' ], x6 f$ _
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
( S" R6 {! P/ t# m4 a) [阿里平头哥真武 810E(Zhenwu PPU):9 _* X1 K/ f+ R: S1 f
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。0 s3 S k L: {$ d# K
结论:
/ t) K4 F+ `& O$ ~4 p# ~能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
% |! G3 Q4 f7 c1 ?; P单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。 a6 L2 ?% x; e" K x
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
: ~5 z: \/ O# `& Y# L v自建 vs 云租的 TCO 与 token 成本
3 @7 @$ j% h( T+ x& s
: ?$ |1 a9 e! h |LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
' S0 {$ r% }4 T [- ^8×B300(Config D)自建 5 年 TCO ≈ $1.01M;) ]; x4 }, Y) ~: d* N5 I
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
) u% ?7 C, ^' p" X8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。$ {! G9 @& t8 D7 V
Token 成本对比示例(LenovoPress 场景)[28]:
0 Q' h) r9 A& SLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token! B/ P J! r- i
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。) w( t. w- {2 m n0 i
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。% T- l/ @3 q6 ]" Z: g! \
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。- S1 q$ T- _3 u" F. x9 Q' ^$ f
结论:$ q8 r! O, u0 e8 J* D: y: A" M
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。% \; a# r* k/ e. [- J0 |
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。: y/ |; I5 N( B+ [+ @8 d0 D
二、建设期成本分布:区域对比
' `% X* c9 N+ I6 w6 V, n以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
+ r4 E+ j1 u* F8 A0 q* D% s% a* |; q9 O$ w3 e: W$ [$ I( ^
2.1 全球/通用结构(以 1 MW 为单位)
' \* m1 @4 a0 B' `1 O综合 JLL、ConstructElements 等[2][41][40]:
5 Y: |- M+ V& z7 l8 [) b3 P% @6 n8 x1 j% c1 U
壳体+机电(Shell & Core)
1 m! C, B$ r- T- e( _' `# e1 }& ?5 z/ v" a j/ j8 R
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]0 |7 `! E: y" Q
其中按成本构成[40]:
! L# l3 o- C% k5 r电力系统(变电、配电、UPS、母线等):40–50%
8 z! E. U, a' C$ h. g机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%" _ R% r- D/ x+ S; l
建筑与土地、结构:约 15–20%
2 l0 O& B: J% m6 p/ U其他(消防、安防、楼宇管理等):约 10–15%
4 v/ D! T" {5 iIT 内装与 AI 基础设施(不含芯片)
$ l( R( `4 x) t
5 u t8 b- u& J9 b; \高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
$ H. S" v+ p( EGPU/加速卡硬件 CAPEX6 `5 F% Z2 W" S4 G5 a" Z- M
5 |# ~" |+ e0 b/ J+ i$ q# l多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
! I$ U* w: B7 p2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
$ L$ i+ L& @/ N7 \5 x结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
4 u' o& t- @; }' U
. ?, k' b5 c- _# w, q. R5 g区域 典型建设成本(壳体+机电,$M/MW) 备注& C* k7 {# Z+ o& s; t6 |4 S9 B" J( C
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
/ h! U) A# b6 ?' d \4 z美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
/ a" A F8 A% [欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
7 z3 b$ Z1 g& Y2 f/ {% l中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20], ~, Q' O1 R- u
结论:4 y ^2 G2 s! m2 C- a2 d
7 G6 c2 S) c$ U* F% o单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
" a1 l. X7 i* r0 `; O: j0 }" }+ E% G5 j若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。: t$ ~1 H* S4 {7 B. X$ t7 }3 X
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)$ g% ]3 O/ H" @; d
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:; G2 N+ {# ]6 R- ^
4 G; t8 b( k4 \% L
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
, A- o+ w, K7 y w- ~) ]( iGPU 配置:3 o, g+ W& w& n
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);: @5 A9 l" ^6 _# T D5 l; n
每 rack 成本 ≈ $3.0–3.35M[34][69];
$ r+ g# n' |# d }) i9 ?# bGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
8 k% m- x1 v( Q- p0 J* R3 N6 o+ A与不同区域壳体+机电组合:5 i( ^8 D. P8 J! T9 b
9 E4 E8 L6 ~7 W. ]& I7 Y1 D& Q' E以中值估算:
) ^) f# }4 }6 I) }. r! ^
/ j6 s2 p6 ?+ U( j中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
8 _ o) M& N5 B7 M! x3 a7 @, m美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B" u( N' z7 |. A% }: F6 H
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
8 y! [: W' B: |& w; B, a, v& n中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B- T* {. S7 a5 g1 y/ a! t1 L
可见:& o3 t9 i* O! h; p5 N' E) H, ^- f
- L; o3 Y7 A2 B! Q" a: h
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
& r- A0 \- P/ r0 S相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。0 x+ O1 Z5 S9 O6 w5 l7 E% {
三、运营期成本结构与区域对比4 @; ^9 y5 d( @( W" t3 R. P
3.1 通用 OPEX 结构(高密 AI DC)
4 q/ i' d' Q+ Q* s结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:- n! R( d/ |5 l0 i, s, s9 i
2 n0 u# E; s6 w' x$ C# I, W# w
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。6 M: v8 V7 w' m. n0 I
冷却与水资源:* g' l0 N6 a) r0 b- g; q$ B D
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。3 G: R0 f: X6 P2 g9 @: p
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
5 F* F5 q+ Y# V; T6 B, ?- I人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
& f2 o. Z" D) q- Y2 F托管/物业与维护:
% K1 {: x2 O9 o2 P; ^$ G, x" G托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
2 J4 U5 K) l. ], s7 z9 y硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
& r/ [' v0 H0 l3 h+ @: H+ H. w, q3.2 区域差异(以 400MW / 3 年期为例)
$ {) [2 a! \7 M* \& ^5 D使用 ChinaTalk 的电费与人工估算[1]:
6 i: j; H* K0 y; C7 X! x9 V6 V9 s2 n8 G$ M2 |
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:) k( ^, ^) P- O- L" Q* e3 V
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
+ X [$ u% l& z. l美国:约 $0.09/kWh → 3 年电费 ≈ $600M$ k+ q7 R u* L4 \. ^
中东:约 $0.07–0.10/kWh → $400–550M
( v5 {. p0 |( P a _欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
- s Z J, _ v, V: K0 {水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
- k* {. k7 [. b8 s美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
7 b0 @- n }* P# p! v三年水费级别:
6 w E5 b1 X) {, H# k L1 L$ }美国:$40k+, a* i# h' C; T4 p
中国:$20k+
3 c/ W3 G5 c e结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。7 U, ^6 w) r- m5 }
人员成本(3 年) – 假设 500 名全职运维:
1 s2 b2 f* K6 d2 E8 B+ l, z美国:500 × $120k × 3 = $180M+" f+ f+ p/ N( u
中国:500 × $22k × 3 = $33M+) ~1 {, s! g* N2 \* [( h& `- d- o5 r
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。2 u( s7 {( d+ A6 X( O* E
整体 OPEX 粗算(3 年) – 400MW 场景下:/ N1 @5 \, m& S, ^5 u. |
9 n7 ~4 R% }1 c+ i项目 中国 美国4 m! U% m0 y6 r, {% \1 ]1 k
电费 $350M $600M1 @$ X8 o. t ^( R( y
水费 <$0.05M <$0.05M6 A& l& @* X% F
人员 $33M $184M
/ ~+ l4 ]0 M6 h* m0 g0 d其他维护/托管 同比例估算,地区差异主要体现在人工与地价
9 d/ B0 S' z* ]! W结论:
6 D5 v' Y& a! [6 V2 K3 @) O; D' i) w7 P/ b/ g/ |) W8 C1 u X% y
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
4 p: i8 z9 |; }& W x6 s对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
' ^- @% G% N; N* M% n四、基于 token 的成本与利润推演
+ W- j6 u# m% |+ W- j, @, L4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
/ \8 L7 ]5 P2 ?统一假设:- s$ e1 h4 q. s
+ E5 K% C- f* \2 [& k1 ?( w; f& ` x, j
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])9 ]0 S Y9 }+ X3 ^: T
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh7 n8 u3 G* A* I6 S* l
1 百万 token:278 Wh = 0.278 kWh
4 G# z$ w) C+ L, A, g; \场景 A:美国电价 $0.30/kWh }7 I w- @: C# W) r
电费/百万 token = 0.278 kWh × $0.30/kWh3 T/ P; j/ Z9 w7 ~$ O- T
≈ $0.0834 / 百万 token
, m7 O! p7 J3 Q7 s1 ?场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh6 e7 F+ a' t+ O2 W3 r
电费/百万 token = 0.278 kWh × $0.042# U4 K8 f/ N* e0 M
≈ $0.0117 / 百万 token
" p% S; \ T q对比当前 API 价格(OpenAI 2026Q1)[62]
" E' Z- j. \5 d/ V2 t1 t) W以输出侧为主(成本最敏感):8 ?5 L+ a$ F8 ~/ o2 G
! N; |( l6 c0 E8 B5 g
模型 输出价 ($/百万 token)
) b9 ?3 R. V t: [8 yGPT‑5.2 $14
; B0 J& E+ d0 C7 _; t# M1 @1 gGPT‑5.2 Pro $168. |$ \* }8 j9 E3 s/ Y. R6 I
GPT‑4.1 $8( {+ ]- F9 A- ~6 B( W2 d
GPT‑4o $10
0 q' X4 F/ `; i% OGPT‑4o mini $0.60
$ f( B2 U1 H! e$ x! P$ M则:! M# L2 y( a* p, Q5 [" a/ _
# d" Q M! Y3 W; n- [0 B在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
( `1 S" x) u4 Z: Q& D) y在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。' E/ ?/ {, m5 m: T
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
5 ]1 P& z( Q$ l/ o结论:1 Y: F+ N& D) K0 i
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。+ p5 w$ i% n% n, C9 }
$ f7 ]# ?. N& |4 b' ^/ ]0 C
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
- @6 h# a! y) f1 P以 LenovoPress 的 8×H100 Config A 为例[28]:0 x- g, c) }9 V: @) r
- j& X F5 b: J0 _4 V, S6 F/ O; B5 G5 年摊销下,8×H100 本地推理 70B 模型:
' e- j$ M7 B$ ?" l3 P小时综合成本(CapEx摊销+Opex):$12.08/h
8 a k- q# ^! Y吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
5 J. u4 _* D* z3 f成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
: p. Z( z. b4 r- O电费在其中的占比:* v1 L" @ J3 o d$ s6 J, k
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
3 n6 o$ v7 @* D2 B5 @电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
4 H- D: b5 L1 ?2 Q2 G6 j4 j0 F电费占 总 token 成本 ~7% 左右。
) p0 _. ? `1 `) h8 g, C若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。" w0 e% Q4 Y5 v
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。) v( t$ x8 C& w m/ p
# c' i! w! p1 _; Z3 ~
因此:
8 ]0 i/ \7 ~8 Q7 B8 _# F& j
) H# g0 \+ Y( V8 J在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。& z5 B, v9 @" q R9 Y/ o4 W
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。1 d% m* a6 ~1 z1 x: z
五、不同芯片方案的建设与运营成本对比$ n! M6 T% w) j3 v- b
5.1 NVIDIA 方案(H100/H200/B200/GB200)
* d9 l. f- j" d& R' ]4 [CAPEX:1 m& G3 U6 p' O) \! c6 u" {
6 v+ k C2 M n- s& \
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。0 \% m7 N, |/ D |9 f" p0 Y1 d
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。, J, I) z: y9 G9 f0 N
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。3 J, K0 l4 o( ]1 N! B# r
GB200 NVL72:+ k) Y, c% o& Z& K S
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。: R* U' ]+ {7 G* c' }4 o
冷却系统每 rack 额外 $50–56k[35]。
" f2 D+ j" R* P* |* v5 Q在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
2 [5 A9 {4 Y$ @3 |+ P: Q: M7 X/ f3 [OPEX & 能效:
! E/ \% ?' M5 f/ P1 h" w4 V6 G- ^; L/ f8 q; O
单 GPU 功耗:
- w. d0 [' [9 u7 W% M, j% q U% d; kH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
$ f* w$ g/ Q3 kH200:功耗类似或稍高,但性能/W 提升[9][10]。
6 W$ d# L% h" \0 O) R1 DB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。 J& c- f% n9 l3 f- L+ V7 u3 [
Token 性能:
1 g% [1 [3 B8 [+ x# N, j5 e3 i/ BB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
* L2 R" u! ], A W0 L9 D7 pNVIDIA 的优势:; a' a) V" q) _( W- d/ {* k
7 g9 ]4 ^8 B0 l+ Y3 I& N软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。# \$ [3 P: F/ h8 b' V) d( ~2 H: A9 _
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
9 L/ p8 s9 i% N+ X6 D c) V5.2 Google TPU 方案; } E, [5 {) Y: ?+ M' m/ `
CAPEX:
) x8 i) X' T2 m6 o0 S% O; ?
+ e3 n/ z; ^& e1 {单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。0 Z( ?$ v B9 _; W9 y! ?5 a
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
" \4 j: L5 Y7 H8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
1 x* g, Q* w9 M' L能效:2 B/ z6 `! x' ^( _' F" c
8 j4 J5 b& Y$ M" J2 z
TPU v5e vs H100:1 [' l2 v% |$ m0 ~
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
( h0 ?0 s) w- P' q# z$ T测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
& h% f( F- I+ k+ m新一代 Trillium/TPU v7:/ r$ }$ g; n1 Y7 L
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
# b3 n+ n! I5 T; [( `% m, ]. z' q' XGoogle 方案的特点:" V& B* {. ]9 \ i! {
6 \/ b# D: p$ L' x. B
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
5 L+ V$ \: A1 ~% q$ F8 D4 s+ ?- H3 _对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
, j! ]# T2 O8 n5.3 华为昇腾 910B / 910C 方案; J# s5 h9 z/ n4 v
CAPEX:
. J2 \6 j( ]/ a3 t
$ R2 O; l' o) g& Q" b0 m- m单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。" r$ z+ `3 S7 x% a; ^1 B
与 A100 对比:
$ N3 {# Q( q: @" @2 |( b* SFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
, ~8 P% O( B' t& ^7 y/ e市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
: P; u& ?3 a0 O使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
2 s- Z9 [( `; w6 R0 G1 DOPEX & 能效:
8 D; N+ {$ j" _, O: ] n! K: W0 N5 l# G& w2 v9 t
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。. n8 R6 ^8 p9 R: O
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
/ @* m. M7 s: a+ i% P在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。8 f+ f2 D3 {1 w/ r! A9 U
5.4 平头哥真武 810E(PPU)方案5 e9 A% `5 }( W1 j* c0 s
CAPEX:
& D6 v/ A2 }2 }" {$ Z2 ~' M$ }- l2 T* H. }4 I! l+ X. c* ~
技术参数:
/ }. H2 p- N& ?5 x8 m$ H/ d) ?96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
$ Y4 C2 H/ l# O性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。 q* }* X8 d. E
价格:$ n* y5 t5 {5 l: W) E/ @
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
1 _! J- J* y9 B7 X i: t结合国内报道:& C/ f3 L5 y# E
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
! o% L, o# e. ~数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
' |& o) Z. w; e4 l, nOPEX & 能效:4 q) ?3 I5 t. c
8 }0 d0 r# }' T; F' A400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
F+ l8 q/ j8 g# o: x0 w0 M在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
& H. j, X# Q4 z3 M六、综合比较与策略建议
7 A- `. ?' b1 \6.1 区域维度:在哪里建 AI 数据中心?, G% c5 d4 W5 g- R" a
纯经济性(TCO/tokens)排序(假设无政策/合规约束):
5 z8 p" k( e) o1 \& |+ q! r4 ~/ R4 k) ^7 K& Y8 L4 S6 `
中国西部/北部(电价低、人力低、建设成本低)
, Y+ o! i- _- V/ y% Y中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)3 U/ d' B ^" e0 a* s
美国电价低但人工高;东海岸/加州电价上涨压力大5 Y# T$ e+ e$ U, R4 b1 |
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求" h# `/ Q6 T( J
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:; K' K9 a3 G1 B; o, z: r
9 v) ?" }0 }& j* M9 k
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
/ p }4 I' ]) n! l( i8 ^# n对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
3 k4 e8 |# ?' V4 T1 ]2 L" @但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。5 `* i8 c! i+ U; W8 v6 Q
6.2 技术栈维度:选哪家芯片/云栈?
8 Q- _9 e. h- |: T若目标是全球最优 tokens/$ 且不受出口管制:
5 b! F# o$ _( w4 d6 T. L5 t: O* E/ l9 W5 e
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。 l- E1 I: u% u f/ t
若在美国/欧洲,能自由采购 NVIDIA:. E3 Z) s9 K; a7 x& P( U
7 O, M7 {" R# T6 @; b |1 Q" W
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
2 O6 A' K8 X, D f, c/ C成熟的软件栈与生态,极高的 tokens/s/GPU;
/ x8 ]; h3 }; m' ?2 @; a5 D1 }在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;' t9 Y4 z; J8 q. i( C$ M
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
2 r5 Z+ q$ a) \/ S' k若在中国或存在出口管制约束:
, A2 l. o# K \5 w0 \& |7 H" Y( x! d5 |0 ]
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:* ?' d+ D7 ]7 V; L% \; p$ Q+ V; S
性能上已能覆盖大部分 GPT‑4 类推理需求;
5 w; x' M% t( w1 ~* d单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
4 Y1 j6 U! T. \软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
, ~% M9 C& X. `( B3 e9 j建议配合:5 M' ?) P! D( ?# L
高效液冷(PUE~1.1)、% y+ v' N) h7 _5 i; B
大 batch、路由(浅层任务走小模型/低成本芯片)、
7 T, ~" @7 M8 _: A+ q- F强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。5 t+ O* v# z4 ^. u$ w
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
1 }, U+ D' q- l) R" u, n
7 a4 g0 k% i6 G* z数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];& {* \ _! H/ z7 |7 t4 T6 e3 X
这意味着:
# _# ~: s w# d! \3 t优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);+ V, w( m# t4 |/ J* p9 `+ K8 e
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
8 Y- s! k2 G: S8 c6.3 针对你关心的具体问题的简要回答9 B3 ]' S3 m! J: w0 B- g$ H
AI 数据中心建设 vs 运营成本的大体比例?
$ l0 p" Q+ l% ]; I4 p% Z8 @1 @* Z8 n
9 l- m# q& s( J& w3 ]在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
9 b' Y7 Y$ ^* n" O3 Y7 n7 j6 x其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
, f( p k4 D' c- o6 T+ r中国、美国、欧洲、中东的成本结构区别?% I0 O( D3 S L$ a5 N( L
3 o/ O: c% m/ Z2 I+ @$ r建设期:* S7 q1 r& S5 F0 B: i3 F
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。9 X3 _: H+ P. X7 ]8 u. }8 h4 W' U
运营期:
! t5 [2 e# L& {& S3 ^/ M6 A电价:中东 ≈ 中国西部 < 美国平均 < 欧洲6 A* {% a) s, P
人工:中 国 ≪ 美 欧,中东居中。
$ }# x$ W+ o- S在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
7 B& S4 i9 b# w/ ?& K% [4 z7 p* g1 P9 H
对于典型 1 J/token 推理负载:1 T# _2 a9 v( l+ o o
美国 $0.30/kWh:电费约 $0.083/M token
E) O8 _' g6 A8 Y中国 0.3 元/kWh:电费约 $0.012/M token. d$ [/ P) w) s2 f( c! M9 B
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。" t. H2 l7 a9 x, w0 l0 V: H8 n
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
t" w; m8 d3 @: x- r% @/ }
d* K% w4 m8 O7 G! S在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
; j! m) A" g& {$ ^7 |全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
g1 y; z1 g) s中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|