TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
& V7 v% Y4 }0 H" ~1 e; W/ @% \4 n+ {2 D1 U) _5 V
一、总体分析框架与核心结论
! D8 P; M8 _1 N6 F! T1.1 分析框架概览9 A, [" [8 o- A# E, K: T o' d
拆分维度
7 Q9 E7 E* @( {1 J7 i) x/ L( n+ z! r# f1 c- D) `2 {( C- I
阶段:- a3 P, ^( _2 h. f
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施/ X0 Q g3 M3 L7 O
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
3 a& `3 H1 S) ~' C3 Y% k6 z区域:
: ?9 ^/ _* M9 \; y/ @" C中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
" o" B" l; v6 g9 r9 f. v+ w技术方案:
; E5 x1 M3 n" q8 P; INVIDIA(H100 / H200 / B200 / GB200 NVL72 等)# c* b! |) A' m- k) V' T# m
Google TPU(v5e/v5p/Trillium 等)
0 [# A& ~, @* k中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
% ^4 L7 G5 t2 |, g$ }算例基准: m& h) M3 V! b) }" Y
8 r: @2 e* g* q2 K
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
: @+ u! h8 u- j4 L$ b其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
0 e7 H2 C/ V" r5 f0 ^ HPUE 假设约 1.11(高效液冷场景)[1][29]
8 R2 u$ H' `) Y时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]9 s, z2 Q/ ]" {* g3 w# R, N# A, ]
关键指标
! a, b" [+ j( x$ H; |
0 d4 H2 K4 f) R0 c+ a6 v$/MW 建设成本(含/不含 IT 硬件)
. q) |5 y! o, ]9 a; ]$/kWh 电力成本、L/kWh 水耗
3 t& ~! L1 l9 ~8 ]5 B4 l$/token 或 $/百万 token 的综合成本
) h: o7 `2 b, Q5 q7 h( M1 I4 b& tToken-per-watt / Joule-per-token 作为能效基准[17][18][26]
- x. a: F3 @% h! ]8 m4 G5 `项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
) W9 Z+ u! X7 I5 c1.2 高层结论(供决策快速参考)
0 | p% s1 E, O: \9 u建设成本:AI 数据中心相对传统云数据中心成本翻倍" \; }" b7 K/ H5 N% v( ~ l J
- I W& N$ ?2 T0 |
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
& c X0 o( }7 q: B+ xAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
/ o' Y5 w5 ^4 j2 s0 B% E按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。2 h' Q. D9 r, N- e+ y2 Q
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
% X7 @3 l0 T3 r% F9 n$ e+ H" Z1 K1 o0 w; O
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
; W1 ]% S: Q+ x: I2 H美国:$8–12M/MW,400 MW 约 $4.0B[1]8 y# c5 @4 I. W5 G8 Q' l
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
; _1 E$ \( m" E中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
4 P; ^% I& k, E o4 |: A) r结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
) z: c: V& @" N4 W* U' M) a7 BOPEX:电价与人工决定区域优势
, ?2 v% B6 G/ Q
/ U6 k& g: S4 ^" H: M, q电价(2025–2026 工商业大致区间):/ L2 ]% W6 l9 k
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
5 c) [) P" `% _' T0 U2 ~) r美国:工业用电约 $0.085–0.09/kWh[44]
+ R& ^* G1 l/ I" G5 p' v7 d' X欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
' |; g- x" j5 }中东/UAE:工业用户 $0.07–0.13/kWh[47]# l# g) U. i @- p
人工:0 T1 _0 w) C7 f
中国数据中心运维:约 $22k/人/年+ H& a- y8 o2 u6 d0 c
美国数据中心运维:约 $120k/人/年[1]
+ F8 o6 o- o/ Q结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。1 A* j. n2 J; A8 B( b. R; W
能耗与每 token 能源成本:能效差异远大于电价差异0 j. A4 ?2 n: K$ Q" n
3 M& ?' i& a" f! k4 K% h8 b% z" m5 H, ^IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
r& g. p( G# n! Q# e, L! H大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
& w' h% O/ d2 d将 token 能耗约化为统一口径:5 U1 M7 q/ O+ e6 G% V$ ]
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
C P/ h+ n O& p) F中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
" c7 F* Z) T' z, T% v0 Y9 \美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token/ L2 Z0 h# t6 D8 ~ w$ h- E4 n1 p
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
1 d4 d6 {9 N9 I. n1 h+ Z$ s7 L3 l/ p不同芯片方案的核心差异: `; q% ^3 V+ E
9 s g S- I* S o/ FNVIDIA Blackwell/B200 & GB200 NVL72:" b- u8 S* Y( x7 s& v, i. l
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
! y* M7 V( K8 u( O3 t/ a- LGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。0 e- u4 N" @+ L# }) B
Google TPU v5e/v5p/Trillium:" A Z3 M. F4 [& H6 R
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
8 P) D1 ]1 \4 w- ^( ^/ LGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
, D J' c( O& F y5 ?1 D华为昇腾 910B:
0 `2 p% E. o( O/ c! @7 {$ ?FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
: Z5 B$ ~- M! [& |9 F, y% N, }单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。2 @/ ^) h) Y7 r4 t. M; H
阿里平头哥真武 810E(Zhenwu PPU):8 n1 n q1 _. f7 r- D9 r- T
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
: b7 R' j2 y6 q5 b9 Y结论:
( n3 {2 A. m' g. y4 M9 N" y; ?能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
6 D4 c: V$ u7 V {" S( Q1 X; B单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
`$ J @8 g% e$ o) R) S对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。: ^( a9 {- h7 G- M6 ?
自建 vs 云租的 TCO 与 token 成本
% [) Y) `3 Z& A0 ~
6 `) K" F/ k/ c2 N- W* fLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
, R1 }+ j5 b. F8×B300(Config D)自建 5 年 TCO ≈ $1.01M;' e$ m! {! w8 t0 l% h
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。$ h/ H1 \# o& ~, f, I5 W
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
. y+ \4 d3 }4 u& U; tToken 成本对比示例(LenovoPress 场景)[28]:
' R$ A# ^ p2 X5 j% W7 \3 s+ pLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
4 j* }+ p$ ~+ h' |2 k5 lvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
0 E4 p Q- ]3 Y! N! E同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
$ Q5 @1 u- Z8 t8 sLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
{/ D s! B* p: c结论:
, e( S7 i+ e; N高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
& w3 A, Z3 R% c- T8 ~Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。% k6 @- y3 {( h
二、建设期成本分布:区域对比
! G9 l4 l& N3 g/ U7 p* w7 a5 A6 N以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
; a/ D+ }/ g: q: [5 J. c1 |8 W8 S' M# A* R' r7 j# ~6 d5 }
2.1 全球/通用结构(以 1 MW 为单位)
4 T" t7 m8 N3 m& F综合 JLL、ConstructElements 等[2][41][40]:& F& t" U+ J# `5 o
/ Q+ Z( t* [ {' I f/ x
壳体+机电(Shell & Core)! P" s4 K' L. _" Y
4 u: T" ~7 p9 x# a4 C+ k$ o
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
, @3 p' w3 Z/ L" h4 y其中按成本构成[40]:
' x6 O: I# O, ^/ e, c5 q# C. `: J% p电力系统(变电、配电、UPS、母线等):40–50%
6 q+ T: a& R: x2 ~8 z( [. u7 X机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%/ @5 W2 a. I) _$ e
建筑与土地、结构:约 15–20%
" ?' q% d/ ]2 T其他(消防、安防、楼宇管理等):约 10–15%
- i! w4 p6 I- k& g: SIT 内装与 AI 基础设施(不含芯片)$ A; m% f" L8 ?& U5 Q% p
+ _8 B5 d; B* w) v, ~& P5 z1 v
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
4 |# }& V# i9 |1 d" z+ z9 K$ kGPU/加速卡硬件 CAPEX
3 ]% N$ E9 r9 R" n# v# O x
9 j+ s- r5 a8 D" ~多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。) k5 Q* v9 v9 c0 g" @. q! X3 U8 s
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX5 s) X8 e0 D# m% e# O1 ~
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):: Q1 e3 a, q2 i. B" N' `) c. Q! l5 J( \
2 z6 o8 i, {2 ?% I& b
区域 典型建设成本(壳体+机电,$M/MW) 备注* O3 P0 `7 o) e
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
3 k* M4 ]$ F' A' g& z) }美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1] I- }. @ D" x9 Q& G+ L
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]) p0 M2 Y3 V" n+ A
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]* O% g; }, }/ B9 [% C
结论:% G4 k5 T% m( B4 E3 q
- n% A. }% R! J& H m/ \单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
$ B2 i+ P2 d3 \5 R% I: k若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。' y }, |1 y0 |9 m$ p7 g
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)' U9 Z& }( h& w, o: u/ _
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
* q% V5 D; s6 [& m2 r
& m$ }, G; I2 S: s+ e/ _假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;( g& L! z( V/ r, D6 f
GPU 配置:
/ B0 T- O+ P; c. a有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);. P9 h+ b2 ?2 q$ s. k
每 rack 成本 ≈ $3.0–3.35M[34][69];, t4 x' @) @. Q, \
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。3 W1 q. H3 w- C' j
与不同区域壳体+机电组合:
! N& H: o* u+ s1 \3 I+ Y( w+ }/ u% k( Q2 a4 \& F) T
以中值估算:. T% ?* O, [0 J& L D" w/ `* D
! k" F3 D. z% G: u) X" T; G3 P
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B3 u' {8 R: I% i7 I9 b0 ~
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B( q- f" K6 K8 |8 z2 ]9 V+ o4 ]* G
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B% R8 [( f+ C P! q. N
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B9 B6 B% @2 ?- U; L. P
可见:8 t$ c2 } \' F" d+ Y$ x( O
' T p, b! |0 O* R5 d" J5 wGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。& ^3 F" a- y5 `% e5 S6 x
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
& t) F% G9 U6 B4 b三、运营期成本结构与区域对比
6 \0 m, r: J( P3.1 通用 OPEX 结构(高密 AI DC) C: o) z8 a0 _( Y
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
* [- ]# t, M. a' Q* S) d( S) x0 Y; Y1 a3 a
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
# q% G' m/ |) z* M; }3 _冷却与水资源:
0 M9 z. R( c0 `/ b: l/ c B能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
% \0 x4 s3 L& [7 T w$ b水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
0 ~; a* \8 X' x& G) t人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。. Z& M7 Q5 M; m2 y. v3 Z$ D
托管/物业与维护:
: M! m* K% e1 A" K) B6 K: q3 P Q2 Y8 x, w托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
1 q3 v: `1 B+ }硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
2 J' k3 @- h: s. D3 L0 H3.2 区域差异(以 400MW / 3 年期为例)
7 D1 B e: N1 [: ~4 L h7 H+ `1 k使用 ChinaTalk 的电费与人工估算[1]:
! Z( D3 G! F; {& e7 a4 { G5 h& ^; v' }7 J) O$ `: D ^, S5 L
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
1 Q- L+ g# ` w* n$ c, b3 x中国:约 $0.06/kWh → 3 年电费 ≈ $350M
3 I G; I9 Y7 \# W( N% W! ?3 d美国:约 $0.09/kWh → 3 年电费 ≈ $600M! A( O' t- r" O
中东:约 $0.07–0.10/kWh → $400–550M" N% n/ c: {( n& Z. W. |
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
$ i4 e* [! b3 o0 j+ i2 T水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:$ ~: o, _6 k, K" b3 ~6 t6 U
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
3 r" z c4 p* Y& G. g, L: s三年水费级别:* g4 I9 K' I& ]/ J1 n5 s
美国:$40k+
. v# w, a2 x+ ] v8 S/ }中国:$20k+
0 `) t' U8 h6 w$ w9 s4 D) E% s结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
& b% ?8 ^1 k, y% m/ M$ L' w5 M, ~) q人员成本(3 年) – 假设 500 名全职运维:
( v3 } y4 Z# J: d# d+ \. |3 K0 W美国:500 × $120k × 3 = $180M+( V% Z2 x* \+ [: R% [2 o
中国:500 × $22k × 3 = $33M+% u, c4 t; s' n' |* m* l& K7 P/ w
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。9 G3 b! u3 R8 Y% v8 V. ~4 w1 O8 ~* B
整体 OPEX 粗算(3 年) – 400MW 场景下:
2 J5 }8 y1 f7 h. z2 ^/ I7 e
' X+ n) d* d+ P& s( u项目 中国 美国
) E1 Q8 S$ N2 r; ^电费 $350M $600M) `1 z+ R- B( l, Y7 V* N) ?* m
水费 <$0.05M <$0.05M
. k8 U/ T+ O$ N7 K& | {* G A* R' C人员 $33M $184M7 y, k" @6 [: M) f) r) ?
其他维护/托管 同比例估算,地区差异主要体现在人工与地价 9 d8 s) p/ e8 m- N0 R3 [5 f6 F3 ~
结论:0 ~( O# L7 V& A) u! ^0 V
3 j& f$ h+ U2 h, P) N9 ^3 t
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
9 P0 Y! ?+ l, b3 {1 S- L- ]对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
5 X: {, _5 z5 L' f. R2 p$ e3 t) a四、基于 token 的成本与利润推演
( k6 g7 m% e1 W7 w3 H" |4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
7 L6 K5 p7 f0 I/ z; v9 C! Z统一假设:
% L! ?3 Y) n& S! L6 K1 p9 y: |: \8 q9 o0 F: e+ q
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
' K7 `+ ~7 U7 @0 p1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
; b Z! c, {: M& o4 H# Z2 Q9 g% i1 百万 token:278 Wh = 0.278 kWh2 M( P6 U" p9 Z2 M b' D
场景 A:美国电价 $0.30/kWh
% P/ _; s3 p1 D( _' C' R电费/百万 token = 0.278 kWh × $0.30/kWh
0 h6 E. k: {7 W: o2 d* G# y≈ $0.0834 / 百万 token, z$ O3 e' ^- b: z1 h9 g4 r
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
& B% s! _. X2 F5 t9 F$ h电费/百万 token = 0.278 kWh × $0.0428 I0 G3 R, V4 L
≈ $0.0117 / 百万 token4 R4 R8 p2 e8 u: z
对比当前 API 价格(OpenAI 2026Q1)[62]& R( N) C; ]6 i% Y1 u' `
以输出侧为主(成本最敏感):% o1 Y% u+ w9 z; P: W$ k
0 S; l+ B3 K: Q8 Q i9 {3 m- [2 j
模型 输出价 ($/百万 token)3 R+ I; Y! T0 h3 c) ^: P2 B
GPT‑5.2 $14
9 J9 |. B9 l* V9 k+ |GPT‑5.2 Pro $168
+ g9 P* M ]1 B4 J; nGPT‑4.1 $8# ~7 F4 `+ }) M# O
GPT‑4o $106 I6 ?& F% o6 n( V
GPT‑4o mini $0.60
( P4 d- n( c& w% p8 N% g2 Y则:
K) B0 }9 B' l' w9 F
9 q* {) n2 v* M% O9 O9 V$ f在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。+ b, O- z5 K- {1 K
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
/ M6 y- I. ]" D相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。5 S; ]! F7 [& B% f
结论:. f& t+ T# K1 m! V# j* O
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。2 F7 ^. B' H5 l; Z! P
: t) o G0 b0 v$ F
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)' F$ H0 p* u+ S |
以 LenovoPress 的 8×H100 Config A 为例[28]:
4 h% D# {0 @+ q7 ~# R% b/ @" }* K5 n# Z' T
5 年摊销下,8×H100 本地推理 70B 模型:
4 ?% d$ ~* u7 g, M) C$ [小时综合成本(CapEx摊销+Opex):$12.08/h1 A2 i1 U0 k: q
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens% a M/ K$ J3 \. H. j
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
5 L8 o5 J3 x7 x n- J6 i电费在其中的占比:6 e" l+ t/ f- C& b* @8 b
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]7 i/ u$ p& o2 z5 T7 k
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token, b7 i0 O# X9 e7 c. v! N. ~
电费占 总 token 成本 ~7% 左右。
U3 ^8 R4 g# z/ k若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
' |' X( ]( a3 D/ l$ D若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。. K2 r3 f5 u+ I- x2 k
2 k" f# c p, N1 y" v/ L因此:- C5 Z& g5 w) L9 X* Y
. I: V" l3 l4 k/ H在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
' C8 ` x; a+ ^+ N# F在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
$ h7 U" y. x! D3 }% [1 s五、不同芯片方案的建设与运营成本对比
! S! r$ }% C* h/ f5.1 NVIDIA 方案(H100/H200/B200/GB200)& ]4 ~2 t, ^9 ]: B/ o2 o2 m9 G
CAPEX:
& o5 p" d: h6 T6 J% l: i7 G0 u1 [
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
$ O9 c" W% A( Z0 w4 J. UH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。5 c% F( d+ e5 r' _& |6 F* ~% |: f
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
- i, {& s* t5 i P% \; OGB200 NVL72:' n! Z& H8 x! Z% O) q" a Y) @+ G B
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。( v; V( `: u& |! l4 Q2 F1 S6 d
冷却系统每 rack 额外 $50–56k[35]。
3 R- i) v2 ~" x3 z, l在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。! o, ?) I% _! f" Q$ Z( x1 w+ d
OPEX & 能效:
( _. u! X, A O- o$ t7 S2 X& b9 N% o2 D9 G; A
单 GPU 功耗:
* ]) G6 `4 _9 a- [" u. _) X$ z+ QH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
5 C6 S: N5 z. ZH200:功耗类似或稍高,但性能/W 提升[9][10]。; p+ K! v) h3 G0 H% c# n8 v
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
- v1 W& Z+ L! O& w* S4 iToken 性能:
5 O$ p$ C$ k( E; @3 c9 BB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
) _+ I2 G2 k7 T- O7 {7 g1 INVIDIA 的优势:. W. Q5 t# ]: e4 S
7 ?% ^7 m9 H/ U1 A" Z8 w软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。7 Q/ @: U+ c3 o& I
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。1 H3 M( j' t& t$ h: k
5.2 Google TPU 方案
; ^; Z5 |1 n8 {7 O$ G; l' g3 wCAPEX:5 r' e! O! J$ I% t5 }9 C4 x
/ ~. T, L/ V5 L; o$ p; ?$ [单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
9 x" W$ j) o8 K) e+ O# v( g: k) N8 R2 yGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
/ B2 G0 }- J6 O1 p- P8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
* J) ?9 N& ^# f$ \, b9 Q能效:
7 s' y: ]4 [3 I: E. {7 Z
' I% ^ u& x7 e2 p, zTPU v5e vs H100:
, q1 P) G/ o. x3 V7 U同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。4 B' F& z: C# H" S6 y
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
- ?8 j: a6 \/ Q0 P) v7 `* m+ G新一代 Trillium/TPU v7:7 T- g$ D. w: }. m% G1 e
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
' A8 {7 |8 N% @' S0 M/ CGoogle 方案的特点:& ?( ]$ [+ Y( J
0 `0 A/ h7 _ q) n5 Z- S3 [自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
' ?, Q) L- {2 ?7 S) `; S3 F对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
: p$ Q8 g1 N* k3 f" x* {7 E( s5.3 华为昇腾 910B / 910C 方案" }& I" i" Q) G8 C/ q5 p
CAPEX:
- Z* ?/ O2 M! h3 @: q
1 c$ X2 Z+ e* H1 x: |单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。9 T' n5 {* B Q$ W, y$ b
与 A100 对比:0 A& x0 T K9 N3 l
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。+ A: A; y. ]6 y* C
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
. ]) K, d& b$ F$ n$ `" l/ F$ ]6 `使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。/ ^2 F3 N9 R& d2 _' x) r
OPEX & 能效:
: s! \8 m7 R2 F
6 w' f7 t5 B& d+ _: W& e910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。1 ^! ?9 g1 n& h+ n# q9 `( A
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
+ \; J8 e* R) o& t3 l: b1 k! y; M在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。4 Y- H2 b5 j3 Y
5.4 平头哥真武 810E(PPU)方案2 t1 D ?" @$ o) c0 Q6 c
CAPEX:' _# Y. T/ U9 H
- i* Y$ k" T. H0 H" ]
技术参数:
2 C% P" r- A4 D' Y6 c8 P. C3 M96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。* \/ M3 K5 g5 M% {; s# U
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。8 [ o# }9 Y) Z' ^5 K3 s
价格: j, k: V& v0 Y6 N0 ]0 k
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
% [7 u& t+ ^% l8 r2 f结合国内报道:# \* }3 X3 H2 M: Y
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
, _. B; e4 Z- }+ f数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
& t: ?* C9 Y& A3 X! mOPEX & 能效:* X: V5 J" Q2 d( o8 C, P
1 @2 f9 D2 A# {" m1 i2 O400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;1 S u: k4 O( Y: G$ @
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
; ~$ e4 U' s" Y六、综合比较与策略建议
& B+ e2 [* ]# z5 O6.1 区域维度:在哪里建 AI 数据中心?4 w z: m" r) f$ }! G7 z
纯经济性(TCO/tokens)排序(假设无政策/合规约束):
" }2 `# E, K' @, M
3 `( |6 ]* C4 E4 _0 t! Y. r `+ n中国西部/北部(电价低、人力低、建设成本低)& l" `+ y; F* K. U+ [* z! a. `$ f
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)7 `8 o3 ]& _$ y3 ~ Y7 |
美国电价低但人工高;东海岸/加州电价上涨压力大
: ?/ j8 Z; P/ A* W# U; }( {欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
( p: O$ Q' W, A: R" ~" Z* T; A若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
7 _$ U9 B& @2 N* C: p- R' Y; E/ J: Y/ s. f7 O
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
" r9 n$ ^" w0 S0 H) ?对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;! a& ~ ` j- o) t6 G; r. M' ~
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。. o4 r5 G) J2 J, z1 r
6.2 技术栈维度:选哪家芯片/云栈?3 o! E4 p1 L/ v" F: c( G. r. C! p
若目标是全球最优 tokens/$ 且不受出口管制:1 q( A/ [9 A" y/ ~& ]8 d
2 W7 c. y: N' R7 s3 S
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
6 N( u! Y( t+ l若在美国/欧洲,能自由采购 NVIDIA:4 ?. [0 n* P' z
. G% B% s, ^" h3 b- i. |* Z# c8 H8 B短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:' j% |9 ]/ m# P s l4 Z P
成熟的软件栈与生态,极高的 tokens/s/GPU;
# x2 K! s! z( r @在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;8 N! b! X' \: ~0 r8 j( W" q
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。; u* T& ~# k8 B7 w/ x
若在中国或存在出口管制约束:5 }2 L" g% m" s) M
3 ~" i- G: h" u% k) [/ Q% v( N
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
( l$ J u. J7 H4 ^0 v性能上已能覆盖大部分 GPT‑4 类推理需求;
# v' G# p4 b, c T: T: a单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
$ S. ?; n8 J: E软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;, R+ [% \* r. E' y
建议配合:7 m4 K7 N; _% H" i; B) p; f
高效液冷(PUE~1.1)、
( R, E" x& o) K5 c大 batch、路由(浅层任务走小模型/低成本芯片)、/ D K) O8 N' J4 P }
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
5 p7 ?: a$ v( t& ~5 v B长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
3 G5 u7 l! \! ]" X- V' m
0 ]9 |3 |; Z: }% B数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];- l3 P: {6 z9 f5 |
这意味着:; Y' I" [- z3 u1 U! R d; [& x
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);2 P6 V# T( a8 [4 m0 G$ O
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。: K5 @/ i+ K% p6 } X" T7 k8 C- e* Z1 B2 z
6.3 针对你关心的具体问题的简要回答3 X' J+ a; O0 q/ Q6 d' r9 u; j i3 B
AI 数据中心建设 vs 运营成本的大体比例?9 N1 @+ f: W) u4 f3 A5 V4 ^, y! L
4 B3 W9 L- B1 _ N在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
3 P; p" Q# | V7 k其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。) U- p! N# V$ s( K, W, L6 z: t
中国、美国、欧洲、中东的成本结构区别?' o, I. I6 z7 o5 F
$ {4 H1 W/ {4 o% U( {2 @# d& j& T
建设期: }4 f* _! E3 q6 ], X5 E# R. u
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
) o) H% K+ y% M" N+ Z* X1 W运营期:# \' _: ?' t" o* ~; ?
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
G' w/ _+ f/ M. b1 \3 V: x人工:中 国 ≪ 美 欧,中东居中。
* {# \5 N. @; Q, A- M3 D9 P在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
' a( W `$ O; D x; w2 w5 o
/ K: I, _6 w T对于典型 1 J/token 推理负载:) L I9 {1 n4 ?4 B
美国 $0.30/kWh:电费约 $0.083/M token( ?+ Y% G7 e$ E) C
中国 0.3 元/kWh:电费约 $0.012/M token9 u' e2 p! v; M/ K6 H* O
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
/ b6 _5 W' t1 w不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?$ i9 W1 r+ g) V
# |* b3 i0 `; h3 m: n# E i在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
1 b" d' h h9 W! Y3 [全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
p. K1 `/ M$ H6 R [3 S9 r中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|