|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 : _, [5 f4 s- i, p2 D
, q- c* m: a+ ?9 ?
已经搞定.: D9 Q+ j7 p. ~2 _: b
; n( b: H0 A% S: O* E3 T
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
2 F5 n! c- q" Y. j1 `8 ]' p: z: f
1, python + pypdf 按章节拆分小的PDF
' L$ q9 [ O8 c& m( R/ ^0 @# h& J3 h
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile4 l0 l4 U( Z! i! R3 x7 m
' D# B; ?: C5 `2 e! F8 s
得到text file4 ~# T9 Y3 g# ]/ R7 l4 d
; Y0 i" |3 j* T2 v6 L6 B. S8 V3, python 读取整个outputfile,丢给deepseek 矫正。) a% x/ G$ x' ~1 p d: F
{. }" m6 v, V7 O2 e: w
模型是 deepseek-chat2 p) B" A' s$ [) I
1 m; T3 `* _! x4 ~& o( P/ j- Ymax_tokens 最大是 8192,别的不用改。
+ u$ {0 R8 `! _4 W0 v
- y4 y" D% i: O& K) |) Y$ K参考:5 B: P1 D* {3 R* J: O
https://api-docs.deepseek.com/api/create-chat-completion
6 o7 n- t, E! F* ]1 P% k" ?! p# h, T
4,费用:& L. }% b, g# @7 \1 F8 r# y
; b) I: A( G3 n7 t
实测:
) l) Z3 J3 M; |; E& F! C4 L; f, T. C3 ?; L ?7 V( H2 y; y2 X
296K 字母,用了 9 美分。# r( k2 Q3 }! Y* Y5 a& G V
4 R' U2 G z h0 x7 a9 H英文字母 到 token 用量大约 1/3! z* E* s% E8 C) v
`* y0 A8 D/ O9 N2 B' Gtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899' w$ Z3 f; S! W5 H3 g6 O6 f
+ H9 X b1 N' W: e' `0 i& U" j
32899 个字母花费 11782 tokens,包含输入输出的 tokens
! y! M7 T/ S: K% C
% a, r4 H2 Z1 F9 s# \0 D% T价钱,非常非常便宜了。0 z6 V3 }; o# P- b* j# _
8 v- u* z# B. [9 w% }7 c/ G0 E
参考如下可以计算,懒得算了。
6 w% v, ?+ ^. h b" U7 f1 U! u" W5 a! t9 J6 b
https://api-docs.deepseek.com/quick_start/pricing' w5 m7 ^3 P" q& @3 I* V, ^
1 O) C! O/ |& v: ]1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.145 f7 ~# V% o; `. r; t( l( W: a
1M TOKENS INPUT (CACHE MISS) $0.27 $0.555 Z1 A6 N7 B" Q4 k4 _( H
1M TOKENS OUTPUT(5) $1.10 $2.19
+ P4 }; U/ i0 k/ v/ C! X. \! r0 g4 e v( l" y, c! r
5, Balance3 E' _5 S- m ` u& r9 L, s
' F* K" X. |9 C2 b- [* y( u可以在程序里调用,知道每次运行结束后,balance还剩多少。, ?# H/ m) [- p1 q
参考:5 K1 p( D4 {# I4 u
https://api-docs.deepseek.com/api/get-user-balance
( o/ ]' f% J. B5 T8 ~) P- c9 w5 U: G! H8 i) n6 n2 o
6, Models$ t1 [ H) \' H u5 Y5 p0 t: X
2 v) C+ M/ T6 }8 _2 d( ~目前就两个
$ B7 f2 g3 X9 j. P b# deepseek-chat# K' I! T* w/ E2 p7 J
# deepseek-reasoner9 f8 k& q5 P# B4 G. s
7 {# c' N5 r8 N- P4 g; W参考:( W% W' @% `* W+ P6 G1 b
https://api-docs.deepseek.com/api/list-models' J" E6 {9 R0 j1 S0 n
X$ q! G8 K( \2 e, y; a
" j* p0 G M/ ^( k) q7 l/ k: k9 S, I7, 问题
% ]8 w6 Q; d- i# ]5 }2 {4 a! p5 r$ u& n8 B" _; P
deepseek 会将前后两段合成一段。
, r$ f, y, L6 H2 C. M6 r7 F: \特别是那种大量的对话的段落,deepseek会给你合成一大段。
$ N: e: C+ g$ G# a2 R
; a9 G ~' V; N+ R/ z: y1 O8, 钱说了算。
/ Q, x5 Y7 g7 p1 z8 w4 x5 {! s$ V5 d/ V# U
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 V6 x4 }" C! {( D5 \
但是API就不会出现这种情况,毕竟我们给钱了。 g# O# z5 e, }
chatgpt也是这样的。. k% R+ s+ A: f, D
a0 C$ y! A6 o- ^+ H `$ J
, {7 K1 k- y) J6 t4 N |
评分
-
查看全部评分
|