|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
: e9 J, W C: }$ j+ I
F% V2 C4 l! u9 x9 j2 W2 `已经搞定.+ L2 s* {9 X; u2 D! i2 ]& g
* {9 B) b5 Z. R$ i0 P' s首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! y/ C% w& G) A3 J }
" f6 E( K9 [" o5 l2 V# i1, python + pypdf 按章节拆分小的PDF
# l$ F( ^: `/ L0 C" }5 O. g" P1 Q" n
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile5 O5 H% N) l: A& \
0 c4 u I& c H, Q! m得到text file; C" D+ A0 X- W4 {
. D: q+ I: K' U/ h+ @6 J3, python 读取整个outputfile,丢给deepseek 矫正。; ?/ z* l- `3 a
7 y* ?" n8 ^. k# ~; W
模型是 deepseek-chat5 o- P; D% Z" N+ e
) R$ B" S$ o2 Q5 m V: _/ r% smax_tokens 最大是 8192,别的不用改。
( U5 h- J& [/ W( `& u& O5 A. d0 M( j% W# g$ r! ~
参考:( X: b7 H7 W% v; I2 O# x5 o
https://api-docs.deepseek.com/api/create-chat-completion4 P I6 ~5 M4 ]3 e* a+ j. P
) P4 E0 q2 P$ U/ M$ ^4,费用:* z& j! H0 @4 w+ ?0 ^
$ f8 C. u$ B3 @
实测:# c2 t* {% s1 D" \8 z- V( W
- U: z6 n! G4 C6 i8 p296K 字母,用了 9 美分。3 o; I% g1 l) c5 Q7 Y% N
/ | E) x* s9 J# n* c1 T& q$ r/ o
英文字母 到 token 用量大约 1/3
X3 }7 k2 T) E, P) h! e0 O* n, p
- N6 c# j9 d& f0 B$ t% G3 d5 ], M+ ~0 d# htokens: total, 11782 completion, 3729 prompt, 8053 | s: 328994 D9 \8 O7 r# V3 g
) R$ y' F) K; m) N( D9 o% d
32899 个字母花费 11782 tokens,包含输入输出的 tokens
G# v: t. i8 ]# M
* A. P0 G3 s* T. f) X价钱,非常非常便宜了。: @, l# |5 C% P4 J( E) ~+ F
+ `# B: P: I& J. n参考如下可以计算,懒得算了。
4 q# e+ e+ P# _9 N7 H, e( G/ }9 R7 O: L0 V; q% \" r
https://api-docs.deepseek.com/quick_start/pricing% d4 k- q" m5 o8 T) w1 `8 b* ]
; S9 N4 N2 q" Z, S5 p, f) ], P: f! o1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
; o% W" D, x* t6 d0 f1 e1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
$ N# y2 K1 k6 z- A1 @1M TOKENS OUTPUT(5) $1.10 $2.19
/ k( a' m- d! j
0 b0 ]: Z* \* H% y8 E- r5 r5, Balance
. h: @5 Q, A( C! N/ g1 Q# S Z6 t0 l( l& @
可以在程序里调用,知道每次运行结束后,balance还剩多少。2 ~! F$ f* |& U* L1 I* P9 N
参考:
5 y0 g$ }/ C9 Lhttps://api-docs.deepseek.com/api/get-user-balance
1 U# | W6 ]6 L# A# j; C4 n8 K7 {; t5 d7 Z# ^' ~ t" f! D
6, Models: }2 x4 G$ A, e
# g# I% m% s# T/ U/ N- h
目前就两个
& m! `" |+ s- k# M# |# deepseek-chat
! l2 L/ D }- x0 z# deepseek-reasoner! R# k- d+ W! a0 K! I( {9 X
" ]$ l1 m0 [( \& ~! d% q" E4 q
参考:
/ X0 Y+ V2 T& l8 F8 E5 |4 l% ]) Fhttps://api-docs.deepseek.com/api/list-models, b$ W" H2 O; ]6 b: a2 N
9 f" \6 \' k" n3 P& |3 v$ E1 O0 ?3 r: \* S1 ^ Q
7, 问题
: H! p! ~! V* N* T# J2 M: B
- }, J2 n, X4 jdeepseek 会将前后两段合成一段。
5 i- O' L/ W1 _特别是那种大量的对话的段落,deepseek会给你合成一大段。
! ?2 Z) m8 E, b9 {# l6 v( I1 d1 v4 a) T+ V9 r
8, 钱说了算。# }$ T6 @; V. ]) y; {1 L! [+ }
0 m) |8 G9 j% q7 ]1 l; y, Ideepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。3 A- m9 y2 _1 q4 h
但是API就不会出现这种情况,毕竟我们给钱了。* `* f% l) ^* \0 [! A2 S( Y' z
chatgpt也是这样的。
% l0 P' L" I' X( }' }0 i) i# o5 l; {1 T* y7 H8 E" K/ p
' D5 @, K. q4 i' a4 g }( \$ F+ ? |
评分
-
查看全部评分
|