|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
% Y6 B Z/ R P, ^, v9 ~ |0 N
0 u* n! o7 v8 ^- a' ^0 I' U4 i已经搞定.
6 [% W2 y) ^# J+ M' d# X7 [
, y6 }9 o" U5 X首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
1 f5 s A) d7 E' p* t
. `* D7 B( |! k, w( K7 q1, python + pypdf 按章节拆分小的PDF
1 C( s& W6 c5 N I& V; K3 N
& W% p& \# }7 y8 E2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 L6 y6 E& |) A
4 v! n& e# [, _6 o' Q得到text file$ E9 L6 a8 J& S
/ b$ {3 K0 S. C2 a
3, python 读取整个outputfile,丢给deepseek 矫正。" V* o& u4 G* J( ]
4 }4 A2 q! I6 P; f模型是 deepseek-chat
3 r0 l& S5 e0 `6 _' `( ]6 M1 w. D% ?. r( o2 a8 R- i
max_tokens 最大是 8192,别的不用改。1 N0 b( K* @& s0 U p
) `7 V8 H/ J1 H3 n1 q
参考:- z) E! s# z; n! j4 X/ H
https://api-docs.deepseek.com/api/create-chat-completion! b- v: a2 b4 b
" J: U9 R( }; m5 c; O% X& G8 V+ A. j3 U
4,费用:
, H* j: _# ~) E, t5 A( e
& v- r+ _( C. |. e/ k$ v, K实测:
9 \4 ^. C% }) s) Y) w9 X& V9 g" [. s' L4 f+ j4 r
296K 字母,用了 9 美分。
+ p% _ C& |* ~
3 B. b' v- Y, l: V/ t" Y: e英文字母 到 token 用量大约 1/3
. [: A" o* }- L6 V; D7 k3 w5 g, ~- ]
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328993 ^) I5 X# S* r0 J
! V W7 U) F7 d- c# o
32899 个字母花费 11782 tokens,包含输入输出的 tokens1 v6 e: I; E8 T2 y. M9 V" I: O
0 ~! h- t) _* R4 a; x( w价钱,非常非常便宜了。
0 A1 g3 o& ~4 t6 `! q" h* V% F" {2 w6 W; ~' e- |- O7 N& f; ~
参考如下可以计算,懒得算了。
4 u& t9 [3 P+ t9 ]" o( ^
4 F: g3 Z* L; Y4 q: q: s% } Qhttps://api-docs.deepseek.com/quick_start/pricing
# _# R) b3 C) I2 g8 O/ n: y7 X7 U4 g$ X v( h0 ?. ]) r h; X2 |
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14* J+ f7 \. b0 A
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
5 e+ h1 ^2 u. b8 l. c k1M TOKENS OUTPUT(5) $1.10 $2.194 t3 x' o3 t! n X6 B, J, U, R) a+ `) V
. f4 t# j8 t* s% Q# `- }+ v5, Balance" S9 \4 N9 r2 d+ P+ H3 r
! n+ o" m7 @0 `
可以在程序里调用,知道每次运行结束后,balance还剩多少。" {- M* ^0 h0 s+ _- t
参考:7 p' t! o4 k! j* w
https://api-docs.deepseek.com/api/get-user-balance
& G# }0 _, R9 g; i1 E" H) Y4 ~6 `7 [2 [2 c- U
6, Models3 O, I8 a9 t' F0 k" b* }1 D
9 B9 J+ O5 _3 S: i
目前就两个
) @4 X, |+ w' b# t7 D+ v: h# deepseek-chat
2 @1 @5 w7 b; Q4 b5 ?2 K2 T% ?# deepseek-reasoner
9 L1 y( e: {2 z* l; D0 u( l" j A7 p$ P' w. C; X
参考:# f0 x5 D2 e' s2 ` |
https://api-docs.deepseek.com/api/list-models2 U) H k2 Q& U t( A( ~! K
# {4 H) b% j9 q, X8 C U" |! \
7, 问题5 j" R, q0 g S0 R: R
! s, L( d2 x/ E; sdeepseek 会将前后两段合成一段。4 @5 e0 v/ }3 H% b
特别是那种大量的对话的段落,deepseek会给你合成一大段。
+ ~6 a2 ?1 W7 D1 e- G5 q2 Z; q- ^' ~- a9 e/ C+ U
8, 钱说了算。
1 r2 v9 }3 o$ K1 b2 D6 `1 H1 p1 X s2 S6 {
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
( M- O g4 f1 P, n, w/ z. J0 j y- e但是API就不会出现这种情况,毕竟我们给钱了。, t T/ u6 F. F) Y# Z
chatgpt也是这样的。
7 ~6 {, d$ N7 `" y$ T9 `9 _" h
2 S; t4 ]9 F) \- S/ ~+ q7 Z* x: g6 c% G6 \5 g/ [
|
评分
-
查看全部评分
|