|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
C' r2 h( }" Q9 g2 L+ `9 I/ O. A9 ^, T; L9 D
已经搞定.
8 o% I4 G8 }' Z! b0 n: }" C8 H- f6 R* q) A4 s, N/ a& R
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
2 {- O* I: n: Z2 w- m; e) I) A5 q/ {
1, python + pypdf 按章节拆分小的PDF) s7 D# L& h5 p k4 F
% E# l @4 P: D# r# k7 c: R5 K: o2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
. j. K. r$ s( Y. ]' |" {/ p; }, L8 k0 _9 Y
得到text file7 R6 [% P( W/ O6 N8 m- n5 Y& A
% w1 r) Z' v R L. C7 K1 B3, python 读取整个outputfile,丢给deepseek 矫正。
4 k& |9 H: `! C' t% B
7 A2 @ c6 h% P/ g, I5 M! s0 ?模型是 deepseek-chat
7 {( g6 `3 m% ^# L( E
1 a1 Y) A! ?) p; x0 D, W& Nmax_tokens 最大是 8192,别的不用改。( S h/ ^% M2 ?2 @: h* ~
* k5 J& x6 y j1 B: }+ M1 _) B
参考:
5 d$ w2 W5 ^$ C2 ahttps://api-docs.deepseek.com/api/create-chat-completion
: S3 @5 d: _( @
N6 T5 ]+ a1 n+ I/ _4,费用:/ D" w1 F# T& P1 `6 e0 Q/ p- u
. _2 F# d) d/ E9 ], b6 K# t
实测:
& Z/ D4 V+ _" G) Z' v
" l! b/ F) \9 X& p296K 字母,用了 9 美分。5 t: |% H+ H+ \- v) k6 j! Y
( N7 v$ I S9 o, e# S英文字母 到 token 用量大约 1/3$ W' ~2 m \5 U0 H' B
! h: \" ]* u& h8 b6 utokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899$ D; D5 T- Q# ?+ d7 _$ l9 \
* N' U5 k2 S7 s3 ^/ m32899 个字母花费 11782 tokens,包含输入输出的 tokens
' @+ h; u: r U5 d- v3 F& \2 c
6 x( p% B& h) F* ~3 n- c价钱,非常非常便宜了。5 x! }1 ~& d+ e0 t9 u* n4 f
- z" y. {0 L) ^9 Z
参考如下可以计算,懒得算了。
# f9 U) b6 J/ ?0 c6 f0 i8 A6 e) N8 I: i2 S6 {
https://api-docs.deepseek.com/quick_start/pricing9 s3 U* @1 F! z1 ?6 t0 W3 z# n
! N ~# ^" d6 E* d1 P) \1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14; p$ t' n9 e( r# m8 J9 m, ~
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55; A8 \2 [7 f D% e: t
1M TOKENS OUTPUT(5) $1.10 $2.19
9 x+ }- P( z4 |3 l" J8 P4 c
2 E3 L( g& O z2 A$ D5, Balance! r) f+ z) y. Q6 X9 S$ x
* P1 }4 K7 z; K7 |! z
可以在程序里调用,知道每次运行结束后,balance还剩多少。
) L$ P! V0 t8 N x! t参考:
0 }/ s* h' S5 O4 d9 shttps://api-docs.deepseek.com/api/get-user-balance
8 q7 }8 G/ L: Z E2 d& m/ y9 o
0 v `( B" Q( Y% u+ p! ~6, Models
' B" ^, c+ U+ ?5 z5 Z% O
+ v! t4 G9 l% v目前就两个
1 X0 w$ a3 A. A8 g& i4 r/ H/ D. R# deepseek-chat' A% X( j" G7 [! O! N, [
# deepseek-reasoner
8 n" x6 s3 s$ m! ~! R/ A H: M1 e/ }, V
参考:
+ _' G5 t" w. D; T) ^2 B, Q4 x: f) M& S/ Yhttps://api-docs.deepseek.com/api/list-models; E: `6 E8 }9 s! @
2 v7 M/ w2 }1 U+ r
- }' p& x' N# {1 O
7, 问题! [0 M( ?/ t: _0 r7 p$ e
! n% Q7 \9 k) cdeepseek 会将前后两段合成一段。
0 z. ]) J3 ?% ^特别是那种大量的对话的段落,deepseek会给你合成一大段。- N. F! W* r6 x
6 O3 I$ B% [7 I4 C% R, b' z# b4 N8, 钱说了算。& E& }( b3 R: w9 V$ F; z
( C$ W8 q7 P' pdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
& [. ~5 u3 n+ c9 A# q但是API就不会出现这种情况,毕竟我们给钱了。3 ?& | y1 k% P8 m; S( X* m
chatgpt也是这样的。
5 b8 x$ I4 o6 y4 R0 G( g2 ^7 N
" i0 I0 m" W6 w7 B/ N- `# @" K9 z1 _) `( n/ l. A; ?( w
|
评分
-
查看全部评分
|