|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
5 q/ F' z; X! n$ P% I) l$ G9 w8 N$ G( z8 A$ F X4 x
已经搞定.! u: W1 T1 u. G) _* F. E
! Y2 _0 o" V+ E, n# t; c
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。4 C2 j3 i: c6 ]$ Y* b# E
) ~! m7 A+ W' e. a* w2 U1, python + pypdf 按章节拆分小的PDF
* I0 V' X: u7 `( a$ l" F) s! w1 |) c5 }! z. t" y" t' [+ j, f8 T1 h/ W$ h
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile- V5 `6 Y( p M2 a! t. p
- v! z0 r$ M" s2 O8 ], T
得到text file
9 G& ~: }% j' ^& \" S8 m% O/ H+ z3 L$ a; n8 j1 @: Q
3, python 读取整个outputfile,丢给deepseek 矫正。, u( K9 F: ?3 W F# ^
6 L, O0 m. s$ p' c' e
模型是 deepseek-chat8 N+ ^. p2 K6 ]/ \
6 c9 T' W: V$ x9 a7 q+ |5 u
max_tokens 最大是 8192,别的不用改。
6 f- \8 U! g8 R: N" b( t
6 o4 n9 q- Y( b) H+ J6 {参考:
' v7 s/ Q9 u% o# i. F& R2 Ehttps://api-docs.deepseek.com/api/create-chat-completion
* D2 T+ Q/ K. E5 x `5 Q! f3 T4 P
4,费用:
7 ?2 X* v( _ A2 H) ?2 W
$ ?8 k7 Z2 R% I2 f. w* m& t* b实测:" `5 Y1 X% m% t% u3 r+ l
; I) L# J. P& W+ [/ R296K 字母,用了 9 美分。 O! B! ~6 k: d: |1 }7 Y }: P8 p H
8 e- l2 J( G4 w& K! d
英文字母 到 token 用量大约 1/3
/ k. A5 W+ G5 v' P$ m, W' x+ _: n
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
/ p. K- o4 a' s9 [4 h+ A. M" m3 T5 k9 D/ f2 e
32899 个字母花费 11782 tokens,包含输入输出的 tokens
. H: i& r" O+ W6 W+ c' {. ?. F M# f7 E: X
价钱,非常非常便宜了。
, n+ J ?: O+ n4 w/ V, [
+ K5 z6 b, T3 Z参考如下可以计算,懒得算了。3 L* k t# n. y& ]( ?9 \$ u' Q
( c5 T7 W4 H% T: n+ p9 Q" d2 h+ chttps://api-docs.deepseek.com/quick_start/pricing
% S6 w1 E# o+ W# f. ?' [& V: l' p) g" M
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.143 C) t& m& l! Q& s: \
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
! @3 V& Q1 d: O1 r* A6 _$ n: q1M TOKENS OUTPUT(5) $1.10 $2.19
. V: D" f( f+ ]1 j: Y S5 b) `7 A6 ~5 j! {3 ? g& G+ a1 h
5, Balance
( P, i: t3 ^) k9 P: S0 c* v# l5 Z+ Q
可以在程序里调用,知道每次运行结束后,balance还剩多少。" f' a/ h) _+ {' V1 E
参考:
' e9 |2 u# w2 e8 }https://api-docs.deepseek.com/api/get-user-balance
+ l G( P( J+ N4 I% S9 S, g# ^5 T! m0 H! l6 i) N9 V Q" Q# l0 E
6, Models
# X) `" p7 y$ ]0 T3 y# i
6 w. ^, j# E0 X1 `3 Q+ P' P目前就两个
: `# P; N& x/ C4 k- m8 l# deepseek-chat% F, p6 a v' y8 o! F/ x% u$ P+ x6 d9 }
# deepseek-reasoner$ Q7 p; }! G" f( ^! x& ^! }( R
. i, W8 p1 a) m) Y1 o
参考:+ P' i/ B+ \& e3 T1 T, h+ x' y' @
https://api-docs.deepseek.com/api/list-models
, O# n3 a+ h l% X1 g
8 s. @( V t" r& l$ Q r& m+ s" v; ?4 H, Y0 _
7, 问题9 \6 b8 e9 z; m8 \
7 f' H8 Y2 G* r& Z6 d2 ~) n$ \+ udeepseek 会将前后两段合成一段。
% z9 R% f3 M8 Z1 X3 z特别是那种大量的对话的段落,deepseek会给你合成一大段。
) _) n ~+ z6 F: x2 v0 n {" c. E2 y4 ~
8, 钱说了算。
9 `, S" l7 v& A, V8 z/ W% {; z. }3 z; W( K8 }" H2 U. y( `' e* a& t+ D
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 e/ b. s$ {* U+ _1 B* I但是API就不会出现这种情况,毕竟我们给钱了。
J6 O. D v/ W# j8 M6 zchatgpt也是这样的。+ g5 Y9 G- u" F
* I+ O# |- w |' K. i1 x) v: M; C! o8 N @. l
|
评分
-
查看全部评分
|