|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
8 Z! b7 p. k$ T/ [% Y9 O/ E5 w- ]1 }& U- R% o( E% a O* }- o( J
已经搞定.) C* d! z6 P+ d5 z; K
5 g5 H# r* t5 G& V% F$ B" o6 n
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。; Y4 K% @& T U
+ }5 v7 {# W/ I: r7 b7 K4 W
1, python + pypdf 按章节拆分小的PDF( L4 a, m+ F0 a$ A/ @4 k/ z
: \% |$ W* a1 s0 T6 E2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 R+ a8 ?% z1 B r& W" A, v
5 b) g3 m; a# R$ l得到text file- A& p9 t1 Z/ I& B
+ B* y1 h0 x1 R+ k l! q) B3, python 读取整个outputfile,丢给deepseek 矫正。
v* g) |( o; ]. N' u! E) L4 H2 n6 z' j% f5 T# m0 a
模型是 deepseek-chat
1 G @, j! T9 z c+ S' {
9 E7 `! a; \8 G8 @max_tokens 最大是 8192,别的不用改。
" u; @ l7 B# e5 n' M# S1 p' x) e+ A2 K% K% J" c% B
参考:
0 y0 c- |6 E7 v ihttps://api-docs.deepseek.com/api/create-chat-completion
! K) S. B6 }2 M' d2 \! [/ ]0 D& v4 U# U g! I- @& l
4,费用:
8 j* Y, S3 z" j& n' y) v! j a: J& E$ a8 P5 f N
实测:
* w* Z/ E6 b4 v3 t; N# v6 ?. d, ?& Q* [# c
296K 字母,用了 9 美分。1 A, C. V, ~' B/ j2 m! Q# r
, H# f) y/ U$ L7 d0 a: w( {英文字母 到 token 用量大约 1/3
8 h% ^/ ?0 R$ M2 j% m* i, E
% O7 t# c; \ ]tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899& n9 S; o% f0 `
B% P n$ D& q/ X8 |6 g |6 V32899 个字母花费 11782 tokens,包含输入输出的 tokens
: h! i! {9 W- {4 W7 H, `9 \6 ]' L/ a1 Z& I
价钱,非常非常便宜了。1 D! Y v- \8 c4 G2 r, d- @% g
& b9 f8 e' A8 T) X5 `3 ^& P. C参考如下可以计算,懒得算了。% g& }" Q5 }5 `8 F8 s0 f( `7 a
' z M0 |' _) Y$ a6 G5 r
https://api-docs.deepseek.com/quick_start/pricing3 k# V1 f2 r6 B" { `- ?
6 d+ R& h6 `: l; A1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
) E; K: r3 v+ o6 m1M TOKENS INPUT (CACHE MISS) $0.27 $0.55& E" \7 n/ z" V# i! E8 P& b) P
1M TOKENS OUTPUT(5) $1.10 $2.19
1 @: g E, E$ b5 b% S; B% t
4 F6 V( [7 w, m8 E: `- f5, Balance
+ B/ ~, @* Y. c! N. D
( Q4 C) p; F {/ f5 Z: U$ \& x可以在程序里调用,知道每次运行结束后,balance还剩多少。, {4 E8 k7 l9 h- v% V: Q7 m
参考:
3 ~! y+ z6 U2 e* P$ X. Mhttps://api-docs.deepseek.com/api/get-user-balance9 a1 m$ X2 U5 U3 n# U9 I
5 W* D4 I; o+ T, k& r1 l6, Models9 a( y' ?- P( {
: l8 x8 e( a/ {2 D( x% S
目前就两个2 P4 @* J7 ^* a0 F
# deepseek-chat* [. L G* r5 a! a, X2 N
# deepseek-reasoner
j7 i4 l, q3 G) s# D- M0 r8 ^& A+ I+ r; M3 `$ y5 Y% @6 M
参考:
+ g8 s, T5 d' z5 z. \2 }https://api-docs.deepseek.com/api/list-models, ~4 M; W/ K% }( j
7 p4 D/ Y4 A; M; W- D8 o% P
% z' s( [0 w. s( k% T7, 问题
% W5 r# _% @3 Y. X
% }9 e* C; o" L( ]# P$ bdeepseek 会将前后两段合成一段。- J3 D' y# q6 L1 }4 [* E5 a
特别是那种大量的对话的段落,deepseek会给你合成一大段。
2 E& v( h+ I- P+ v8 r2 P7 L1 q0 p' h+ ~+ j& A: V* P2 S' o
8, 钱说了算。7 m, {5 h1 O& V" ~4 Y
9 q: W( `: g/ D2 a$ ~, [: b& Bdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 \1 P) z1 B- B7 f5 B$ [- ^
但是API就不会出现这种情况,毕竟我们给钱了。' g# X- }! {. G+ p7 {: x
chatgpt也是这样的。- S7 I) t+ e: F+ z
; c! v. i) z Z* e) F
% \! K0 ^2 ]2 ^+ `9 |" Z
|
评分
-
查看全部评分
|