|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; \& M+ D) c6 ?% k; j
$ l/ w$ |6 H. g$ }7 w已经搞定.
, U" v* o% c+ |% @& m2 f% v3 r% P: E3 @$ z9 J4 p& T/ M
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
) V% G7 b6 b2 [% e1 y; N, q
1 w& F; W0 Z8 O5 u( l, q, d1, python + pypdf 按章节拆分小的PDF8 b" k) P: e( k4 n# {+ x) b% T7 w
+ i/ }' O0 `2 I. r
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 R5 y* T I' t; x3 N D0 b2 o% J
1 N, ] j" y4 P
得到text file+ v* ~ g3 q) w
]( u4 N( i5 @" G
3, python 读取整个outputfile,丢给deepseek 矫正。
' H: }& j; u; ?2 X' ?# Z
. N" B( ?/ c7 y模型是 deepseek-chat& w9 h8 e8 j2 H& s
8 R; k" s( J5 r0 s6 t
max_tokens 最大是 8192,别的不用改。3 m) `8 r' n M3 }% j6 o1 S
+ A5 n, f3 P/ L; [% N4 f参考:
; d! ?! Q8 ^# h. r$ Ehttps://api-docs.deepseek.com/api/create-chat-completion
) f% g) J! ^2 b3 g* k
, {1 N8 m, r% X, Q' W4,费用:
" }$ y( H! l8 i Z4 L2 J7 w- S5 \' ? |
实测:
% M* w1 k9 T. t9 x0 V" o0 b* Y$ N: g0 E) a3 M; K/ L; K, {3 d# J' f
296K 字母,用了 9 美分。
. \/ I. s! }! e) ]7 w1 O1 u
" v& b# R; K) x$ L6 C# C! R: v英文字母 到 token 用量大约 1/38 H5 f4 l) J4 X6 A6 P! @" W) \
7 T. u6 d- O( v1 P8 g+ ktokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
* e" B; U' ?% X8 f6 B* A* {2 q9 s0 I* s
32899 个字母花费 11782 tokens,包含输入输出的 tokens4 u* [& r5 Q9 f& m' W" K+ c
6 ]+ H5 Q' e/ ~* `1 s* X
价钱,非常非常便宜了。
4 I( _2 F) Y8 }& B
2 {) ]: o$ F# ^) `) Q参考如下可以计算,懒得算了。0 |4 C) E6 L; F" V( N8 ~2 x h
2 @ g- H3 |+ V) k% mhttps://api-docs.deepseek.com/quick_start/pricing; N7 c3 b1 ^; [1 {* g
, S- a( ~% H- I, _9 @) ^
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.142 Y; ~4 U+ s1 `( d' A# D% n* I7 m
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55: e( \: P, Q% w$ \
1M TOKENS OUTPUT(5) $1.10 $2.19
) w: I% E% F* [/ z" J
8 H7 K* B& D2 w, h5, Balance
2 g+ U! K6 V' T0 J
; z q) E; Y* I可以在程序里调用,知道每次运行结束后,balance还剩多少。& K2 n( G3 p0 q
参考:& M7 a% O. [! ?0 e
https://api-docs.deepseek.com/api/get-user-balance7 v( T- c L0 D+ G3 \, J7 }- [
% W! g* O" w% ^; j6, Models
8 X! v% o, K2 d. X* O& J/ D2 q6 U2 t" J3 z+ J
目前就两个
6 {4 k( {8 e, x, N P$ F" P# u# deepseek-chat; {8 ~4 k: d% f9 D" w( ~) E
# deepseek-reasoner
" F/ R1 w" R: B/ q6 W; ` D% [
1 x% R3 F4 F+ n) @/ h9 n% }7 u参考:
9 z2 v$ ?$ _6 m( P! n( dhttps://api-docs.deepseek.com/api/list-models
7 M% i8 w( t: E
: `8 S; H) t0 \$ j' D
5 P7 t$ a5 H9 m7 Y( ~& _2 ^+ ^7, 问题2 ~5 \6 s$ c6 P1 \! H, u) s
( {# u8 U4 C' S' s) vdeepseek 会将前后两段合成一段。$ R& Q1 d7 ?$ w3 E8 P. S" m
特别是那种大量的对话的段落,deepseek会给你合成一大段。
/ d# K- k. m* Q% t+ Z5 J) l2 ^" d4 O+ M, _
8, 钱说了算。: d# `7 H; A. ]. e! a6 |
- m8 B- \ M& n! Q( M
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 j6 L/ ~! b% F& i6 u
但是API就不会出现这种情况,毕竟我们给钱了。2 z% f$ c3 C3 I3 C2 h8 p
chatgpt也是这样的。& p1 ?7 l" V4 R1 Z) M7 F
, K7 s1 N" }" C" U' d
4 T. k- O! }2 x4 V |
评分
-
查看全部评分
|