|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
* ^# j; ]- S" W+ W0 A: ]4 `
8 i. P8 g/ \: X' [- _% Y3 p已经搞定.) M4 I- f& V/ ~. t/ K* j
6 S8 G& E; m+ z7 E$ k! Y0 m首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% e; Y0 g& g* T% H }% ? n: x. l/ o
- S5 b, j$ S5 ]0 b1, python + pypdf 按章节拆分小的PDF
! a. k$ ^' j A. ^4 e( ~. M$ L2 _" R+ z6 E7 E. D" T. i
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
u3 m) ]. F7 e0 u) `) v
' f' S+ x3 _& b. a' V得到text file, Q A) @: [- f! v7 p
( J7 \' T7 ]$ ^! h5 c
3, python 读取整个outputfile,丢给deepseek 矫正。
( T9 h U* c: L* t: f4 l& }6 v) n7 y$ j/ x; k
模型是 deepseek-chat8 W# i. v& h5 P. {- J
' O' D! ^5 @# lmax_tokens 最大是 8192,别的不用改。
: l' n8 {& v# g: B" [' h* J4 M% m; |9 ] }. v1 h
参考:
) H0 O) ]5 `9 L9 o- j* zhttps://api-docs.deepseek.com/api/create-chat-completion
! N1 k( d( W& ]4 e# B) G
0 _2 X' A# Y$ S; ?% Y4 o$ V z- y4 i4,费用:9 U- W8 N+ a' J$ O- R$ @
# ^2 x2 [( a; C' O
实测:' v. Z/ T: F1 V5 Y% N2 u
4 D9 Z/ f. i2 A# ^296K 字母,用了 9 美分。6 D J$ n( E+ p5 f
6 C5 L: |& g. ^! [英文字母 到 token 用量大约 1/35 S8 G4 X3 j* P m1 h' O
4 t2 U/ v8 Y9 i) h* W9 u3 e* d, s
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899( o% a6 @* _0 ` ~* P. u- F/ m
9 D/ H# w% b' z5 W32899 个字母花费 11782 tokens,包含输入输出的 tokens& M; w$ V# Z; {( V8 E* e0 |
3 X$ k. L8 _$ Y2 v8 [: S' f: n5 u
价钱,非常非常便宜了。
2 }3 F I' D J7 A- b1 h, `! W1 N1 P. E) B, a3 l$ l |: u
参考如下可以计算,懒得算了。
6 z/ g- z$ V( C8 J* d& D+ s, {
: O, Y; Y9 i6 R1 p* g7 K1 Jhttps://api-docs.deepseek.com/quick_start/pricing% r2 [, i# P! H" a
6 U( L* W6 D) }! C! y, M- i1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14 Y( b. I6 A f, T K+ U/ V" h2 K; ~
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55- Y: H( H& s6 _- M7 e5 K% P
1M TOKENS OUTPUT(5) $1.10 $2.194 K" h4 Q% z3 P# [8 O+ u8 W% o
4 p$ K4 b1 C5 _0 T
5, Balance
- c. x* Q. F! ]( B
1 Q. ], t8 B* |. p" ~, D# m) B可以在程序里调用,知道每次运行结束后,balance还剩多少。
8 i& ~6 s! r) H参考:
0 Y/ X* o, u# Q. qhttps://api-docs.deepseek.com/api/get-user-balance
: X6 F5 V/ r0 d# j0 D5 f$ }- Z9 k
6, Models8 Z( |, D/ Z# E; t
3 H* W+ i' | e& O( u2 i6 d% g7 ]目前就两个( t0 G: r# w" z7 v( o/ k( Q& ^
# deepseek-chat
" I- K+ n$ J$ s. T( l- |# deepseek-reasoner
6 |7 E, r1 A1 F3 ^& m& F( W5 @
( ?7 T9 p% Z8 a1 v: H3 g参考:) }! `* j! U* m6 V
https://api-docs.deepseek.com/api/list-models
. y( p/ v& i1 s9 V# Q8 b3 {1 ?4 I v& G! {9 P9 i" w
# i3 i, G+ R9 c" P
7, 问题
$ Q2 p, P" o* _! U' j& ?6 m' p r; p( y5 f
deepseek 会将前后两段合成一段。
: e4 h. s3 w7 A, z5 t! d特别是那种大量的对话的段落,deepseek会给你合成一大段。
) y+ b1 Z8 S+ R! v4 E! w3 J5 R& R1 V& C/ l4 ^( k) L0 b
8, 钱说了算。
$ q s4 L- G' {1 ^" {$ E2 {/ z1 n c w' l& C( q
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 }# x- y8 X3 c
但是API就不会出现这种情况,毕竟我们给钱了。9 [( J& L) k4 e0 }8 H1 n' y6 B
chatgpt也是这样的。
+ P0 f8 h6 r, G c. G) ]
( o& i. n# B; L% i: o/ F
- P. r* h- s8 v. Y4 { |
评分
-
查看全部评分
|