|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 * G1 a5 }8 H: {. W6 ?9 F# @
% V; ^/ E, k$ [3 o6 h- H+ z
已经搞定.
8 e( U5 J9 d$ b2 y7 W
6 O4 C/ s7 m! T$ D8 z& W; m首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。2 V2 H) i8 m% H4 h3 R/ x
" t& |- X3 ~, n& y! b8 n& s- U
1, python + pypdf 按章节拆分小的PDF
2 L7 d( Z( D2 j1 ]+ n/ B- o) o+ H8 W# g. S. b) \9 g& x% Q
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
& ~) d0 o! o8 a0 J9 t/ X; T2 I9 ]! B
得到text file
4 S+ r! Q0 S3 ~
% E8 Z2 G" a: | o) V3, python 读取整个outputfile,丢给deepseek 矫正。0 w# H1 G1 R( |
8 t8 G% O- s$ O, J0 N1 O8 A% m模型是 deepseek-chat1 e( Q8 Z% r: r
/ u# G$ g B$ j( ymax_tokens 最大是 8192,别的不用改。
3 Q/ C0 W$ b# M3 g" v3 _/ e2 r$ u9 } z- s
参考:7 Y5 T( z4 i) Y9 S
https://api-docs.deepseek.com/api/create-chat-completion
! ]: N7 [8 V. J, J' {" v/ n2 p9 p" Y. Q* Y0 R3 D
4,费用:. q0 l4 r! z) X- I4 @) h" V
. H! P( s6 Y3 v" V' Z3 D
实测:
' _. F9 j5 b9 d4 M
. a# ]; Y) U2 M+ z296K 字母,用了 9 美分。
1 ~$ n3 u1 \7 W1 J( o& {. N0 t' \% u2 u$ _+ \
英文字母 到 token 用量大约 1/3
! a! Y9 u. m4 Q/ |6 N+ v
* f4 ^7 K5 H( n0 s( y* P4 ttokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
1 U. e% @/ ^( C3 n* n+ b1 B! f3 [( r
9 z6 ]4 |& C& G1 P @32899 个字母花费 11782 tokens,包含输入输出的 tokens. q/ p4 v, a( x" s
; n) o" }" V& j# P% u7 r价钱,非常非常便宜了。' s5 v. O/ K9 ^: P7 u
" `4 L! t- }) \6 j% {参考如下可以计算,懒得算了。
- B: i6 K8 a A/ p# A: c% n/ Y- w/ r" N& B
https://api-docs.deepseek.com/quick_start/pricing- O" E( `, q P0 q; _% X. K7 f ~
: S5 \: y. P# e5 D( r1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14; o! j$ o& [9 a
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
9 J S5 z* z0 t2 `' D4 l$ H1M TOKENS OUTPUT(5) $1.10 $2.19
+ Z7 R" v4 v6 A/ Z: k8 C" j" j
4 a7 ^# p# S- l5, Balance/ X$ M& _, h' n3 _6 y7 |
$ b' O% Y" h0 S3 I A
可以在程序里调用,知道每次运行结束后,balance还剩多少。
" [9 |" ^8 ?1 c3 O参考:
" P8 {9 y5 S2 w8 i% f2 ?https://api-docs.deepseek.com/api/get-user-balance
8 G1 A$ ^* Y$ ~( {* w9 C2 P+ a& d
8 ?- T- C" I8 z3 j, ^: |6, Models
* T5 d; }9 T* v V2 [' I( Y* H/ w2 j- c0 S+ O) e1 ]* f
目前就两个
. A! f; B) }1 m1 d* P, G# deepseek-chat
- l2 C' D% \( w# deepseek-reasoner, P! l3 b! O, {1 G! S9 r
' A6 K$ J) W4 V+ {, T
参考:
7 H5 d2 D* h& Z) o* e2 I/ s3 |* P4 lhttps://api-docs.deepseek.com/api/list-models5 o6 |! v0 t+ H5 j0 H
) l& U' |, _/ G- M: B8 {: q% r+ Q" a' n: Y# V
7, 问题4 F3 a& ^2 {9 b) l; G
0 c3 h& ?3 N3 |7 }- E) n- Ndeepseek 会将前后两段合成一段。4 c5 W8 F/ E7 z5 p. y7 x
特别是那种大量的对话的段落,deepseek会给你合成一大段。
0 ?# J. V+ y2 s9 O( y. {/ G6 w/ z d, g7 n$ K% ~( v
8, 钱说了算。
0 Q. U7 e: i4 i$ V3 y- c2 {7 ~( _% o) v& Z
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
+ h; Y* d8 F! z+ I0 M8 f9 L. N但是API就不会出现这种情况,毕竟我们给钱了。- S _2 X3 Q/ E( P. O# f* E# ?1 @; r+ g
chatgpt也是这样的。' y- K8 T; ^, ~1 {
9 q8 t: j3 o' V9 \6 z A$ D7 [2 T. m+ ~, \0 c. c. g9 o X5 j
|
评分
-
查看全部评分
|