|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
! a" _ G& ^7 S8 N" L# M0 z1 F6 j+ v# y0 r) }* a6 h( [' }
已经搞定.5 F- Z' w' a" |, U
. t6 R8 n! h: K7 W首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
5 ~1 u7 c4 R& C
! C9 I8 ?5 t6 U1 O, j: y% t1, python + pypdf 按章节拆分小的PDF# X8 H5 M6 }7 Q, {, m0 y. ~0 K7 x
: Z) T% k' {* E- j2 Z
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile( ^4 k3 A6 g- e0 a% K' L5 w8 Z
3 L7 ~( S* Q8 {& ^ y得到text file2 E* h7 y, ?( V3 V7 Q5 R, x& V
' S/ n* f4 J9 Q% g$ K3, python 读取整个outputfile,丢给deepseek 矫正。
* R3 U0 U+ A( s4 L( O) }
5 d k8 _/ P4 `, [ w0 e0 R( Y$ B模型是 deepseek-chat( L* o A. b- Y$ c
* \) s" ~& I+ Y
max_tokens 最大是 8192,别的不用改。# \5 D. n L2 Z' b1 T
B( G, S: |) k: s, A参考:
7 z+ L: i- I- i) d& ?https://api-docs.deepseek.com/api/create-chat-completion
- h2 ]6 _% c0 L0 v$ O: k: `- W( r' O9 E1 ^- a; c; Q
4,费用:. D, I( B, J, B: r8 h! z b
) f/ h9 b4 G" p6 r; J6 l6 L
实测:
: Z" `) ]' @5 [. Q$ {' S# z) Q. @/ I0 G8 k. y$ D" t j
296K 字母,用了 9 美分。
2 I0 {4 c/ O- ]# W5 L5 j1 p& L3 M$ e( F( Z7 q0 G$ W: a0 a
英文字母 到 token 用量大约 1/38 n5 z4 B% g9 T: W- F
" }5 y6 t8 `- V: {; e" J0 n
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328990 \2 b5 ~7 b# M* w
1 S* z4 [$ o6 e" I" h( S
32899 个字母花费 11782 tokens,包含输入输出的 tokens" R. p2 z/ u8 n h8 P' V
7 d- g g3 ^0 B* t& F- H! l价钱,非常非常便宜了。! I+ r2 t2 D% j d
& _1 w& m. ]/ ^. p! D# N# W
参考如下可以计算,懒得算了。2 y& K1 X& f3 D- r
* G9 t# b7 M0 ^4 }. c" d2 L' D
https://api-docs.deepseek.com/quick_start/pricing
" M% G5 a* u# ?$ n5 s
! z: b3 l. _3 N- r' x6 @9 N( n, n: n1 x1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14- U9 Z8 R7 @+ ~ i
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55! b, m) E/ Q( ?8 _/ K! e$ ~: H
1M TOKENS OUTPUT(5) $1.10 $2.199 n3 d, w3 f6 T! i' @$ h
" D7 q @6 l a* K I k5, Balance7 [9 q' G' J9 s; D
. V$ h0 I8 @- g# D, S可以在程序里调用,知道每次运行结束后,balance还剩多少。
0 B2 g: c' x) T6 z, d8 D/ M参考:$ [% u# s) `8 d2 R( `0 j
https://api-docs.deepseek.com/api/get-user-balance9 ~+ s" W( k' V3 X+ w: t
8 y$ R2 B5 O1 p
6, Models7 x3 W4 _- L5 H0 }0 c
' M1 g* k: E/ w3 {0 w+ C
目前就两个9 w G) T9 O) ~+ x+ L
# deepseek-chat
+ K- }" G5 n* I0 W8 o4 i+ g- F/ f# deepseek-reasoner3 m7 i5 r/ r9 i) C
# ~4 C5 x# u+ C: b. S* G
参考:3 N; n& H; L; r0 R6 C I5 |
https://api-docs.deepseek.com/api/list-models
" q' U E. z- i/ R5 W# u- o4 f. L
$ c" ]1 z2 c- ^) f) l
7, 问题+ @/ k3 Q: S' G* c* S
' e: O+ M5 S9 w& }
deepseek 会将前后两段合成一段。' m0 [4 d/ F& ]" s5 h% r1 W1 `
特别是那种大量的对话的段落,deepseek会给你合成一大段。, u* a2 C. ^( s g* ~7 ~& w
% `( [. e0 B# C6 _3 S9 @1 z
8, 钱说了算。
1 X% _3 X) v+ c4 a, b8 j, F
6 a& Z S* j& Q0 O; fdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。7 A5 k1 r4 C( h7 {
但是API就不会出现这种情况,毕竟我们给钱了。
/ u! U( j. _) R8 [/ Cchatgpt也是这样的。" o) Q" w# U% }/ g- A! s: s) u; E
5 a# {9 K" A& b9 i4 [" [
: m# B& U% Z+ o/ ? \" y. l- E
|
评分
-
查看全部评分
|