|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ! _% w- ]2 v8 S5 O( ?; p# q+ P5 u
1 K- D( C; n6 |) P3 g1 D& Y
已经搞定.
3 b5 K9 U3 F1 K
" J! o5 m$ J* T: V首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
+ R) o* D8 d* t* s ~) @/ d4 ~- z3 I, y( N& `6 H
1, python + pypdf 按章节拆分小的PDF
, x1 W2 C7 t9 R* v: l1 Z d) ~2 R7 @) x8 g) T1 M! ]2 |
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile: s% A0 R* P4 n' g0 J+ Q) i4 ?7 K
, `9 L( }6 Y( P得到text file" p5 x% O/ U, l% u" E
# L+ Z4 \8 K$ n8 K+ F$ j
3, python 读取整个outputfile,丢给deepseek 矫正。# k' `# r# a8 X I9 ?) P; N6 s" d7 e
. Y" L1 R, G) j. s0 X
模型是 deepseek-chat
; g3 z% X% Y) J2 J% w
6 {1 K4 }9 i1 q/ W# jmax_tokens 最大是 8192,别的不用改。% E5 b& i$ Y3 p+ r
: Z8 Q% W$ {) G! T' J. D4 g
参考:
! o& [/ Q1 |* H4 f/ Whttps://api-docs.deepseek.com/api/create-chat-completion
# g# M$ U7 g& ?1 V7 g7 t, t+ K, t; W6 u: |; v" `+ D6 K/ y
4,费用:
% w% y( D9 Q4 T% E5 u+ J" [: u8 O! H3 M8 b5 }* M
实测:8 f5 _1 h# D4 H7 m3 Y
! K& S, _% }9 c' b/ n# M, U0 f
296K 字母,用了 9 美分。, q" m6 n- w+ V7 X* h
% p, @+ ^# |8 S; A7 c# U英文字母 到 token 用量大约 1/3
: j2 X6 N1 E7 C$ b5 T' I0 s9 o
- y q: L( ]( q- e# Ntokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899: e, t# c! ?: c, d& h7 j
; Q/ n' g$ e N# r32899 个字母花费 11782 tokens,包含输入输出的 tokens5 C6 Q' i" Q5 o1 {# Q' _; A$ H
8 D' f- V4 x( l
价钱,非常非常便宜了。$ h' O8 Z0 v& a4 \& V
* }1 o2 Z1 s: W$ {, q0 M参考如下可以计算,懒得算了。
. W# A' r7 ~" L6 y- j: c4 k" m
" ?5 j: B6 D+ V! |" [https://api-docs.deepseek.com/quick_start/pricing
' ?- B; D1 g; \
" ?* m1 K2 F, a, |, T6 O& {1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
& D# H6 B7 H8 D& h4 Z$ l1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
! P) i! z/ x- a1M TOKENS OUTPUT(5) $1.10 $2.19" [+ \6 ~- L! m9 x9 Z% l# w
0 z# H3 b* G9 D- n5 J" n3 B* C5, Balance
, ^% `3 q$ L$ S7 R, g, X7 D% n3 B/ a7 }5 c8 |
可以在程序里调用,知道每次运行结束后,balance还剩多少。" ~7 x8 ~+ m+ y8 t6 N5 S
参考:* C; l3 \5 ]% l5 x3 h/ O: n
https://api-docs.deepseek.com/api/get-user-balance6 [1 ]3 f% {, K" I5 T. C# L
; ~) B* C3 f1 ^2 p' B5 @
6, Models. H4 B4 b2 I; |' a
; o3 p2 }7 n6 t; a: Q6 ?目前就两个, q3 k: G+ _/ a' T! y
# deepseek-chat) A. b4 w. n2 \ |. t" Q8 m h
# deepseek-reasoner* f( ~: a/ }, D3 i
% c8 a2 p) E: o+ Z! g% w* p
参考: ?9 @( H+ T9 |
https://api-docs.deepseek.com/api/list-models
# j' E+ n2 I* f* S
- ~, X6 [: [& {/ g- k4 w2 E t: j" Q% C# B' y% C( ?& I
7, 问题
, y. Z( u# ^# V' r. t
. e1 Z" s1 v$ N; L' U: I" ^, zdeepseek 会将前后两段合成一段。
9 D* s. F$ c% a特别是那种大量的对话的段落,deepseek会给你合成一大段。* D" a( b- s, x. c0 M# A. D" }' D
' P) C! ]0 [8 @5 A8, 钱说了算。. g3 [) P* @$ ^! Y U7 m" J
4 S H7 R F( C& K, hdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
, Y: X1 `) J6 h% Q$ L: L4 S x6 Z但是API就不会出现这种情况,毕竟我们给钱了。
2 V& ^* ~: G) \4 ^; Q2 u" y" |chatgpt也是这样的。- R7 J' a1 _2 a' d
/ k; d. p9 W, ?$ Z9 k: O- P8 _
5 v& W$ K! f* E |
评分
-
查看全部评分
|