|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
5 h3 J+ `: M) R& P7 L7 O4 a! G3 ?- k/ p5 A+ n) d$ ~0 c( ? l
已经搞定.4 z$ x2 }8 G9 _) C- b$ Q1 N
. [$ H! ]: g$ B6 J6 z7 ~$ f4 Z' U首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
, e# h5 s/ ~' H. T
, p2 T; H& O1 H0 V' S# |5 ?3 Q |1, python + pypdf 按章节拆分小的PDF# j- |7 C: c. }! }) W, \
# w6 x- r0 n* u s5 T7 t1 X
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
3 f/ H% o- u" Q. Y9 k
6 Z1 }9 S5 {8 X+ M( u得到text file
. c3 C& H+ N. K8 [- N3 Q& _* `! b, J$ ?% Y( D! e, O
3, python 读取整个outputfile,丢给deepseek 矫正。
2 P& J' } B: j( |9 S: J# b: ~5 N2 B: G; z1 d
模型是 deepseek-chat4 {1 G% ]4 M; P
6 R7 p4 S0 l7 H3 J X+ e( K' Zmax_tokens 最大是 8192,别的不用改。. |3 @3 X& v+ x8 ^9 P9 K
1 f! [- I! V' v6 q/ H ?2 J8 m3 T
参考:
0 A& V# X! m- z0 T8 q+ ohttps://api-docs.deepseek.com/api/create-chat-completion5 ^3 ]( P7 u' X* I
. |/ \& K |4 \# j
4,费用:( c2 B5 |+ `" j+ ~% o
! E, S( O O/ s0 p
实测:2 E$ A3 h* Z+ }- p! @
( X/ _- y& b' @% S8 v5 \; s296K 字母,用了 9 美分。
+ o$ n4 r! \* c& A4 u9 M! j; }* P! N
英文字母 到 token 用量大约 1/3
- p0 r, _) }2 [' O8 l9 Z1 f1 a6 e
! G! ?% _9 c1 r3 a& i, Xtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899. x9 y) v3 S+ q0 j5 A4 q( t
8 L/ @2 P2 b* P s# e32899 个字母花费 11782 tokens,包含输入输出的 tokens
7 x$ }. j+ P1 C; s7 {: [4 g9 Y* o, ?8 _. u' j
价钱,非常非常便宜了。- U( Q' A7 F9 a+ a
" R1 f% Z- M. @" m( m9 U参考如下可以计算,懒得算了。
4 x6 h" S1 M+ b2 V8 P) g: F5 l4 f2 }6 T8 F: s+ }
https://api-docs.deepseek.com/quick_start/pricing
- i6 _5 n# c8 W8 Y: t
+ | E& Z- }" q5 A! A* i& R1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14% e; a5 T0 M$ R3 |% `9 L3 R, \
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55' L% z0 c' \: u3 N! o6 G3 A
1M TOKENS OUTPUT(5) $1.10 $2.199 N( P, V: S- {1 e# u$ n
) X, o0 _/ q% @5, Balance
( f7 e& \1 C5 Q8 x% x# ]- Z! s4 t9 M8 j
可以在程序里调用,知道每次运行结束后,balance还剩多少。
( l' X+ x/ j! f9 a$ ]4 u参考:% k2 c1 K+ m, K# ?
https://api-docs.deepseek.com/api/get-user-balance) c# n+ t& z7 H2 o6 ]# O8 i! R' x
5 ?9 P( b' I" j7 t
6, Models! T# y0 f0 r8 [* ^
h: n6 Q; W) y0 J1 {1 U9 e. Y目前就两个
0 x R' W& p# \. N. }& e# deepseek-chat
s6 [3 M4 I, q+ H* |* d# deepseek-reasoner* b" {% h0 R$ f E
T$ y) B/ M% E; `
参考: {6 e, [ Z0 [$ E3 x2 A! v' i5 L
https://api-docs.deepseek.com/api/list-models
; g/ C1 B( ?( @' X7 ]0 y+ J9 l4 a4 Z
2 z9 r3 S' k/ _3 S0 I0 r
7, 问题. ?5 @ A2 q& S. o4 G4 C* l3 [
. U8 C, z7 n5 `$ |: q# Udeepseek 会将前后两段合成一段。
: ]9 o4 r" A( ]7 g3 u; g特别是那种大量的对话的段落,deepseek会给你合成一大段。, x0 b" f B# z. I* ]$ ], _
& G3 T- ^4 V; ^- b8, 钱说了算。
6 s; l$ s, b+ S& a1 d3 H1 n8 f7 Y. p+ [; b
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
1 L+ S4 }& A8 _% N2 l- |但是API就不会出现这种情况,毕竟我们给钱了。
, m j: E; r/ V1 J( Wchatgpt也是这样的。0 [; `& I/ v9 S7 F# ^
6 M" e# q7 \& Z/ P9 G: o! x; R+ F
. r: M: @/ s- v- ^* a& S |
评分
-
查看全部评分
|