|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
/ l; L$ f$ A! S9 T" A" u8 _9 c+ }. o
已经搞定.
: U2 ?7 l' H5 H* j
% z3 {, P) q* E3 |首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。6 Z" _& B% H- ?+ v; c3 t
. C) C4 U; {+ ~1 [7 p1 w7 d% m
1, python + pypdf 按章节拆分小的PDF
- A1 s+ J8 C/ f" k/ }1 b) U j
! Z7 B3 _9 ?: r2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
7 q l' @, x* z% J% V8 Z9 s
+ i% ^/ L9 e+ j/ c4 T1 X- l# `# M5 Q# |得到text file
8 Z* Q5 ]+ C& X( _
I, l) u" K9 R! q3, python 读取整个outputfile,丢给deepseek 矫正。
2 Z/ V) L4 M& F6 |$ C, D3 B, T1 U" {6 }3 b- @
模型是 deepseek-chat6 G4 h# Q% a; e; |" P8 Z) Y+ N
7 t. g0 M, s# w/ ^
max_tokens 最大是 8192,别的不用改。
, G7 G! b. M7 u6 k
9 N0 m7 ^% S: G4 u W+ U6 s9 w参考:
& o" ?3 a) B5 u/ `7 W( ehttps://api-docs.deepseek.com/api/create-chat-completion
& d8 c% D+ P' S4 r" ^) C
: C5 g% [; n4 }. x5 W; E4,费用:1 i4 B% \" R4 }# Q8 I6 w! K# l
& A% h" b! X9 m4 ]实测:3 O+ c& |" h! h% \! ]/ ~
4 G: `& P! Z$ s296K 字母,用了 9 美分。
2 ~$ m! g& y! V$ t0 m2 \( D
5 G5 t' f( ^% a6 T& ]英文字母 到 token 用量大约 1/39 W3 G- V3 u6 U1 f6 M
" k$ t& P6 a' _* Y! Ctokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
" j4 ]8 Q, x* @2 ^) p8 c! ?0 v$ c4 h) k! d# s5 b) e
32899 个字母花费 11782 tokens,包含输入输出的 tokens( H! H5 r0 K0 l
3 r4 c$ r: P7 Z% I1 q
价钱,非常非常便宜了。' ^& o8 W7 @2 @: e* J" {" Z# Z; ^: z
$ d3 i; i- F8 W) H/ ^
参考如下可以计算,懒得算了。5 [6 I: Z4 L) R. G% E/ E6 @) U
$ A' O8 s j' n( {, n
https://api-docs.deepseek.com/quick_start/pricing
/ K3 _& ]4 Q) K) M
6 H8 n7 l2 u2 n. M1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14$ p# I( }5 Q* X! O4 k& L9 ]. J) d
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55: _7 A- B/ ~2 Y( q- d5 F' X
1M TOKENS OUTPUT(5) $1.10 $2.19. ^# {9 E" u6 l
) G& T( W$ N3 m! R+ s- `5, Balance% b5 I: A5 L$ @ s& v
: H; W" R+ _* E0 B, e9 N9 S9 |
可以在程序里调用,知道每次运行结束后,balance还剩多少。
, I a) U8 U: W" ]" c- P$ g: v2 L参考:6 _1 f- w8 Z6 i% z: V
https://api-docs.deepseek.com/api/get-user-balance
* n& @2 @6 X v% E7 m' N$ {* L' s1 V! S
6, Models
& p0 T$ O' |9 N5 e( d# {
+ h0 b- `* c6 x' m目前就两个+ i: L' K8 q: N& ^: q! ~! T
# deepseek-chat
$ O- F$ V) X6 B/ l, u! h# deepseek-reasoner
8 E7 b5 x1 A! f1 c0 ` Q7 ~
1 S7 | G, O- T$ Z/ {5 ]- P& S参考:
e( T- U' G% z9 Z) ~# ]$ U5 i& F- Phttps://api-docs.deepseek.com/api/list-models
3 U; S, ~/ V* V! H2 q3 u+ U6 l3 r. [. k5 \
( @) j4 B7 j- h5 l
7, 问题
8 x% n8 ?( O$ x4 r$ m8 I C, s1 W1 r: o, t2 S3 J
deepseek 会将前后两段合成一段。) p* U$ S: _* W, y/ i+ O
特别是那种大量的对话的段落,deepseek会给你合成一大段。% d& H# b% T6 q2 w
: ^. a, R; {; z c+ e$ g8, 钱说了算。
0 l" K: ]8 c- O& g; @2 U3 w4 y8 r- B9 M9 }: H! j
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。: m6 X" {! s# S8 A; D7 ?
但是API就不会出现这种情况,毕竟我们给钱了。
9 s" I0 T( |4 g" Ychatgpt也是这样的。( j1 S6 { P' d& f+ |& u. w5 W3 C
& c) `; j x7 ?8 v4 P
- ]- A: I+ A! r% A |
评分
-
查看全部评分
|