|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
0 B. j$ L7 A7 l$ i/ J% \. e3 n0 C' i7 j( W4 S1 J: ]
已经搞定.1 s, o, Y( I6 ^ t! @
* Z! Z# u; _' X2 P9 n
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: v3 f+ q5 e3 m# r+ e
8 z0 j) A9 w: e1 a1 ~ ?0 Y1, python + pypdf 按章节拆分小的PDF
: K( c. r, g* J
9 d+ ]: Y& A% g2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
, B! g. Y! P5 F$ Y0 g
- L" E. i# ~9 B4 l6 H9 H, w得到text file
2 X8 @4 \2 P6 K9 S9 m, ?
4 z: g" w2 r! F) `0 C4 w B3, python 读取整个outputfile,丢给deepseek 矫正。
/ ?8 G: T0 E5 i" l1 ?8 E3 a, ?: L6 M" ^0 d
模型是 deepseek-chat
* O; R" ]2 q+ q- r N6 K7 v2 D2 |% B6 i6 X
max_tokens 最大是 8192,别的不用改。. ^! `# [; k% b0 D2 K- M
; ?: s: S' v ? G, V% L5 F! \5 t( n
参考:- ]1 W4 R( n! j$ @, _9 t
https://api-docs.deepseek.com/api/create-chat-completion
8 f+ Z9 }, D2 q' f. x
! X; d) ~! w: H6 i# P. i: t' M4,费用:" I3 `7 M0 i; ~' Q
8 R; J9 v( o" Q8 Q4 n& l实测:
6 |+ G+ s6 _+ A6 e* \" M7 [ p; Y; J+ ~* S, |, |
296K 字母,用了 9 美分。1 Q1 d. s/ E0 a6 Y: b3 f5 f
$ f' X: X' W6 }( i( E$ x- l1 \英文字母 到 token 用量大约 1/33 t& J. t* P. V3 y0 S% y
2 v, V6 ?" s; [2 W3 Z
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
( p8 v8 r8 m. a7 y$ Y; ~
( B9 t+ b- n2 c/ x9 F- l32899 个字母花费 11782 tokens,包含输入输出的 tokens O T+ E& l: ^3 m) M4 ^4 e
! {' W) e3 {2 ?4 D$ z" Y" G& M价钱,非常非常便宜了。% e5 G/ U/ Z7 E5 ~# Z
8 _6 u3 f% w6 K! ?
参考如下可以计算,懒得算了。3 J+ G4 \: D! \2 g- D* L
; A5 d+ J# O+ j& K4 \
https://api-docs.deepseek.com/quick_start/pricing0 s! F9 l1 @+ e; L2 v- Z* M& ]
5 M( \: X, H2 T' ^) I0 [1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
6 b) k5 X, q5 z1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
1 e, ^; v0 D/ s& ?. X1M TOKENS OUTPUT(5) $1.10 $2.19
8 [' M" X/ T- k, q1 A( m* ]! i6 j/ N) }, c
5, Balance# i( ]- x+ V& V8 _/ A1 b! v9 g, C: B
# M. E$ V) F7 `9 V% D- `
可以在程序里调用,知道每次运行结束后,balance还剩多少。" Q$ V$ ~ n+ k2 m' P; }
参考:
. o. c" j" U! z+ W* e7 _( c7 Phttps://api-docs.deepseek.com/api/get-user-balance
' u I. n$ J3 Y8 ^
, C3 F2 n3 t8 [9 D" |6, Models# ` j: g& E Z* D2 r+ J
& f) @1 ]- P; A' x3 q" b目前就两个3 Z! Z. H5 V1 p3 b( |% @
# deepseek-chat
8 I2 {! z7 F" s- n% b# deepseek-reasoner) t, a- E0 e9 N2 N0 k; p
( t1 ~, ?: O( `+ h$ g参考:
M, F: g8 L5 Hhttps://api-docs.deepseek.com/api/list-models
% ?. {$ J1 }. }, B: @& x- v9 j" g
8 @& i8 k% N9 o6 `8 Z d
) k1 K9 I# { G( r) Z- R7, 问题4 u9 h. W1 `8 s) x6 H
' E! p" B# E; A& _) h1 Kdeepseek 会将前后两段合成一段。
) o% o) O, I7 a- ]% W0 @- m/ n特别是那种大量的对话的段落,deepseek会给你合成一大段。
3 U, y$ l7 B! I, l
& U8 D4 O, {' [( m" `$ e. L8, 钱说了算。; ~7 i; h0 h5 {1 q) b
M! Z/ B6 `' A* f# a8 m9 Y
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 s) | `5 P6 V, g7 r: v
但是API就不会出现这种情况,毕竟我们给钱了。; @) m6 s* g7 L$ H5 M9 H
chatgpt也是这样的。
s5 L' r" X! z$ i8 h9 D2 M1 W! `- Z- L4 Z* b
, j: k# {4 b# S ^) x
|
评分
-
查看全部评分
|