|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
% p6 r" i5 f% b8 D/ u
; l! P9 V! X/ {已经搞定." s6 g, O4 y' B- R4 J! C0 `+ I
* E3 |: C2 u7 L$ H( a1 V+ L( f# J首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。+ N) `0 u) t% ?+ S6 {1 q9 x9 L
( L# R) L6 V$ a1, python + pypdf 按章节拆分小的PDF1 d, b* P1 h" v n/ }
/ d7 k+ W, y9 l- G
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
: s( H1 I! s6 B7 j4 s$ E0 T+ T( k' V! r
得到text file3 S, I5 H& \8 L/ N1 l
! P5 Z& k9 U! M2 d- U3, python 读取整个outputfile,丢给deepseek 矫正。6 e$ H6 G7 n1 _- |5 j8 M; u
0 b( I* h; S0 n7 R% S0 j" E* j# r$ I模型是 deepseek-chat' X0 t( X: S" p. S
, { Q/ y' B3 p8 ^% D3 d
max_tokens 最大是 8192,别的不用改。, t. S5 G4 x- Y6 s
4 h4 {% D5 K2 ?/ w3 p参考:
# `1 d5 l! s/ O/ s5 V7 A: Ohttps://api-docs.deepseek.com/api/create-chat-completion3 R, f/ A( R( m/ |! C5 ?
% V5 S2 D0 Z6 e( _4,费用:4 K2 d1 s Q# s1 p ]% |9 w
+ e4 z1 L' m7 B$ P# b3 z实测:
0 @' i, j4 l8 p. ? k: l. d, x6 D- B2 _# i
296K 字母,用了 9 美分。
' v& A$ R6 O6 e8 e2 F
2 a, e# Y# u/ h/ E8 p- b英文字母 到 token 用量大约 1/3
3 d2 I4 K& ?& V" j% c) Y8 R
5 b7 t$ d* ?& f3 Ntokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
. O( A' Z4 d/ G, M4 Y. ^9 q; s. g$ W D6 d
32899 个字母花费 11782 tokens,包含输入输出的 tokens& X3 P# \ D3 E; T; d& J
# x6 m8 c/ }$ n# C价钱,非常非常便宜了。2 r4 [* i3 G. V7 L' x# n; m2 d! {: [
5 \0 A( Q9 D, w! D/ C9 W: C( _
参考如下可以计算,懒得算了。
, I7 ~+ k! [+ H, B
! e/ R# c6 n4 e- X: yhttps://api-docs.deepseek.com/quick_start/pricing8 h1 m' a1 s. d$ s$ E
2 B. i, x/ h8 K1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
9 \7 A. s, f1 i' `1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
7 p9 t8 w x$ J0 G1M TOKENS OUTPUT(5) $1.10 $2.19
; f" \3 o4 k4 U4 n$ h8 d
* i) D3 P6 z I* o; y" f+ {5, Balance" {2 z3 x9 Q$ {/ d3 r
1 M% B1 V2 m0 v/ X4 H& J4 M8 W0 R
可以在程序里调用,知道每次运行结束后,balance还剩多少。
0 E. ?0 H4 D3 q( P* t1 r参考:
, s ], [% p4 n$ A/ ]https://api-docs.deepseek.com/api/get-user-balance! \ a6 @# Q* q1 Z* r
3 o5 I5 j+ k: J D) T0 u3 `
6, Models. ?( b, K3 a% @& [' a
$ {2 L$ j' b; w
目前就两个) v# q6 w" |$ I) \! S& Q
# deepseek-chat0 X- y/ d: p7 G. @3 S: c
# deepseek-reasoner* r4 u0 J# o# k0 L+ `
( E) K' \2 h& R* g' c# T; |参考:, g# L% p U& X: g! c3 D
https://api-docs.deepseek.com/api/list-models9 G- o/ o. ~+ v+ h3 B& { n2 o2 G+ v
9 \: J V8 I! ?. ~0 B9 M) Z5 k# r- i. L, k7 r' a
7, 问题. c5 \0 @6 b+ ]) m$ x d5 [
: S7 T+ @1 U/ M/ b
deepseek 会将前后两段合成一段。3 H ^: w0 T: B L3 z4 o
特别是那种大量的对话的段落,deepseek会给你合成一大段。
: o0 b# x7 h7 E$ ` b( j; ~0 g6 d0 z, I0 s
8, 钱说了算。
, E* x* X' {. p0 |' f9 w2 o: c h+ T' s
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
! W" E, i( Q: s( E2 X& _4 W3 v; I) b但是API就不会出现这种情况,毕竟我们给钱了。2 j+ [" J( D& r0 G8 O& y! t
chatgpt也是这样的。% B; }- y) g0 g# S! S' C
2 _8 d3 ^/ w( G7 o" O* ^* s
8 \, d) S% {( I! \ |
评分
-
查看全部评分
|