|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 $ ^( J8 o3 k) `
7 ~! K4 U/ M) W. G
已经搞定.
" d$ ]- s/ d' S4 C+ d9 p# n" I+ F8 [: {8 X; f% C& k2 R
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
2 U, a& L6 n/ j; W( A' E$ m+ G5 K/ @; s; k
1, python + pypdf 按章节拆分小的PDF
" j7 x' e: z+ ~8 \
% j' }) e# ?& O2 u$ \4 ?4 x8 F2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile+ D, |7 u% s2 ?+ W0 x s( o- \/ m$ w
( W T: ^8 I. c- ]3 |
得到text file
l3 h6 B5 o* w8 Y2 n5 F. g ]
3, python 读取整个outputfile,丢给deepseek 矫正。* X0 j$ }7 M4 s" r2 ^! A( `
" G5 \3 g) P" k7 M( g* B9 t
模型是 deepseek-chat
1 @ d+ z( P) b0 M @; q. `6 p$ C6 J% }) Q% m& T! R I
max_tokens 最大是 8192,别的不用改。 U4 p: h2 _( e( C
6 f3 k' ?2 Z( c$ J) k: f% @
参考:- O# r0 e6 X! b$ R8 e8 p
https://api-docs.deepseek.com/api/create-chat-completion
' ^; \+ x6 L |" z( U) L" X
. Y8 b% m+ e6 {: B2 C S+ y" R4,费用:. x5 l9 S6 A5 d8 q5 h
8 i! @; K5 i8 G5 T
实测:7 t9 f7 m% `% ]; f5 S
, g5 \" G" H. w. d1 ?1 v; D
296K 字母,用了 9 美分。
' H8 ^3 e( N* u
. p; V. _ W' C英文字母 到 token 用量大约 1/3
: k: s6 S- L/ U* r* `
6 X6 u* l# I6 a2 @- [) Htokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899+ ^6 A9 J: T8 Q7 c: T W
0 y( g0 h4 ~: c% _! z! @3 k! I
32899 个字母花费 11782 tokens,包含输入输出的 tokens
6 G Y% L1 l1 H# D1 ^8 m( O
& N" q j }8 ^4 c% U, f& T8 e价钱,非常非常便宜了。7 j! N8 z2 }9 w! n. ]$ f+ {7 w
6 @, G5 m0 x) v0 T0 E, d: h$ D
参考如下可以计算,懒得算了。) b" U5 {$ S- j6 D6 P
" K, @+ [( t/ A5 w* S9 D( t
https://api-docs.deepseek.com/quick_start/pricing
: o2 o# J+ o+ d) A
7 V% g: k5 e9 g6 t5 y2 ?1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
, L: z6 X$ j( n. E5 ?# ?* x- L5 |1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
! f6 e! Q2 q7 r1 @% x1M TOKENS OUTPUT(5) $1.10 $2.199 M& ]/ _) H/ M0 w4 s# R: c5 E
; x, G7 d! u5 R8 }
5, Balance4 X* r8 w7 A! Z# r0 t: o6 ?# y
. ~0 g* c& [& Z* |5 R% _# r& X可以在程序里调用,知道每次运行结束后,balance还剩多少。" h& G |: ~- ^' B- G- o
参考:
: ^; p+ q4 `9 V, Ahttps://api-docs.deepseek.com/api/get-user-balance
# d/ E3 \+ {4 D. T+ w
' }) ?: J$ M; Z5 f) R6, Models
Y/ G |; d, {% ~6 Z3 K! C7 M) i! E8 n, R& u
目前就两个
; d2 o% d" I9 Y7 O4 L( F+ ?+ G4 V# deepseek-chat% d1 T' Q2 y0 H! W
# deepseek-reasoner
# q; p# x' n4 A' Q
+ c- m) w5 f8 m6 K参考:
7 g+ t0 C/ B shttps://api-docs.deepseek.com/api/list-models# j( g% ~5 _- t, A0 Y6 q
% n t+ i2 w: R$ L7 V1 t
+ a& v6 C# _8 s- U' i" I/ o' y; R* s
7, 问题
, e+ I1 _9 w+ _# z/ |- Z/ {) u6 k+ ]& S" w+ `0 t3 R/ k, Z
deepseek 会将前后两段合成一段。
+ T2 G f' q3 Z7 F特别是那种大量的对话的段落,deepseek会给你合成一大段。: w1 ?; V: ~! u' \4 q
5 z, Q) a. ^: Q. G1 T( C
8, 钱说了算。
/ R1 r4 y, w/ A8 \: S: D6 k: j" _# h! M
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
4 Q1 R. v1 x- J! g; q1 i但是API就不会出现这种情况,毕竟我们给钱了。
9 w( P1 l; x/ i$ Y) @0 e4 ochatgpt也是这样的。. o; ?% [) v+ q$ h2 C
) M c [9 a. Y* g: A) f0 m$ u
! ]( ^# S/ M& d) D3 W |
评分
-
查看全部评分
|