|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 3 n6 q$ K8 ^% s& \! z
3 W4 X7 K( v @. U. t$ `已经搞定.! U5 u+ j( q+ e# S
9 W1 N2 H+ |& C. ~1 c% v
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。, H6 v' v$ V/ u# i! }* @
7 n; F1 z9 f! Q% F o- O* k! K% A
1, python + pypdf 按章节拆分小的PDF
0 S; `& p# A$ k+ o; Q# N# B( X
: I( Y- l D, h) |; \& b: I2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
1 P! [5 v# y4 o3 n* l& Z7 y Z C
; s P5 B" Z7 n+ V; j& L得到text file3 b1 _- I$ r2 X2 i! ?
# z4 J1 D' S! i+ `% n* N3, python 读取整个outputfile,丢给deepseek 矫正。
7 u4 J# X r4 u: @( b- y0 }" R1 a; @ `$ r! T' i3 e# S! H3 a
模型是 deepseek-chat! W. A* |+ f. y. e8 z
3 v- K: x, y j& W) T/ n
max_tokens 最大是 8192,别的不用改。; I, h8 F$ g3 f1 f
& I# I1 q7 C( [
参考:* X% a- k3 y9 V- o) e2 c( U
https://api-docs.deepseek.com/api/create-chat-completion3 j, z5 e7 m/ |! [! |
& O) U* j, p& g7 N4,费用:. f9 n$ x" c" n3 L0 g
) R; Z8 B J/ {% {, e实测:+ G6 |$ s) D: N7 M
- W1 ~1 o( x( \7 @# l' f. \$ n296K 字母,用了 9 美分。
/ L0 Z6 R8 O- f' J+ W' ~
! V; a- j9 v, B. \! f9 ?0 ` L英文字母 到 token 用量大约 1/3/ c8 g! V4 i K. W
; o7 Y% v8 W) r; ~5 \+ M$ k# E
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899. {: b- U7 U* |3 M' \% l) I
( f2 ^2 n/ N' q6 Y' o
32899 个字母花费 11782 tokens,包含输入输出的 tokens
" ?* g$ n0 L6 g: c
* l3 @' V2 p+ c, X& ~& |2 x价钱,非常非常便宜了。
- c M; i& s% O R+ q v, y
* S# o5 E0 r; w) h参考如下可以计算,懒得算了。
1 @+ v- [9 M' n3 ^" _5 }4 n) P2 {: f5 ?* ]; N/ i
https://api-docs.deepseek.com/quick_start/pricing5 h( N& B1 B$ I0 T
6 c9 K8 _! S u. ?( Y" f1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
; e/ Z6 L3 f2 a! `1 Z; }1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
+ P% {: a, U6 A4 I2 }1M TOKENS OUTPUT(5) $1.10 $2.19
: ]3 @: P6 m' s% Z* J
4 p$ x& N. V7 Y/ X+ X& R: Q* u5, Balance
/ M! Q% H1 ]3 f: h: ^& p
" m6 r- H, B# M/ a可以在程序里调用,知道每次运行结束后,balance还剩多少。
& S; }6 w& t2 v( z0 `4 N参考:. [# w4 Q4 N9 ]% c7 V
https://api-docs.deepseek.com/api/get-user-balance
/ h4 R8 T) t1 e! i0 a" h3 H9 a0 }' c, h3 O/ O/ r
6, Models
+ q& A w; u/ \4 _( \/ D' {1 v5 x0 y4 Y8 Y" w! D& s; @
目前就两个4 ~0 ?* }& }2 R5 E( q; @
# deepseek-chat
9 b3 \* c+ x# S- r# deepseek-reasoner5 S" Z& H* V0 \# ^4 t
; s' E6 X7 U' }" h' i2 ~
参考:. j: n4 [$ | d9 b
https://api-docs.deepseek.com/api/list-models
+ ^, k; D) M! L- M& m8 j8 q- V$ |5 i1 S, a
" G3 L* Z2 P4 g. C7, 问题
7 R9 I. b: C* e1 h3 U% v
; S7 S" ^+ @$ k4 ^* Ddeepseek 会将前后两段合成一段。# l% ]: G6 Q* C: J+ E8 i2 {6 I a
特别是那种大量的对话的段落,deepseek会给你合成一大段。9 K3 K! o8 Y: R( V8 A1 ~7 {
5 u. X' X+ k1 g8, 钱说了算。& X. { w* U: p. |
7 G/ T7 e, u5 r1 E1 `deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。' [% B4 a. @$ Y6 Q5 d( E$ H( D
但是API就不会出现这种情况,毕竟我们给钱了。+ Y2 Y, v8 Y0 K/ {& ^
chatgpt也是这样的。$ W& @; L; b% m& I3 f8 O% r% j$ [/ ^$ l
0 i. a! ~$ y) c( ?
* V+ i! v. ~4 N# a' ~ |
评分
-
查看全部评分
|