|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
* m0 w; I1 r4 s- O' g2 i" g6 q4 ]. s6 p" ^$ s3 F
已经搞定.
4 N/ d0 i, ~ ^. }, h3 d- g4 O# M7 I+ c# ?
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
6 V/ }; @) W& c0 d: M( m
3 T) s8 `: i9 s, ~0 |1, python + pypdf 按章节拆分小的PDF0 s% J3 a% A7 g- ?
7 ~) _; F* K8 v3 ]
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; }! g' o! U+ J5 R1 J
) x- s3 c7 M$ h$ Z2 x. _& V得到text file% Y8 ~ u! R0 s; U! x: T3 V
; N+ h7 f0 Z$ v6 j8 o+ z) O# T
3, python 读取整个outputfile,丢给deepseek 矫正。
/ p5 y5 ~, \- g' Y: F" Q2 e, }: N$ u. H# a7 L9 I8 F, H3 L6 ]
模型是 deepseek-chat9 O4 ]( N0 k" b
* N5 }+ n+ \3 Q0 nmax_tokens 最大是 8192,别的不用改。4 V: n1 v7 o- Y7 ^; L$ J7 s
# v+ x( L J8 `% h
参考:# U% \* t3 r; O' u, c
https://api-docs.deepseek.com/api/create-chat-completion! ~8 ^- J1 g# S8 o
M5 f; |3 y) C$ M# w/ Z( [" O* m4,费用:
5 k) v* ?7 ?+ u3 t" H# K
$ T" _4 |! [/ V* G7 d1 l" Z) ^1 g实测: }. y! o& U/ L
" i3 {% P% u+ n0 ^$ w
296K 字母,用了 9 美分。( a" v8 t9 j I+ `! ~) E
3 w% y: E, G% e; ~! P- y
英文字母 到 token 用量大约 1/3
/ L- ]" o% [! w% |( K4 t; L$ y! |# u9 ?: T* ]1 r
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
6 N! |+ a8 z! u% P9 J9 F7 ]' c: `9 A! i/ X6 G% b3 j1 z3 l
32899 个字母花费 11782 tokens,包含输入输出的 tokens+ I( q3 ]% ]& W* g0 T) p
1 `) v9 a4 `: e) n* H价钱,非常非常便宜了。
2 ^8 r: d5 F( n* I2 C2 ^' n) Q0 Y) m
参考如下可以计算,懒得算了。% O1 I; ]) i/ f
8 i J6 M5 K2 H- @4 V- B" |- Shttps://api-docs.deepseek.com/quick_start/pricing: C" X! R* n$ A ]
6 i! j* Y+ N, D' ]1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14! `2 ^1 v( ~: W( S
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
$ J* U% F i. a0 H& Q" p1M TOKENS OUTPUT(5) $1.10 $2.19
! m: G. ~( E. ~! l+ N7 j; j* `8 s* |% _5 E& z: Q/ e: q
5, Balance
4 {. P- K! N( J6 G, @
z5 q6 X- Z% N0 ^+ b9 ^* A; N可以在程序里调用,知道每次运行结束后,balance还剩多少。1 r3 T) U1 W1 A! G: w! U% N
参考:
6 p l7 `/ K4 S( A3 V% G* Ghttps://api-docs.deepseek.com/api/get-user-balance
" `, @* }. F5 ?1 C8 b4 N- P \/ m# S0 k: ?; X, n4 a
6, Models
5 r6 u) |- t0 o: J
2 ?6 c) [; t" m; i0 O K2 O目前就两个
3 q; V8 g* s0 S! n1 X% K/ x) C3 R# deepseek-chat
5 \& O' |' m5 T8 ?' t& p. M# deepseek-reasoner
. [ O" o- e9 V/ d
1 ]* Q; e/ f! T+ q参考:' C& B. z, Q M& N- W% s
https://api-docs.deepseek.com/api/list-models' X3 J. H a, W+ e4 M4 V
8 M1 @/ |. R" D6 w' `
9 E0 k% u! I( J- X/ v2 v7, 问题+ w4 g0 K2 _ C' ]
7 v9 U+ ]- M) y r& c" Kdeepseek 会将前后两段合成一段。9 k, \3 C* S0 [* Y
特别是那种大量的对话的段落,deepseek会给你合成一大段。
" O. F* d1 |. b; _
. R! e* a" q- q# ^8, 钱说了算。# _- {% K! y" X
2 Q3 R- ~7 w3 n Q) Z: d* @9 a
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) O, l# [3 L8 h. s, b
但是API就不会出现这种情况,毕竟我们给钱了。: D8 B& v9 a: B8 g" \1 _! C$ z9 Y! I8 j
chatgpt也是这样的。
2 t% F1 I0 x# c1 k8 F o- n$ c+ x
6 G1 S" D/ Z Y# W+ u3 W! d2 j* X M1 s& R5 d5 W" i
|
评分
-
查看全部评分
|