|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 ^: ^9 C! `/ d N/ [: ?( E1 w
# d. R7 K) y3 ~' y) L: X* y已经搞定.3 I$ ?" ~: P. s& `6 l
- A; l) V6 E! r! w1 C r0 T0 i
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
8 m+ F8 f7 l; V6 w+ h8 K1 S( U% a6 f; P
1, python + pypdf 按章节拆分小的PDF
: X+ w4 x P& P; q: n! Z
; e- z0 Q- t3 [5 x2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
* Y" o% m2 K" q \2 o# b! a* M# l: [" E: i6 N/ R2 t% f. s- f
得到text file
" Q9 ^! j- ]6 U! H- C! p) \4 O5 w T0 n! c: n. A
3, python 读取整个outputfile,丢给deepseek 矫正。1 t9 v5 y) _9 K3 ^1 x
3 O$ P% a) l* m& W- z
模型是 deepseek-chat
2 M' b' w* x7 C w3 F1 a: E$ h, G4 R3 Q6 j. p
max_tokens 最大是 8192,别的不用改。
! C: X8 i) |* B q' A( O5 u8 @7 q: E
参考:8 S/ y+ G4 g. g* x- m$ o2 y0 w
https://api-docs.deepseek.com/api/create-chat-completion% y& {. A3 C H% q% d) k; ^
* W- Z# r* L) U* I& A4,费用:( w. D/ E6 ? Y
4 d" D$ Q( R8 D4 b9 \
实测:) l$ |4 i8 y/ K# h b* d& z1 x' O
6 z5 j$ I5 y8 ]! h9 q2 ]296K 字母,用了 9 美分。$ X2 u8 N9 p3 O0 i: h% T
1 h& H/ S# L9 K# G0 E, m英文字母 到 token 用量大约 1/3. Q. H( q" N' A1 w! U+ e9 ^4 o
: i2 b, X9 r2 E8 X7 Q( p
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899* U8 I) o& b) x6 }' V; W/ `$ L
) Z, J1 d0 M A: ?, K z% ]: \32899 个字母花费 11782 tokens,包含输入输出的 tokens2 ?' d5 a; J- `0 y
. w. r$ N7 v% D) U+ f. X, W8 b* k价钱,非常非常便宜了。4 c' b6 j, o4 L) m
, I. i9 U& z/ S F' s+ B& b参考如下可以计算,懒得算了。. ]: Q$ M+ t+ ~6 I
- ~$ ~5 B [1 v: Y/ [3 U- t' vhttps://api-docs.deepseek.com/quick_start/pricing
& B7 w5 w7 F( s" E9 n# \ K4 z) B. e2 R8 \5 l
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.144 @/ k6 m* m, |/ o' C$ }1 N" V
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55- T) x0 S9 S' D
1M TOKENS OUTPUT(5) $1.10 $2.19$ |* j9 R8 Z5 a8 c
( R# _5 j5 W- t# J9 q& h5, Balance6 H) B( N6 p' r1 p! ]
6 h& }0 K% b5 v/ g$ M I% t可以在程序里调用,知道每次运行结束后,balance还剩多少。
8 A* k9 [& N2 w' w0 k1 @: u参考:1 K' l# W# K/ o: a9 t/ ^% X6 @
https://api-docs.deepseek.com/api/get-user-balance
9 a+ P, W4 ^ k( x! S/ M8 t
, G+ ?% V/ Q" j# N* l) ]! A6, Models; N7 Y0 ]# p# _& b1 G& X# ?, p
' }0 O2 i ^7 E% r& @
目前就两个1 Q6 x: X% Y* y( g+ ]
# deepseek-chat
+ ]0 H6 k" I/ `' s9 {. h! M2 ^1 ]# deepseek-reasoner' Z, O! y. K$ f2 `; S7 v0 J
6 u6 V& b0 I7 Z: G: F" p参考:
8 n" V3 j, C0 U) Qhttps://api-docs.deepseek.com/api/list-models
7 N* Y7 B4 ~4 r
- b! Q4 s4 `+ b
8 t; Z' p6 ?# a4 W. D& X0 R7, 问题
1 `# G8 W$ s/ f, L+ H. L) L, ]0 g
# _1 }/ ^- S1 _8 ^; Zdeepseek 会将前后两段合成一段。. @" _# r2 N( ~6 {, M1 A& n5 m; Q5 n+ D* i
特别是那种大量的对话的段落,deepseek会给你合成一大段。
/ [' X& S. x7 N( y& o# B6 }! R
, }7 T# s2 d* U2 e8, 钱说了算。5 u3 j4 M% J) s2 V: | l5 U
) Z0 r" B6 B) h: Q9 ydeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
1 \# U% O Z: u' S但是API就不会出现这种情况,毕竟我们给钱了。
2 v- P5 \; S$ y7 h; E. d b4 lchatgpt也是这样的。, i4 b1 \* Z% o: n" ?/ \: o
0 _) N# k9 N4 M+ y2 ^2 e
2 H2 q* X7 s1 [, \% u/ ^7 J |
评分
-
查看全部评分
|