|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; F9 v# {. J6 q8 \5 l- r
5 l' b, c- y- P
已经搞定.
5 u+ Z, ^/ s9 w( y/ L3 E# Z* P: F2 C5 f0 p! H- d w: {0 {: H) v
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
2 ?; [, v6 d2 R, {% q F' N* q* f% ?7 E
1, python + pypdf 按章节拆分小的PDF
J( F: k- J0 _1 G
7 g; C- F* B q2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
% A9 y! D3 s ~8 u1 V5 C1 e: F/ g) w/ K% V$ g& l) u' J
得到text file a! ?9 S( R+ k; J
9 D6 |2 A5 Q; x* i# o- ~
3, python 读取整个outputfile,丢给deepseek 矫正。
5 T6 p( v6 A( P. M* K' s3 v2 q
* C4 n$ L- T' L1 Q模型是 deepseek-chat
3 ?$ _8 p4 D& E0 }* A+ b8 k- n! m; b! ]# q5 N+ k2 b
max_tokens 最大是 8192,别的不用改。7 Y5 w2 Q; q* a0 J
( e: ~6 E) j6 ~8 {0 V( E2 z
参考:' T; P) A, c. }8 c7 ^: B
https://api-docs.deepseek.com/api/create-chat-completion4 Z" s4 g d3 N" x$ e& C
0 t8 s1 {* J7 ]; y: n) i* U& i' T8 K4,费用:
. e4 U. W3 i7 J1 {; |3 t) Y! N7 ?+ }+ V1 ^
实测:! g3 y5 g' I( i( v7 j& m+ f
L, p" K. F! j% m3 _+ C, d7 l1 ]296K 字母,用了 9 美分。. K9 T2 @0 O( ]# w" n( f q9 n
8 z" }3 J5 V% ]5 A! c9 V& V1 t' w5 \
英文字母 到 token 用量大约 1/3
% {! u: K2 L* } X0 _
2 g' Q" b% w, B" y2 [1 ]3 }8 X$ f* mtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
7 V; J |2 O3 _' o+ h2 p& \" \- p D1 K6 h5 D
32899 个字母花费 11782 tokens,包含输入输出的 tokens
: D. r, i9 o6 ?% P. T' M* d% t+ e" B1 w# Z2 x2 y
价钱,非常非常便宜了。# w, S. Y$ D$ Q2 N3 P5 U
, X5 j5 ]( c. t; O( L/ S; `
参考如下可以计算,懒得算了。8 A9 m. m- c! ^; K: H
( z; u p- `2 K* t" R& bhttps://api-docs.deepseek.com/quick_start/pricing
2 }, h6 g- W9 Q+ J" z
( x- L# _5 j6 x. o1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
4 m9 q+ O% l# S4 w m8 W/ b# J1M TOKENS INPUT (CACHE MISS) $0.27 $0.555 Q$ j7 E3 p |4 o5 S3 E. ^( i
1M TOKENS OUTPUT(5) $1.10 $2.19
1 f2 ]5 [% n. O5 I1 V% S
: D) G, T% M' p9 j5, Balance
) h6 S6 Z2 R! o) j" ]8 x+ P
( v7 b+ K: q6 p+ }6 ~; B3 S: v可以在程序里调用,知道每次运行结束后,balance还剩多少。& @/ o, q2 R0 v& @, F
参考:
+ a8 V) R+ W. q7 {6 R, D, }3 c( z$ Chttps://api-docs.deepseek.com/api/get-user-balance
4 W( a( \6 N" C P3 Q! S' W# g5 [) ^% S; {% t8 H& I
6, Models
/ h, v# B6 x' T# E0 k& W7 h: d( ^2 l* N6 a) f4 J
目前就两个( u( Q( G( z# m O7 L8 m6 J
# deepseek-chat
% t9 C/ s" i1 I# deepseek-reasoner' |/ a3 f4 k. K
* h' i! {/ p0 o: b5 X% E
参考:
5 }, D2 H! L4 V4 I! Fhttps://api-docs.deepseek.com/api/list-models9 h8 @) U8 I' c* z- o
" `2 ?7 g/ g) m$ `4 e
3 A& w$ E L i' t1 h! n3 }/ n$ f7, 问题
" C% l! n' {! @: b ^* X, z6 ]$ ^ v3 f" c) i. L* h3 m" |
deepseek 会将前后两段合成一段。
5 y2 I( J) y9 T ~- t特别是那种大量的对话的段落,deepseek会给你合成一大段。
& E) m& ]& ^* B; W* l2 f2 c5 Q+ p+ _7 O8 n' l, b3 U& T
8, 钱说了算。
; I& M s1 W9 y
, I" |' E$ t. ^0 L: |+ ideepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 v5 ?$ _+ d7 t3 u8 k% c G0 }, D2 V
但是API就不会出现这种情况,毕竟我们给钱了。
8 a% z W/ q4 Ochatgpt也是这样的。
$ A9 y. P$ Z3 ]* N/ K" Z. i( }+ _; ^2 A9 E0 _& c9 s
* z8 k; `# p+ {5 c2 ?
|
评分
-
查看全部评分
|