|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
6 ]/ ]8 I; k. T) A# b' e a9 \9 `' ?+ ?; O) m
已经搞定.
& n. U3 r# ^0 K$ p
- i- J7 ?9 v: Z* ^: O8 a" N- O首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。; c# W' ~, L4 d( [! _
$ a& n5 ~+ e9 a3 [: x
1, python + pypdf 按章节拆分小的PDF7 Z% t: @0 R9 \5 {. T6 o
/ O+ `: r# I/ ~9 f4 L, }
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& I" N5 ~3 f1 x+ g6 }3 v7 c% q
. I& S7 h, n$ C7 a7 |4 X得到text file
2 T* W& n( u4 C' |( e* j
* K8 I9 v, L) f" P* z3, python 读取整个outputfile,丢给deepseek 矫正。5 x9 p+ i% {& a! l
4 w5 Q. z1 l" |! X% ~6 S
模型是 deepseek-chat
9 u# M* M0 w, }( J# c2 ^- l! r5 l6 J. i, }8 f+ o6 l. W" T" y" w4 w
max_tokens 最大是 8192,别的不用改。
- @" V4 Z* H, l) E1 ^
2 f2 C9 F* i$ r; f参考:. C6 z$ v# c8 n9 D
https://api-docs.deepseek.com/api/create-chat-completion
+ O" T- m P/ H- O" [4 @0 Q
1 X8 n8 T0 ?. d7 d o4,费用:7 O0 `3 u; D6 ~% O: T6 b
6 y8 T2 P' n1 L6 C8 q' R% H实测:
1 h( T2 {- ^& [2 O: c# v. j! y
9 Q0 }8 h, f) ^3 w$ j296K 字母,用了 9 美分。
7 G# Y4 S& n3 B/ q, b6 f
* Q! x+ U! l% {英文字母 到 token 用量大约 1/3# X. `$ D: Y& i6 U2 i6 [
4 M$ a1 v. b6 P v$ c. ?
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899 |( u9 y& c* n$ h6 w
, U+ f5 H, ]- U
32899 个字母花费 11782 tokens,包含输入输出的 tokens7 o. B) V$ V- f2 w8 D1 o. v. `
$ m. E; Y# b8 ^) T4 l; O
价钱,非常非常便宜了。3 z$ B, X) g; k/ h9 L2 q. |( Z
' Z( X; Q* X( }7 Q8 {8 B; l _1 L+ S
参考如下可以计算,懒得算了。
: U1 [4 J2 }# \3 k/ b0 s7 A" ` h& F
6 w% f% ] x/ G. g3 l$ K; \2 x3 chttps://api-docs.deepseek.com/quick_start/pricing
' M5 D, z1 Y* ~ n0 R; ]1 W" A* \% K9 p/ `% t
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
5 X9 x" k2 i- q$ O9 h/ A3 ~1M TOKENS INPUT (CACHE MISS) $0.27 $0.55, Z/ h* r2 X" h3 ?4 B
1M TOKENS OUTPUT(5) $1.10 $2.198 d( s& h& _2 D7 Z
% q" U0 {8 N0 a
5, Balance
9 |2 e% @9 i6 E+ @( j; L2 E' {4 r; r4 s" `3 n- |( G
可以在程序里调用,知道每次运行结束后,balance还剩多少。7 ?# U) } P* ]
参考:
+ J9 q8 Z( g+ {1 b- Ihttps://api-docs.deepseek.com/api/get-user-balance
$ j. L% `* G+ @2 ]. ?6 J! A4 X2 c" p d5 i' o* X* _
6, Models2 m+ F& K0 c) O9 P e7 t( }9 U
* A7 W- b) G1 p1 R6 b; ]9 d+ f4 s
目前就两个, ?( g0 B/ ?! ~
# deepseek-chat/ i- |" Q' `0 p1 I- X0 P5 ~
# deepseek-reasoner
, |, x! N6 F1 @8 r( U3 D" ~; a- V% R# F( \: z
参考:
: j& n; |/ U1 i+ k+ _$ C* Z" zhttps://api-docs.deepseek.com/api/list-models, }+ J4 I& h- R
% \+ x4 C9 m0 e( }4 U) F$ P6 V# w
. s# H7 e! w# r9 N a. z
7, 问题
1 ?" W i1 \7 J9 U. W3 c
7 Z( H; l; S) }' U% O: z" sdeepseek 会将前后两段合成一段。
- @1 }+ U( @" |( m3 \, I特别是那种大量的对话的段落,deepseek会给你合成一大段。# @, S9 ^) v+ S* D4 e
( w( f( E, D/ u3 ~
8, 钱说了算。
: T: _4 ^9 w. w$ K+ s
# |! {, |$ Q5 C0 Qdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( w6 e, J& Y5 q- P) ^- ?
但是API就不会出现这种情况,毕竟我们给钱了。* n: i I/ v6 x, n
chatgpt也是这样的。
+ [0 i% z; |4 \. ]) A1 B/ }7 Q7 y9 m5 o7 |& Q/ E
0 n8 A$ D3 R& N. ^' t
|
评分
-
查看全部评分
|