|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
9 e' N3 e6 T) J( o* Y! t( ?* [4 {- I3 G2 x& K7 M/ p3 S( u6 L! g
已经搞定.: |! B( Q, P" T3 h) r/ K% U7 @
9 {" a) V1 s8 k9 X9 {首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
3 O7 a( Z0 }) f. x
8 @* ~7 @9 l$ j# e1, python + pypdf 按章节拆分小的PDF
% E; o4 g* ]( [" u6 K. D u$ f$ R4 A: x6 G, l0 j
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile* u' `/ o: n0 A5 x m4 a
; z- M- p; S- K. N8 C7 } i
得到text file ^1 B, M2 a ]" e. }4 e
( b; S% w, C* K4 w/ t; D5 t7 v
3, python 读取整个outputfile,丢给deepseek 矫正。4 F+ o' o: f6 C- g5 u4 Y
6 v3 j& z& t+ L+ o
模型是 deepseek-chat6 p- N( S4 J' S/ ~# Q7 U( {9 ^
$ p# D: z) f1 h5 k& x% R# ^max_tokens 最大是 8192,别的不用改。
% i7 I! Q# T& O
: Y+ o) \9 }9 b' ]8 d参考:& h. H Y( S8 K' P9 G6 x
https://api-docs.deepseek.com/api/create-chat-completion! }, j5 F2 v8 T0 w3 D" M
- l$ A2 v# O7 [; @2 m4,费用:
3 m6 j! ^; F- Q4 e9 n6 M1 E$ Y3 Y1 a; o q' i+ o. Y2 p
实测:
2 N. C0 T, e- }( F" W+ S4 A4 I
2 {# X0 B7 ~, r7 H/ Z" ]296K 字母,用了 9 美分。
6 y7 c( I M' e: m$ A% C
' S6 l9 p# p) c9 H3 A( a英文字母 到 token 用量大约 1/3
/ Y- A, D* [. E, |: j; U" ?+ C2 a4 L# f% s
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328998 L0 R4 W- [: r* a& Z4 R
3 A9 p& |/ `' ` z0 b
32899 个字母花费 11782 tokens,包含输入输出的 tokens
1 i1 |, {; q1 r% o. P5 n
7 D! L I% e. ?$ m5 N* r价钱,非常非常便宜了。
x$ A( m$ t7 E8 J% a
! P) i# f3 ~( v8 l4 q& D8 p, E4 p) m参考如下可以计算,懒得算了。
- c" j+ t' {+ ?2 C
! T0 {% v( y, rhttps://api-docs.deepseek.com/quick_start/pricing
" b b. R1 h1 o. O$ O$ V; k1 ~- V* z4 n8 @, ~+ e! E
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
; m: i+ E. @* G. n1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
8 J+ {. U, g, r* |6 F4 y1M TOKENS OUTPUT(5) $1.10 $2.19
% x y# y2 {+ x6 N4 k) E8 D6 C* f5 j( r q
5, Balance, e3 N- `" A8 C/ ~* J) G
+ B# u7 l+ p" o5 v& o# h0 x
可以在程序里调用,知道每次运行结束后,balance还剩多少。& j9 V3 U# [- f' f
参考:
$ J3 ?/ {: c( w9 t5 }2 |- Qhttps://api-docs.deepseek.com/api/get-user-balance
8 w+ E$ Z/ s$ ]% t/ r6 [: W) |8 }" A, g! A
6, Models# m% V3 p3 q! O* U2 e! T
; J$ L; _( K0 l, S/ h目前就两个* F' O+ B o& k* J1 i4 r1 Z/ S
# deepseek-chat2 y' _7 u/ ^! l2 T' p2 L: ]
# deepseek-reasoner
2 E3 }7 @% | D4 A* Q& X
. m6 r% A9 {8 n, r8 f9 O# q$ M. E参考:
. g, G& D. \! _2 }4 v- T" a. rhttps://api-docs.deepseek.com/api/list-models
* Q! T, x L' Z1 d( T) W/ a+ p8 ~) V. o4 p* Y7 f- ~; r
' K% a7 A0 ^/ w* k7, 问题3 `& \: w* t1 Z( h" o" U2 F2 r
7 w# ]: {" f( C8 H
deepseek 会将前后两段合成一段。
& [& A ]$ J1 l, X特别是那种大量的对话的段落,deepseek会给你合成一大段。
( p0 p# @2 ^+ \: z
8 ^* K. b. G N8, 钱说了算。
* m x8 D. x* `) K9 r* q f! @% j7 H7 D) g) E, A
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 X+ V9 G' A( I; t9 `+ s9 \
但是API就不会出现这种情况,毕竟我们给钱了。- R, ?7 Y4 I2 Q0 W# Y, Z" ~
chatgpt也是这样的。8 N6 C: @" U# Y2 P H l
% f- J3 R$ E; L4 ^# m! M
/ a# j4 H( F+ \% `
|
评分
-
查看全部评分
|