|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
3 H# T j7 Z' I2 M' q8 Q
& h" K z* o$ z4 M7 p0 D l已经搞定.
6 f4 u, \* {' n. O) U! j" ~0 p! I+ {) J
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 V5 J7 z$ d7 d! l1 C
# S8 ?7 X- f5 T1 I( u6 p* @
1, python + pypdf 按章节拆分小的PDF
1 _6 n1 J& \* Y$ G' i5 m0 W
% `5 u% N. k8 ?3 t1 E" W2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile# l9 e" n1 \! K+ B6 C
* m2 B# Y, u; U6 ^. v2 T8 J2 c
得到text file) [1 @; r% M5 [' L7 U' r" f
, Q' d, }7 c* ^; _; ^/ P' r3 `3, python 读取整个outputfile,丢给deepseek 矫正。9 r' j6 j: H, x: V7 ~; w; c
+ W7 o* Q+ c$ Y# V2 j. Q6 T
模型是 deepseek-chat5 o+ X; N/ d4 r# d
6 |, P& i4 N6 |! o; c E- jmax_tokens 最大是 8192,别的不用改。
8 A% [1 D0 C; ?8 I }2 z) H
; p4 {1 |' y6 N/ i- g9 u* A参考:
% g4 i- F0 B- y8 T7 dhttps://api-docs.deepseek.com/api/create-chat-completion8 o8 L% ]8 ]9 E T2 Q/ z9 {4 O' H
: ]) y0 Q: {$ E+ M; l% o4,费用: n2 _1 G/ D2 G# S3 I* ?5 `. _
$ d- |4 Y' z4 w- O实测:
0 A6 E- C0 m$ H3 n1 D# O3 R; \2 d. w7 f
296K 字母,用了 9 美分。
% B4 k7 L5 {0 e/ u6 Y
! r* V6 i! @# E5 T$ }6 p英文字母 到 token 用量大约 1/3
9 ], }& l2 V3 W7 l/ g1 K) {+ @! K( a# ]+ F u8 |( |: x1 {
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
" [$ F8 }7 u! H2 I6 e6 c# I6 \0 ]
32899 个字母花费 11782 tokens,包含输入输出的 tokens
6 H+ q+ u5 i- H& W- j
/ C+ _- Z+ D" I. H+ n价钱,非常非常便宜了。
5 k6 l' J! Q) k4 D( f, W( r: f% i
" \- j4 J" B4 x, j参考如下可以计算,懒得算了。4 v, ]/ t! i1 D+ s
) C2 L6 g. z; J6 J( n( q0 mhttps://api-docs.deepseek.com/quick_start/pricing6 b% V7 F; \, E7 m8 O
2 S# T4 U; T, O+ T1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
7 I5 Y( K# }+ q2 u q% ]: f& H1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
) ?+ ]1 T. z8 L! f$ K& f1 r1M TOKENS OUTPUT(5) $1.10 $2.19
' P9 H. H, N/ o/ c2 ?: r1 H' g, W" O* x6 K. M& [
5, Balance
) f r4 D. [: U# Z8 B/ U! V: R! _, O$ b. a/ O- L) Z9 D
可以在程序里调用,知道每次运行结束后,balance还剩多少。
. ^; h, Z* w; V, K. D8 f/ i) g参考:' [0 `1 C1 z) H. ]0 x! C
https://api-docs.deepseek.com/api/get-user-balance
7 b3 f; F. N1 O: i. U0 \
2 H3 N; x. b$ ^# [6, Models
6 k& `. d; U9 ]" g! N- A0 y/ Y2 V! |0 ^6 h( B9 \6 I
目前就两个5 W3 X: V5 c+ E" a% c( D, i# l W
# deepseek-chat# @3 T! a0 u+ }) b$ @2 k6 D: v
# deepseek-reasoner+ [, ^5 u1 R: @' Y9 r- v5 F
, ~- h: ?) H' v* V参考:& D# D9 O+ w$ {9 ^# R
https://api-docs.deepseek.com/api/list-models
7 u' K6 x0 `$ F1 i+ h' W Y- c" k; [% w1 Y/ N1 x/ ~
6 P, v* {3 x8 l* K
7, 问题2 g" F. F2 p+ c9 [) U
2 ]% s' j5 _: e( [. O
deepseek 会将前后两段合成一段。
7 Z6 E7 M6 x. f) s& Y特别是那种大量的对话的段落,deepseek会给你合成一大段。* a% c9 F: C5 Y; x/ T
5 v( \# k) T6 Q G" Y+ ^+ S. Z8, 钱说了算。& C+ W! s1 Q2 @+ z4 k
& z, Y$ \: i- G7 {8 M6 Mdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
, ]9 p5 I8 f, M P+ c4 A: v9 s: N但是API就不会出现这种情况,毕竟我们给钱了。4 h! ^5 J- K2 X% t# R7 u, `' U! }. X
chatgpt也是这样的。6 s2 X2 G! ?3 q7 z- @% Q3 v
* W C3 T; ?- Y, W6 d: \2 X
" g% |; R k( e& @; k/ l" F |
评分
-
查看全部评分
|