|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 3 I! B; I/ I: ~5 C8 ^" _( P8 t! C! O
7 D2 @; W8 w: M9 K# H7 K# k) v( v
已经搞定.
; Y% @2 I3 W! n, C! }
" J$ d0 i" y0 k* d0 t1 {9 p" i首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
& m/ M) C( z9 [8 Q$ |$ X
# z" r" \1 i* d; f2 d7 b G1, python + pypdf 按章节拆分小的PDF. @, ^+ k$ Y# [8 ^8 \; p
5 |5 n2 n$ z1 S& P5 t
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
. Q M) ~* @5 z& D( h2 F+ E2 a$ p! v7 H
得到text file
, q1 e& o. b2 u; M6 }6 ]; J
. I' |) {7 E2 x% x M( [3, python 读取整个outputfile,丢给deepseek 矫正。8 y) Z' ^ S6 p& s' Q
3 _& K _9 E9 s; ?8 Q
模型是 deepseek-chat
1 y$ J5 k- D! P+ Z/ a. D7 e4 e7 `$ g L: k: R
max_tokens 最大是 8192,别的不用改。- ^) `5 Z" B$ t9 Z$ M1 A5 l
9 [! J. a) A# t; y. d参考:
# |9 m | N1 p( dhttps://api-docs.deepseek.com/api/create-chat-completion
1 \/ T9 Z! ]) Q) s- `. b) I2 t8 _# ]8 t
4,费用:
% h& G4 N& p( d3 C% E. _3 _* ?6 I3 S; I6 i7 R( b$ \ G
实测:
; l) Z q) ?- S$ _% p
) z5 y( a4 ?' e1 R, v( |296K 字母,用了 9 美分。5 o/ r4 R& ?( U6 ]
k: m7 \- G3 R& Q/ x/ u* D
英文字母 到 token 用量大约 1/3+ G, X) V' j1 M h% O3 K
1 G4 V9 X' z5 C% ^0 ptokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
4 p) p9 d- q; b- n$ L1 }
) @+ A O) _1 l! B32899 个字母花费 11782 tokens,包含输入输出的 tokens
( i* w8 }; |6 a4 Z
7 p: a$ G4 x# w( J" G, E价钱,非常非常便宜了。' v/ I% i2 \/ u' F4 o+ G5 t$ B, v
9 U* [8 u" C% [# q
参考如下可以计算,懒得算了。
% |; B. G0 d" C7 d. {0 J6 ^ y9 I$ n
https://api-docs.deepseek.com/quick_start/pricing. r- r* E( V# f' [( Y/ G$ [8 A: p
) u; S- x2 T9 Y2 t: b! E1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
8 O/ n8 V, f2 p* c# I1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
2 }) [7 U/ }7 ?4 G6 p6 K4 F [' H x+ E1M TOKENS OUTPUT(5) $1.10 $2.198 W: {% n+ m. F" J X% s
6 Z0 S2 u; d, c: }- _
5, Balance
; s% \; e6 p3 f! z6 f; ]# T3 h+ e/ L: P. a0 K0 ^
可以在程序里调用,知道每次运行结束后,balance还剩多少。
% o, U E0 }; k/ L参考:3 B" u/ p3 W1 L- n5 c
https://api-docs.deepseek.com/api/get-user-balance
* [) i5 H/ T: x* \1 o S9 D
! u; v3 c5 E7 j- w$ l2 j1 \6, Models' Q. ^ |1 I- g3 ^9 {; t$ w; g
/ N) Y+ Q h0 d; _目前就两个
+ _8 _# H% k( i' U# deepseek-chat7 q; o. C2 k4 b& r5 ]6 e
# deepseek-reasoner" l6 L0 L; F8 r/ z
+ L- z, H6 ^3 t f* a/ A& I7 w参考:8 e4 Z) Z$ g: P
https://api-docs.deepseek.com/api/list-models/ \% e- R4 Q, Z
, K1 |8 a" H6 r) {* D T% O- k# t: Y' d& I
7, 问题5 D% N0 j) B9 {
0 Y! Y, |0 r ]6 ^! Z) j6 Y
deepseek 会将前后两段合成一段。
5 x* _ F. J" G" i7 a3 u) X特别是那种大量的对话的段落,deepseek会给你合成一大段。
) u/ r- C' w, m% T ^' s! B
3 a8 ~, W" ~, }; M8 R8, 钱说了算。. w* g. X; E$ O& {# z; y/ v
: z) _6 M, c9 s9 u$ C H6 p* T
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
9 V- [4 k9 o/ \% \# M但是API就不会出现这种情况,毕竟我们给钱了。
6 a7 V4 s* I1 Achatgpt也是这样的。5 Y7 A) b- M) J# Q
" L( g4 s( h; p9 e4 k1 d+ ~
$ j- O3 e6 k% B+ M$ J( a |
评分
-
查看全部评分
|