|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
6 c3 H2 f' g$ h1 w% f. c# F, O! R2 Y4 l6 W* @3 e- P
已经搞定.! ?( N- B; [5 p7 U4 W" Q
9 z+ |8 w( C% ^+ r7 m- L! A ?
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
4 ^, p6 d9 T1 A2 X5 I
$ Q, _8 i( T: c2 K! V! a0 F; Y. X6 p1, python + pypdf 按章节拆分小的PDF
' K' F: ~ W) G/ q! u1 Q) C" U& X
! j1 C, s* Z, @1 x) z# P2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 ^4 O9 j. l4 [# N0 d S* v
% r9 B* E7 E) x# m6 Q
得到text file
$ {0 C, O2 W3 s- u/ |5 r) O( l3 ~! o# m& d# b$ i
3, python 读取整个outputfile,丢给deepseek 矫正。/ K- B( H9 J9 G$ i. p' J; ^% D
4 B+ s8 d( {, a& t. m) v模型是 deepseek-chat9 a8 c: e+ l" V& M! x
% U, d' m4 G( G
max_tokens 最大是 8192,别的不用改。
' W: Y! J8 C6 q( N1 [3 {6 W ~4 G9 a: n. y8 e: [
参考:
- ^1 P% z a0 w0 f" L5 p, u" ehttps://api-docs.deepseek.com/api/create-chat-completion& r6 F1 t: p; {) T7 H
! f/ `, x, I( m4 N# k7 R8 u# b+ `
4,费用:$ ?/ j( n" T" q$ X8 {
$ r; l7 z) \! S, f" D* n" f: B
实测:$ x" A2 |' q8 b9 k/ i; Z
: s3 T2 F2 r, m
296K 字母,用了 9 美分。
( ]1 U6 a) O) i p* a1 n0 N2 U0 X/ M) |0 V, V ~" m3 _
英文字母 到 token 用量大约 1/3
; f) i6 B+ c9 Y0 d* P, e2 v/ ~. m0 p" i9 Q
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328991 ]6 ^( y8 _' F+ R& h
6 I, K7 h( L6 N2 K+ j& `
32899 个字母花费 11782 tokens,包含输入输出的 tokens1 K3 F- h+ h6 U x8 y) o, u8 p
# a3 y; C+ o4 s8 c) W价钱,非常非常便宜了。
" [* h# n) O: m" @/ m; }& ?9 e; h9 K0 Q9 D: U! I
参考如下可以计算,懒得算了。1 ~ b9 d$ w n
8 m9 O+ x' j7 a4 Uhttps://api-docs.deepseek.com/quick_start/pricing
3 ^7 \8 E: W# |" x# i6 g$ ^/ Y; U, l6 K x& X' r4 S2 n
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
' U1 M, k& L: l1M TOKENS INPUT (CACHE MISS) $0.27 $0.55( o# e3 Y5 `8 Z4 |
1M TOKENS OUTPUT(5) $1.10 $2.19" C- X2 C/ z: }. l; f
0 A6 r+ b& \2 z6 Q4 k7 G0 X" Q" ~5, Balance
3 F( U; _) V' I* _
0 U2 H" `+ B P* Y可以在程序里调用,知道每次运行结束后,balance还剩多少。( }: ]: i& o! Y, s0 d, l
参考:
1 p5 o! {& S& J: l" C) k! G' t! zhttps://api-docs.deepseek.com/api/get-user-balance
2 m0 n' |( K8 J8 x" v
3 J* W$ B+ e8 i' _8 h; v7 D0 l6, Models+ B( m8 R) z* z5 n8 o
5 O h% T/ E. h1 H; t: C q目前就两个
- U0 x4 _4 @/ X1 {# deepseek-chat, B/ S$ m" ^. t5 T
# deepseek-reasoner( w: F" v J9 l3 n, e
, J$ e5 O( W, E! C. K
参考:
$ V# h- k0 G+ B4 y# lhttps://api-docs.deepseek.com/api/list-models
# K) q9 b( w8 p w; S& u: `" c( e; y) k$ ^7 z6 \$ @. T: u$ k7 L/ f. s
4 K& {- Q* `" W4 B3 t$ v- I4 W. a
7, 问题
- [8 N$ ?8 g o+ o& K. S' Z9 h5 x) t' }3 S! v- i! E
deepseek 会将前后两段合成一段。1 R( g& y+ i/ t2 k
特别是那种大量的对话的段落,deepseek会给你合成一大段。7 M9 _+ G5 q/ F/ R
8 w4 K6 j! C' b- `! w
8, 钱说了算。" _: y( G' E7 T2 V- K
& ~+ O- [- ~5 R2 j/ O: B) k( G& N
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
9 U5 X6 \- v5 f5 B1 Q但是API就不会出现这种情况,毕竟我们给钱了。
# h( \2 U8 D3 U8 C" S V3 Mchatgpt也是这样的。
9 I' \) q/ \# A. o+ u( _ k/ Z/ n5 e7 D; b- U
8 ~- o5 p/ d2 O% Z0 Z
|
评分
-
查看全部评分
|