|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
( z; k) @: K" T# F( w2 ?1 S
" V9 T/ W d$ Q0 y/ D. Q已经搞定.
$ w" d0 Y0 S1 O$ P6 \3 j
8 U0 E; i5 L- |% G首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& v- e# H* c7 o: p* w. k6 ~5 |! U
( i M3 l$ M% o* I/ F3 j- R1, python + pypdf 按章节拆分小的PDF$ i& i& \) ]6 h8 Y
0 Z* q9 }# W! }% l# }7 w- }2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
1 c8 H4 t: e) a# A5 l
' o n$ I. Y) l$ b得到text file z! B5 [# y# p, ^( h1 d0 D
3 g" H1 L+ O3 e- a
3, python 读取整个outputfile,丢给deepseek 矫正。( X; \. ~/ l5 S' x
1 p6 A8 b; ]/ ]3 b* m8 y
模型是 deepseek-chat
* t: T6 s/ C) I* E, n% Q8 _ e! u/ l0 |9 d
max_tokens 最大是 8192,别的不用改。! P, t9 @, s9 {
; F- x. W I4 [) b参考:
: |# W, K/ C" Z5 [- f8 r0 |5 }https://api-docs.deepseek.com/api/create-chat-completion- s4 Y7 {2 I/ L
0 Z" l4 f0 S( b" [
4,费用:$ w2 b" k. w5 p
5 M( r+ M% u' f0 Z, y* e
实测: V0 M$ s8 A0 Z4 B: w+ f
: y5 ?* u% r( d+ T: k! i4 b296K 字母,用了 9 美分。( K6 x9 k, m' U; X
6 G1 f0 Q$ @$ V1 B英文字母 到 token 用量大约 1/37 p! ~& i' i* s+ R: d# K& J2 A
- |# y4 B6 I3 {' a o3 utokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
9 E0 ]: i: x3 u/ C5 T: Q" [( r% m+ s* ?9 _2 b$ ]" [; D' G, u8 b$ l; h
32899 个字母花费 11782 tokens,包含输入输出的 tokens
0 C0 t5 {; b1 W% ] d
7 ~, S9 J& b4 k0 m8 X6 n6 x价钱,非常非常便宜了。
. m8 n+ b4 n$ S0 A! `- A$ Z6 o" @3 @! r: {( z- k7 L
参考如下可以计算,懒得算了。
$ h' c" E- B8 l# H0 ?5 F! g2 g
3 t' l, \" y; f5 k4 {https://api-docs.deepseek.com/quick_start/pricing
. q% t8 M6 F; E" l1 d
3 a! p& u8 k8 i" M, T1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14+ d1 x; D1 z5 M5 L& h( s/ _
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55/ a$ a) {; h1 {7 f1 N }
1M TOKENS OUTPUT(5) $1.10 $2.19) J- S' V+ l7 h7 ]- o# J9 V
! m2 ?& n: R7 G
5, Balance
: g) _- S, D9 L. G" M* b; B9 U- `4 D" [8 c' w
可以在程序里调用,知道每次运行结束后,balance还剩多少。( C( }& B1 L5 ^0 C4 ~# `6 Z" K' l
参考:$ R, c6 T8 r& y, _8 F5 p0 R
https://api-docs.deepseek.com/api/get-user-balance
2 V; D& K& X3 o6 _# H5 |: R5 Y# [- C* y. C
6, Models
, i2 J; F( X/ G2 l. }" X% R' D& Z) o+ C- E3 C
目前就两个
) g& _/ z! ~% a; U) Y0 k S# deepseek-chat
2 i, Z0 x5 {3 r: e* l' r# deepseek-reasoner' F% B3 T6 O% ?" I" [/ ]
; b3 K& [3 v! |) _7 X3 ], n参考:; c% Z4 B) l2 \* b5 p( i. `: _; \
https://api-docs.deepseek.com/api/list-models
: c5 ^! }% ]: j! k
0 X: ? K$ _' H, L
# O" O/ G; W! Z/ e7, 问题- t% e3 m7 L9 h6 W! }& C0 I' v
$ e- V) F/ Z5 Mdeepseek 会将前后两段合成一段。7 L# L6 b4 S/ `7 ]
特别是那种大量的对话的段落,deepseek会给你合成一大段。8 Z5 n5 \# r J4 y
7 {2 Q! n1 R* [8, 钱说了算。
) r# g, R* L8 v, q
) t1 c& b& v. o0 [deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 y$ b# g0 f, G. C+ g
但是API就不会出现这种情况,毕竟我们给钱了。( R4 I+ G/ B+ i% o: G
chatgpt也是这样的。- B2 R1 y7 U3 V0 z, X7 h* O2 x
' L6 ]: \' a: {$ Y3 X
9 z* B K* E) R0 c+ P) i: t |
评分
-
查看全部评分
|