|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 & s9 g# I4 c3 @" N/ Y8 V C$ b
; ` T; d' I8 W o' r. G已经搞定.
$ }5 u! \ L. l/ ~
2 c; \% j+ @" j首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
. `% T6 ?; H) V' q3 j8 S; M. L
5 f7 U. J' ~, {( J! j( h9 J* u1, python + pypdf 按章节拆分小的PDF! f" R5 a1 ]3 U+ y0 Q% c0 S7 E& @! ]
" w: h, b; s6 I9 Q `
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
% r2 r' t8 h; ]( E; N/ [& w% X% a2 a7 {* T0 X+ \* d3 P
得到text file
+ a% L, S) ]+ a" n! A7 ^+ ^' M9 Z9 X% _2 G
3, python 读取整个outputfile,丢给deepseek 矫正。
7 f5 ]+ y Z! [: c8 Q8 y! s" o7 Z
1 k7 O+ {0 Z4 I/ f9 D' X( v' o模型是 deepseek-chat
* u/ W5 _8 D: G, V) E4 d U9 B- G4 ^: Q8 v: ?9 {1 v
max_tokens 最大是 8192,别的不用改。
$ o# \7 B! e" I3 e6 F% k
9 o) c u, H) c参考:
( j% `2 {/ P. I2 k2 }https://api-docs.deepseek.com/api/create-chat-completion
9 l/ y8 l: F2 g4 D1 Y
o; W6 R9 K$ z! _6 [+ I/ O4,费用:
3 u0 ^8 f& b# L
: n1 ]# n$ H& `0 `3 b+ `" N( ^实测:
* f0 {# j0 A1 Y1 j; G$ {& s& L$ O$ ?
296K 字母,用了 9 美分。
3 c1 @9 @5 q* f) @& ?% X& G l8 A4 g, Q9 Y+ J* X
英文字母 到 token 用量大约 1/3/ B& v% Y7 ]0 B* Z7 N/ [% Q0 e
9 a$ J3 w3 \& o9 D Z1 M q% n; wtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
; B8 C1 V3 ]8 N7 ^* m) Z _+ {/ B2 L7 s& J$ n7 t
32899 个字母花费 11782 tokens,包含输入输出的 tokens8 \5 H% @% k( m) e8 s
9 X k8 s, d5 _9 h
价钱,非常非常便宜了。5 N1 U- G" W# W3 M0 E( n! A
# P' `9 B' G0 Z1 ?
参考如下可以计算,懒得算了。
/ T; m# l+ `, S0 \- F9 j+ I+ r* c7 {2 c; ?
https://api-docs.deepseek.com/quick_start/pricing0 l$ l6 e9 W) d) \
) o! `2 o5 H) o1 f" `/ ^5 E, \0 P; g1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
; A5 J8 v7 O) ?# o2 k- _& V1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
2 d: l3 B- j( a0 d- r) z5 |1M TOKENS OUTPUT(5) $1.10 $2.193 _/ F$ v$ @ \6 p5 ^% ]
8 Q# N/ X1 z# C4 `. E o* K
5, Balance/ m F( P$ C* L. \+ G# W3 |, H
4 }) m; m# `$ @% L' Z' Z
可以在程序里调用,知道每次运行结束后,balance还剩多少。$ ^/ \% ?3 K4 Y4 i) g
参考:
; s+ K% N) s, ~6 R" whttps://api-docs.deepseek.com/api/get-user-balance
: w! ?6 b/ Z9 G
/ {- V. ^) ^& x6 Y' R+ H2 e$ Q. P% T6, Models
0 F4 @+ v) h5 l# z- m/ I" K3 c
4 V+ E; R# Z) c0 U! }' L目前就两个
6 e6 a; b2 E0 {7 Z/ c" f: X4 b# deepseek-chat
) Q$ N4 D: p& J& u- a# deepseek-reasoner6 V" s& w$ l" n5 I, Y. F
: B: b: @( a4 |$ O8 x5 f" @: k4 I
参考:
3 ?! F, R: \! c' }7 Lhttps://api-docs.deepseek.com/api/list-models
2 Q! d( f/ U) ?! h+ S2 z, O, |; |4 b" [/ n$ `/ e+ m
: @1 e1 s7 f0 E5 x0 a+ h) @
7, 问题2 ?4 m* C, k0 \1 \" h
1 m6 @" B6 O( A2 b
deepseek 会将前后两段合成一段。- \% C& a, Q, a3 J
特别是那种大量的对话的段落,deepseek会给你合成一大段。: {$ X+ w6 a% p8 P& E' D
) z/ S$ W; k7 b6 g" b8, 钱说了算。- Q7 G d0 s R* a$ Z5 S
# I! h& ~! O1 e2 jdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
6 ]) W& f/ c+ y/ G但是API就不会出现这种情况,毕竟我们给钱了。( i) ?# \1 ^$ i
chatgpt也是这样的。/ Z$ P0 u; W5 R: b4 G" l5 t
/ C+ ~# \1 \9 S/ W# E: j0 F' |! ?2 u, Q1 r! S; e
|
评分
-
查看全部评分
|