|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
5 C7 a) K; }. n- F I# i' j8 P! T) A6 l8 Y# t& J5 g" P
已经搞定.
5 S" U/ ^ M4 H9 y0 r, g3 P' r/ n* X" p, s1 v
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。8 Y; ^7 i3 l$ v! t; U8 X
% s( |, ~, N: S1, python + pypdf 按章节拆分小的PDF
/ }$ O. j' l$ Y
. O2 y( ]/ h S! G3 a) d. r. J2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
6 t2 T* y4 N) v4 i9 [4 p M0 J9 b) v9 Q0 W
得到text file' e! E* e7 j& o" v# s
) O0 E4 X# o: @' `/ a+ g2 }
3, python 读取整个outputfile,丢给deepseek 矫正。; Y) k5 L' h; W8 y8 }1 j; P
( I8 n- W( k1 y& f# g, v模型是 deepseek-chat" F* g y6 l* s4 n l( ]4 B
+ s0 {5 q( n' v% g4 _5 d9 u
max_tokens 最大是 8192,别的不用改。4 l) A& n8 e! z2 n
0 q" i! i8 Y) \. x/ A# R
参考:! m2 J$ s6 [: H& ^/ i2 ?4 E- U
https://api-docs.deepseek.com/api/create-chat-completion: X3 `4 |4 f6 p2 j& G; \, A
' Q" W7 p$ z G0 r0 U7 f! X
4,费用:6 S' y# P+ h) I4 T# \: J" S2 [' T5 u; g
( ]' G7 i3 P2 M. }5 [% Z4 z7 l
实测:2 w$ h( P+ s: ]6 A
6 S5 O5 x6 ~ `/ d8 n. L8 N' R
296K 字母,用了 9 美分。
4 o" `# Z5 s( G
: V' ? o$ [1 k7 d7 p6 {英文字母 到 token 用量大约 1/31 D, U) O2 o1 x( ?( s! L, J
" w( g5 _( f- U+ r; }3 P
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
' \. g# J! P( Z. c: v8 l2 Z8 |; W h$ O# z# e
32899 个字母花费 11782 tokens,包含输入输出的 tokens0 H& }$ S! I7 f9 @, ~8 u" ~) w
1 H8 R* g9 A4 p* E- H价钱,非常非常便宜了。
9 [ `8 G( S/ w1 I: j2 }! L; ^! ~ d. s8 l. g
参考如下可以计算,懒得算了。 q1 H9 U. j6 [# _* z+ P
' I1 g+ S- Y, N2 D8 yhttps://api-docs.deepseek.com/quick_start/pricing
2 a/ v: P( J$ g0 O
8 t( { A, C7 e5 D' |. h( B1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14' H, |" v# k+ T6 l( f
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
n+ F% a7 H! W' v S1M TOKENS OUTPUT(5) $1.10 $2.196 C8 T) s' D/ ~( Z6 y0 _
& u$ ^/ l" X6 r2 N4 e# `5, Balance
9 Y W4 l7 b9 C# Q i& b' g
6 c; f+ l; V: r) B9 C可以在程序里调用,知道每次运行结束后,balance还剩多少。$ S. T* ~$ h% X- v! W, @
参考:" Q7 ~; ?/ x% Q1 l. |. {9 X
https://api-docs.deepseek.com/api/get-user-balance$ W- r' }: c+ k }- x$ F: z
* m/ S* {+ |0 w* R6 \ [, ~. E6, Models
( s5 \$ J+ l! \0 t% u; m9 \7 ^) B( a' E. d+ ~& A$ q8 m
目前就两个- z: l2 C6 y1 ~# z) [
# deepseek-chat
0 D) X# O' U8 ~3 V/ Q# deepseek-reasoner
7 b! e, N7 Y! |
! o, S* g9 N4 S0 K& f* `7 I参考:) }9 z3 t! u$ v; |0 V
https://api-docs.deepseek.com/api/list-models- ]. g! ], r3 ~, m
: U) w* F) D8 v1 |& g
+ r( s$ S' H7 J. s. R) x7, 问题
% l3 @. _+ u' i; n. `5 P7 ]: b
4 R) K7 Y; W% j6 l3 G6 [deepseek 会将前后两段合成一段。
- N- J3 `# ?2 B+ y特别是那种大量的对话的段落,deepseek会给你合成一大段。
7 k1 P' [- O% p; ~. ^/ C- o1 k
; |/ s$ I# T& t" N u: q8, 钱说了算。' @7 C" [9 n7 K# l0 ^
; c# F+ Z) y/ ^ I1 H& Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。 y( Y$ Z& M; H8 i! l4 m
但是API就不会出现这种情况,毕竟我们给钱了。
. }( m3 J4 l: z( u7 uchatgpt也是这样的。
. c: ~5 t- k6 s$ F% ?+ R1 D
# O- E3 z" J; w$ o/ V3 v3 }6 D
1 W: f0 k! j% `! u( O |
评分
-
查看全部评分
|