|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ! m) `% Q' h Y% x, y
9 n- I& F) ] z1 }1 N' o$ V: _
已经搞定.# i# w$ w, j8 U) s& D4 c4 l# o
+ ?. N! F* \ k. l
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
: n1 w- a" k9 T) m J* g8 q0 B
1, python + pypdf 按章节拆分小的PDF
: X3 n' j# `8 R) u& S% t* _" L5 M7 I5 M) _
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
3 Y c. U4 E( I6 H* t" Q
, k' F6 R7 k9 }" I1 r8 v得到text file$ c$ a K- }& W, N
; e# a1 g, f+ H9 R7 m
3, python 读取整个outputfile,丢给deepseek 矫正。
5 y. h' Z) t( p5 [5 w( i% S# J
3 G- P9 X$ m+ g/ o- }5 g1 S模型是 deepseek-chat
/ G' t' K# k: l4 b0 T9 V8 l! X3 O! s! W' B
max_tokens 最大是 8192,别的不用改。
+ ]+ e1 m$ K/ z/ ]" C% g+ ?% s6 I- [" E, E
参考:* R2 I3 s. D4 e' T& x- R
https://api-docs.deepseek.com/api/create-chat-completion
- h; A2 M, a: I- `3 ^. p; L% m' t
2 W0 m) q3 C( l& t4,费用:. _! g/ j* ^) w9 Y+ S/ _
/ ?5 J# D i: A
实测:! ?' w2 R. l" n5 W6 C! |
5 _6 F" T, y( V8 Q296K 字母,用了 9 美分。, l% }# p+ J# y7 Q/ C
& }% U3 }8 H3 U" D
英文字母 到 token 用量大约 1/3
5 ?, Y8 Z6 j4 \- w4 U
- G h$ p6 ?5 w V' D, i5 otokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899 Y9 b0 N9 n h& c6 j. v9 d6 j
* D+ n$ E0 ^9 U4 }2 |32899 个字母花费 11782 tokens,包含输入输出的 tokens
! e+ H9 \& @( }, E' n
& D6 E' O+ [1 L `价钱,非常非常便宜了。
& K) r3 q: P2 L
G& T6 U+ h! G$ }! e; Z, e) z b参考如下可以计算,懒得算了。. Y' D* B; _. j# @) F
+ a W% J' f+ e; _: j6 ]. g C9 ~' Xhttps://api-docs.deepseek.com/quick_start/pricing
& y" ?. f9 k2 s8 f
8 j3 j! [8 a% |1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14) V& @; d8 Q# m0 d# N7 \$ o& V
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
9 o% v$ |; ?3 y) n- x% H" t1M TOKENS OUTPUT(5) $1.10 $2.19
+ Y2 K1 z2 M/ m; N; v5 P. V* f1 D, e( T6 ^
5, Balance8 l0 {" p3 Q! c1 c4 U% d, K3 T* H
2 }+ O' h/ b; A* }& [
可以在程序里调用,知道每次运行结束后,balance还剩多少。
) A1 r: P0 k2 `% X9 n/ m参考:
$ `3 K7 [& T+ \0 {2 w6 thttps://api-docs.deepseek.com/api/get-user-balance# j2 @- J7 F( g
$ _* d( i* L6 K2 h6 V: c# e" T6, Models
S h. Z3 \) A. i6 }: z
) r/ _: i# A6 O9 a9 u& Z; t3 c9 I6 F目前就两个
% H& j4 q. i) G2 ]0 |# deepseek-chat5 r* M9 `( ^( M* B2 P0 {
# deepseek-reasoner
2 v; ]. d, e: r$ a8 b
5 Z% B2 R5 h5 z; f9 k; {参考:
' c8 D2 l8 d, m/ phttps://api-docs.deepseek.com/api/list-models
- A: j# U9 G8 F% I1 u
% b$ G: j! z2 O* P, q/ r3 M1 W: t7 {0 e( h, f
7, 问题0 |. l1 N+ F. X3 S' r8 \( I% S( r. t
" {; I+ q, n$ w5 W3 wdeepseek 会将前后两段合成一段。
% F# i1 n, F6 o" f. l. Z3 m特别是那种大量的对话的段落,deepseek会给你合成一大段。
8 k) ^$ ]% B8 e" }& J! k! k9 E' P6 O. o: [) j7 N
8, 钱说了算。. Y/ g) l0 W+ X, l+ ^4 A, z8 l
* J# r9 |* e8 M
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
) o# `9 G9 s8 z7 m但是API就不会出现这种情况,毕竟我们给钱了。
: C# H; q! [3 {4 x0 @chatgpt也是这样的。( X" _( K- }9 c8 k
% l' I! `, Z2 r) Z6 S6 s
! j9 G: U L; u& F7 [2 K! Q
|
评分
-
查看全部评分
|