|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ' V* P0 Y. J: x+ N$ D! j
$ ^% \6 }8 O* b
已经搞定.) W) D. |0 L" n* T2 r. p' ~
5 q( a2 ?$ D: f0 W ?. ~
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
& e2 `/ J K7 [$ q5 o: u! B" x$ u4 k0 d4 O, i1 v# O" H" D
1, python + pypdf 按章节拆分小的PDF3 R- [4 l3 U/ ~8 m! |+ k1 W
% H9 L }3 w+ r! F# ^" |/ ^7 C2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
. |% H2 E4 T6 D$ z' A
0 d) f* }5 u: h得到text file- _' [# E C" {
~) m) c0 ?# T# u% H
3, python 读取整个outputfile,丢给deepseek 矫正。
5 @1 N0 ~$ i6 e6 P! f$ p1 l# f+ P* O) h! z. ?# @
模型是 deepseek-chat# O6 h/ h7 Z( k7 C0 T [$ b
* i# W% K: ?, }7 q7 ?) r, i# l. o4 t2 P
max_tokens 最大是 8192,别的不用改。
- f6 P0 Z* _) r. C( ?. C# Q' p' M9 o1 l1 y% g. b
参考:' M, Y+ p6 \; z* ~7 h5 p
https://api-docs.deepseek.com/api/create-chat-completion
4 G7 }5 g; k) h5 ^2 G
( j- M7 p# ?) Q4,费用:$ I' [# Y: g- `7 H. y
& }; R- S5 A9 D% ^6 t实测:
" o N$ o' g) M, n8 i; b: E* P* L( z S4 Y7 i
296K 字母,用了 9 美分。4 q* L, P( m3 l
1 ~" C5 V0 S; M u1 a
英文字母 到 token 用量大约 1/3% X$ T6 ^$ V$ |& X1 b
& n' ?% a3 O- W- |tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899- \* E/ `" k4 h( F Y, j* _2 X) G
8 @3 x' R/ I( t3 G a
32899 个字母花费 11782 tokens,包含输入输出的 tokens p1 S( Q0 I1 [% ~) y8 N
( o" ~8 B2 F% r2 w$ o
价钱,非常非常便宜了。: J+ L) \* X, x7 ]
, W3 h! ]8 z7 V8 M/ J, `/ u5 x* L
参考如下可以计算,懒得算了。1 \, c! k0 Z- u2 k
6 O) u7 y; ?! a8 [- k
https://api-docs.deepseek.com/quick_start/pricing7 G- R7 J' _+ P0 \' d
5 R0 H) q) m; j4 ]( l! ]& Z
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.144 T; z$ |* |! y4 K
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55! ^" y6 Q6 _5 q
1M TOKENS OUTPUT(5) $1.10 $2.197 \/ d- O% o) {: i1 J7 y2 T
) \ \8 V9 f$ g3 L
5, Balance. H1 ?" `+ l- B( Y6 {
4 Q' ~ c5 M& v9 r可以在程序里调用,知道每次运行结束后,balance还剩多少。
9 l4 V' q5 i& N! \) b& U3 y参考:. \# A; M/ p, t( t6 G, F
https://api-docs.deepseek.com/api/get-user-balance
* ~8 z; ~% u' a, v8 f( b
/ A J. B0 p1 w6, Models
* ^8 Z. l# A; w) r" R1 N" t6 [: k5 q( ]$ \* h$ I% V2 W) n
目前就两个
2 C. i9 n- W8 k% K' j6 X# deepseek-chat
% k' r0 [% g9 _- M# deepseek-reasoner: t2 x+ A$ D, O* k( Q
3 q+ v9 q/ o4 i! U6 e
参考:
2 Q' o" o# C. c. ^https://api-docs.deepseek.com/api/list-models& Y/ n: i6 H$ n7 p8 p
4 ]. |, K/ A' w$ O6 H3 [9 ?
4 C* d5 Y5 c4 m/ m4 G2 F7 f
7, 问题; U; Q) |9 h) f1 ]* s# d: z
) t' u4 Y& K, V1 }6 o& n2 X1 Y; O
deepseek 会将前后两段合成一段。
; s$ q8 @+ `5 g9 {) }! v特别是那种大量的对话的段落,deepseek会给你合成一大段。
: i1 K; J2 b% h4 g) d d) j. M" X. Y
8, 钱说了算。2 o7 S5 v$ r( } E$ d
6 [9 p% p+ u9 y9 s& V7 g, m
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) }- j5 @7 n- l! n
但是API就不会出现这种情况,毕竟我们给钱了。
, K+ W6 r* I, Bchatgpt也是这样的。7 P) i* A2 G7 v% F- V
1 u: k% [4 e9 } y4 O9 ?# m6 l p! _! w
|
评分
-
查看全部评分
|