|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 # _/ D3 S- l2 u
8 X' B) e! R- B3 g; T' z已经搞定.+ I+ m9 U) s' x3 P# ?( Q
& I/ X0 ? C3 j3 z' @
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% V- ]/ V& O o# v
/ b9 ^7 d; N4 p$ V* o5 A7 c$ s0 S1, python + pypdf 按章节拆分小的PDF. k" N8 P' y" O+ U
, j D- e+ g9 Z
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
; H& J9 N" s8 }: E7 }6 i6 d( t; c* k4 k, G' U
得到text file7 P b- U7 S/ x* e- _7 M
( @1 J5 S8 z& l7 P5 |/ W& [$ C
3, python 读取整个outputfile,丢给deepseek 矫正。
) X! K, V) g, W7 A/ X3 l( r! |
# @% s( T+ i g1 }模型是 deepseek-chat7 q; ?+ m/ j' [' F7 U) d3 s
+ g4 n, w6 W& B+ w, N( t8 X4 nmax_tokens 最大是 8192,别的不用改。 A Y, t* v0 Z; G; C& m
6 d% ^6 }4 o9 e4 s参考:9 ^+ j* p4 ~" R2 _* V" s4 u% {6 N
https://api-docs.deepseek.com/api/create-chat-completion
+ g7 e+ M4 m0 k& ?
: v1 ~+ V% i* s" }3 A4,费用:
( @3 D- ~6 T5 p( L r, E; {; g) @4 K2 D; K. a0 X0 n
实测:% E( a: i+ W( l4 `/ ]5 X
, H$ P. t. L- j, ?
296K 字母,用了 9 美分。
5 l, t( d+ [7 @5 r, w
/ ^" l8 Z# r- B j7 {4 v1 K英文字母 到 token 用量大约 1/3
( p% M9 o- s2 Y' ` H6 _ [ k; g; k/ H
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328997 s" X0 k) r3 E. H" d
: e' ?' h& F9 Z
32899 个字母花费 11782 tokens,包含输入输出的 tokens; a0 e* m% P2 n K+ w0 k" w
9 `2 I# B" f0 l" ]% W* }) [. W价钱,非常非常便宜了。8 `5 C3 Z C4 |+ c( J
4 W( A- N1 S7 J8 Q b' ^( z
参考如下可以计算,懒得算了。
9 ~$ i! P& v+ h; m w: Y8 k4 v: d g% n
https://api-docs.deepseek.com/quick_start/pricing
) G* Z7 g4 m( \, X- r0 x/ G; C$ f. z G/ m5 c9 a1 ~
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.144 Q' U: K; m/ E- \
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
) j$ N G* N0 T9 O8 |* W, t8 j1M TOKENS OUTPUT(5) $1.10 $2.191 f' s) Q& Y' k0 C
W, U6 F3 J4 S3 @* V' O5, Balance+ ?9 B& o; a/ _- u9 i4 H
& Y2 ?2 R# {& P) g
可以在程序里调用,知道每次运行结束后,balance还剩多少。) [. K) d" F6 l( Z/ n
参考:
) b9 l0 q3 R4 N* V2 zhttps://api-docs.deepseek.com/api/get-user-balance g, k: ]4 ~1 p4 k7 z8 B& d) H
. V" d/ z# c/ j, `& W4 T& ?
6, Models7 v1 T/ l$ F" V/ Q. W
& C3 d" |" x/ |- L' G$ H9 ~3 y目前就两个
6 D3 `5 R* _2 M# deepseek-chat$ N( T3 a c" t5 L( d0 P
# deepseek-reasoner
7 K4 i& j* G7 Q. ~% T* f" R9 G% a8 Q
参考:
2 K _# N- b0 M9 o- Rhttps://api-docs.deepseek.com/api/list-models
$ ~. C1 |6 }0 ~; \9 P, i2 n+ N9 K1 i
, `' W5 v' h, I4 U; r7, 问题' k+ W& F' U6 b" d2 h
9 }2 }! T5 l" u4 z9 h- z
deepseek 会将前后两段合成一段。, x! u2 U d* r, D- m( B
特别是那种大量的对话的段落,deepseek会给你合成一大段。
3 f- W! }8 S& ?+ P5 W2 x: S2 T1 |1 D5 i! d
8, 钱说了算。$ J, {" O& A1 t" w% U* Z$ u7 c4 S
* g' t; P; v! }9 I# V
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
# H" G/ B9 ~6 z7 d" u( |: ^但是API就不会出现这种情况,毕竟我们给钱了。
# Y, {' J: ?' x' B; schatgpt也是这样的。$ x) a4 h: |. n. {
! z/ b* W% a' a
! r- g6 ~4 b/ [- z0 I
|
评分
-
查看全部评分
|