|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
3 m9 {) T5 i" z. J) n$ d
, E7 W& J6 g8 ]0 A已经搞定.
" d) j0 o, o/ m( {% A4 ~' c% d: Z1 E. ^7 N
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 u1 h- _* I" O4 {1 }- l- \' a- X
+ [& w K1 U! f7 t- U! o! R& |
1, python + pypdf 按章节拆分小的PDF
- x2 N, K0 G) @$ F8 Z
9 c3 y7 g- J4 ?' j$ U; f/ D2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile# K: I+ ~4 _7 \% ^+ w
7 u' U8 ]( q" @9 Q4 W; h
得到text file, Z: f# ], A0 Z
5 Q4 r3 k8 {! w! w3, python 读取整个outputfile,丢给deepseek 矫正。1 A* I( B5 L; B/ P
1 }- A ?5 c! u# X0 A
模型是 deepseek-chat$ D" F% z+ M9 S# j4 E; G1 o
) K; }3 B1 q# i3 i- e4 [4 E3 u
max_tokens 最大是 8192,别的不用改。
) G7 x5 H8 d, k4 X. y
8 X# p) \0 H; D参考:8 d0 R+ }$ p4 W* k+ D8 i j2 N* O
https://api-docs.deepseek.com/api/create-chat-completion" ?- T2 T' R3 o0 g) Y
t3 |7 ?- h6 F0 V( X0 N0 K7 z
4,费用:
7 G8 u1 q( Z0 O8 M6 f- d+ G1 u7 W ?+ K! u
实测:
& V# ^) [! E! A. D8 Y* N9 D% m3 i; I6 a# F" P5 f3 [
296K 字母,用了 9 美分。+ [/ J, R; Q2 }: K% ^% D5 c) B- K. s- Q
9 ]5 i Z! C4 A$ x( g8 K英文字母 到 token 用量大约 1/38 h. J$ V' W4 N7 ~3 ?
+ I3 x1 Z7 Z6 X/ J+ y itokens: total, 11782 completion, 3729 prompt, 8053 | s: 328998 m8 D( u. t( K2 V4 m: v, r
* n, u( _: a. l# z
32899 个字母花费 11782 tokens,包含输入输出的 tokens% }9 [. H2 k0 [* ]2 B, v
, X% i. X8 `4 i0 I+ X价钱,非常非常便宜了。
a" S/ e# r& \' {1 r
5 k- B" _3 e; M/ ^$ U. B3 U; J: h2 U参考如下可以计算,懒得算了。
% b/ a6 K/ _3 Q7 L* `" C' B7 ~5 ~( i8 ^
https://api-docs.deepseek.com/quick_start/pricing
$ H# I7 e3 y7 \$ F
9 i2 H* D4 t# }. @1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
# j4 R+ u9 U# ?2 B& Z1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
& J* v* u# {1 L+ L3 n& h4 x1M TOKENS OUTPUT(5) $1.10 $2.19% ~, v8 d& f% f v3 \
9 g k# g9 s- o! c& z; _7 ?/ Y2 G
5, Balance
' T3 T, y* r: t# z$ i* Q- Y' B- a% Q/ y- l+ H4 t
可以在程序里调用,知道每次运行结束后,balance还剩多少。7 w8 I- d9 g6 M+ A2 R( U
参考:1 t# s& T1 n) c
https://api-docs.deepseek.com/api/get-user-balance
; w! o+ O- S( ?- h' f1 |3 S
( j+ U |9 j, n) V6, Models
$ u7 x% y# L: Y$ h1 P- c- g, h3 N
目前就两个2 r' q) z1 k! U. y" d f
# deepseek-chat
& U7 w1 ]3 H( ?3 y# deepseek-reasoner P T6 g/ K% s. |! k
& O& n: f: u. W& R( k: g& S' G/ h" V
参考:2 Q e; E5 B# s T# j
https://api-docs.deepseek.com/api/list-models; c0 T5 k& X! f. ]4 C8 j3 Q# R
5 |4 M/ y7 R2 R9 o! @
( m# G# S9 K: a9 v4 D
7, 问题
' o4 k* e2 e: Q+ R# C$ i5 }+ ]' c' W: U1 V ^' l
deepseek 会将前后两段合成一段。
4 b [" M1 h8 G5 Q7 l特别是那种大量的对话的段落,deepseek会给你合成一大段。
$ H4 a/ h8 G X+ r2 b( T/ n* V9 [& o) c* ?" w m
8, 钱说了算。
5 _, R8 Q- K+ n/ K; m1 M0 Z5 F5 Y& A) g8 b8 g0 @
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
& Z9 I" X- s: _但是API就不会出现这种情况,毕竟我们给钱了。
# O$ g* U5 |* |& f: b- o0 wchatgpt也是这样的。
# u7 g: c4 B4 D% I+ Z" `
4 L: J4 M1 }) D/ U" \* @1 m* W: f# z2 h1 q- H) S
|
评分
-
查看全部评分
|