|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
! L6 f& W- f# ^2 G& _! P
/ T4 g$ x# l0 Y1 G4 j已经搞定.) B3 d6 e# J, K2 W7 A4 v
- Y9 x) k0 f3 R( U! _& F
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 U+ m2 V- k1 B- A
9 q2 g7 i% n& b5 b5 s& i1, python + pypdf 按章节拆分小的PDF
/ n4 f! v9 n7 i H4 h
3 [! z0 C/ `( L7 R3 ^2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 V* G, l6 \# V* ~9 Y
! I2 L; W6 |* L; N% N5 ^6 X得到text file
8 a4 U) y0 S5 w# K5 m1 M( x% o2 h' u8 S6 ]7 e' k
3, python 读取整个outputfile,丢给deepseek 矫正。* }# E$ B' r% X, H, m. ]6 X! p
& w; R6 N- t" z. t9 v模型是 deepseek-chat
1 \* O( M% o# p! R$ a5 X7 ]- @
k0 c9 b# x# V8 J( @& P$ Nmax_tokens 最大是 8192,别的不用改。
) o* P1 X0 F5 n1 `9 ~1 t
6 I, w7 [# Q9 c5 J参考:
R+ n! U* ~& fhttps://api-docs.deepseek.com/api/create-chat-completion) f# m; p: L# K# z% m
0 y% S# x$ |- G' \4,费用:/ b0 i8 B; A" ?+ o9 ^! b( c; r
* Z/ F# r y( ]8 Y9 s. p( @实测:* v3 [. F- {+ O9 m N9 G& {
) X* T5 x, h' D3 ?$ y% e, {, [
296K 字母,用了 9 美分。
9 S, H1 o8 F2 T1 z, e$ ^5 S' B7 c& _8 Y& X7 v
英文字母 到 token 用量大约 1/3 r9 N8 m4 k! n* H! Q7 W' s
3 b8 H2 p" X/ F( o5 `5 \! i* `tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
( W# K! ^: x7 d( a' ?. E! H" {
' z0 J; D( P% @+ s0 t# h6 D+ V32899 个字母花费 11782 tokens,包含输入输出的 tokens' Z- H4 ?* w, _! y: d* ?
( s7 `; W/ z f价钱,非常非常便宜了。& c+ a6 l; g/ ^. \+ n3 E( O& i5 N/ t
$ j% u4 M( F0 Q; ^. d参考如下可以计算,懒得算了。& R2 A! r4 b' a) h1 G) p
9 i q4 U# ]6 E( e R
https://api-docs.deepseek.com/quick_start/pricing
" |# D% U, Z3 G& A# \7 ^/ r9 f2 }
1 H3 E! ^9 i A5 M6 W" o' Z1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
6 |4 d& W& H3 r7 Y2 a7 J1M TOKENS INPUT (CACHE MISS) $0.27 $0.557 x5 A1 F: H4 v* s) `7 L/ r+ }
1M TOKENS OUTPUT(5) $1.10 $2.193 I D# r) o3 _* ~
" T3 }6 T# ?# T+ l" Y3 @1 [% E3 {, z5, Balance
+ u g! d: ?5 t4 u! K& {
! _& {5 Z" g& T( H. u1 W可以在程序里调用,知道每次运行结束后,balance还剩多少。% ]- b$ m8 r9 }: M* [& D
参考:
. t3 x6 v' f, Ihttps://api-docs.deepseek.com/api/get-user-balance7 Q1 \: L* d. r" z+ B! o9 P5 {
7 u$ x* e q8 a0 K' y# ^
6, Models
8 e) i; R5 t1 g1 q7 M! B( M2 ^1 |- A, Q0 W2 ]' H ~
目前就两个4 U1 v$ j' Q. f8 O
# deepseek-chat
, S7 p1 H j l0 i- a" j+ I N* o# deepseek-reasoner
9 A2 V2 z, \6 F- y1 ?3 o2 Q2 w
7 J% d. T: x0 u! o参考:
. y0 ?) P; u" S9 _9 y. Xhttps://api-docs.deepseek.com/api/list-models
8 Q" z9 G7 [0 W% |( ^8 Z( d* J' c+ }+ g& N! Z: K
) H( `9 S2 E8 c/ L% X$ x
7, 问题$ Y; C/ m5 m n8 N& c0 a" F
- Z+ Q$ u9 v- H! {9 O
deepseek 会将前后两段合成一段。3 b" A; R: d% r6 U/ g! a
特别是那种大量的对话的段落,deepseek会给你合成一大段。6 e: K$ ]8 N, ?% e% ] @5 ?
' B' [' \6 _; Q. c/ _) F
8, 钱说了算。$ O$ f- j$ w5 V, _1 y# V. v
. C4 ^; D9 U: F$ \: h5 X/ B
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
' G& {) u% }. C0 R! F" @但是API就不会出现这种情况,毕竟我们给钱了。
& ?! \2 p" r6 b" X5 J) Jchatgpt也是这样的。3 ^% V- H. C: Y
$ E% R8 \% p7 q9 R a
) V. ]6 A+ \; S4 t+ A |
评分
-
查看全部评分
|