|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 2 z9 J/ `5 v" v) x; S4 w
- A* |8 _. ]- B4 m1 i/ `; p8 s) a已经搞定.7 O2 e* G( F# F2 W, U
/ s. s) i) {+ g) i: E0 ?" o( E8 k
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。. z% i: [; }" J6 L
/ d7 B2 J- v! ^1, python + pypdf 按章节拆分小的PDF2 ~3 H3 s) M& \7 e
* n; E; H( ]' E/ j! k
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile. X: U$ p% a/ \" `7 M: l
6 b* \3 A7 l( H$ L) k: G& S8 ]得到text file6 ^# U R9 \* m% h6 e$ U
, t/ E) }! s$ o' I: J: \; `. V# D
3, python 读取整个outputfile,丢给deepseek 矫正。) {0 D- z9 o& w9 S' q" s
9 Z! z; a: F. ?$ S- c: P
模型是 deepseek-chat
2 t" i8 [* X0 i7 q! U# m7 E) i7 X& N0 x }! O5 X$ k
max_tokens 最大是 8192,别的不用改。
# ~3 x: ~/ k' `* y( p& {' |4 X# u8 {) L0 @1 {- ?, C# o
参考:& X) @. _( t! n! C8 g4 {% L- L
https://api-docs.deepseek.com/api/create-chat-completion
) V" @: x1 s1 W7 V0 P
' z' |8 O3 ]1 `) ~" z4,费用:
( ^+ ` w% E5 _$ N$ ]
* J: E. O/ x2 | b) k实测:6 h: `+ M2 o, |) U$ o7 x2 K4 J
6 F2 v* n" Q( ]' K. ]
296K 字母,用了 9 美分。
" T) i& ]4 f+ Z, A- g! x" j; w
! K4 H5 e( F% n3 u. t' a9 a英文字母 到 token 用量大约 1/3
: T, j2 J; ]' w' q E+ c* q8 O" n% d- q4 p. v
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
( T. x0 M1 F; u$ W" G9 f6 J+ i) W; n" w: J7 a: A
32899 个字母花费 11782 tokens,包含输入输出的 tokens
u- M0 e' Z0 a6 A0 L6 ], B5 T5 s( R& w# `/ m
价钱,非常非常便宜了。% s& B" n1 W" g! [, ^/ E' ^$ K6 y" r
9 f# b- f) X q4 v6 B参考如下可以计算,懒得算了。
) D" o; t) u! O! F
% [. U/ L: g1 _https://api-docs.deepseek.com/quick_start/pricing
( c1 P" ?1 X& D* W# N3 G; ^- u! K0 t7 Z* t+ m
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
% @' `8 a' T( c1M TOKENS INPUT (CACHE MISS) $0.27 $0.55% W- t1 t! m* O1 y( E# a% x
1M TOKENS OUTPUT(5) $1.10 $2.19
# A& M. e9 |$ [3 m# }4 D# p% \/ d& \* M7 U4 R, C
5, Balance
9 N/ i' v! t* f' ~
8 V3 }$ J2 ^& A+ t6 D2 A. f! U可以在程序里调用,知道每次运行结束后,balance还剩多少。
. | _& g( S- P参考:
3 ?# i) ]0 d% j' n5 C2 O0 L/ n8 V0 yhttps://api-docs.deepseek.com/api/get-user-balance
9 p2 C) v5 f) [5 K @# A1 o5 }
2 H2 ^9 A0 X, }7 r; I% k# S6, Models
+ |+ {! {+ W1 n+ V2 }5 y( ]" b$ o* y: ]. h. m9 u( O, P% Z
目前就两个
" L5 }( P% l `7 V2 z# deepseek-chat
, \% `; B& w9 O( U5 U6 Y$ c; H2 R$ M# deepseek-reasoner1 {% f) _" j' U4 h* F. H, Y
}1 s8 U2 `; s7 S
参考:
' W, k# d3 T1 Z% Uhttps://api-docs.deepseek.com/api/list-models4 l" b; b# X& y) P0 T
+ W z( ?( p g0 N5 D0 p% p, ?$ m
7, 问题
. A, t, n4 v; B6 E/ t! q5 E8 B+ G; R3 z7 E- b+ z
deepseek 会将前后两段合成一段。) p6 r/ C3 e& {
特别是那种大量的对话的段落,deepseek会给你合成一大段。
5 F: r3 l% J. n) D6 O, D9 _# Z! x0 s
* t h! H$ k8 ^, q Y3 L8, 钱说了算。; ]* b8 C, N4 C$ Y( b! G5 U7 L
$ j) |6 ~7 b$ D8 F$ a, Qdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
& J! U9 {3 R* {; ]但是API就不会出现这种情况,毕竟我们给钱了。
1 p v( h& N& m3 H9 A0 ^0 ichatgpt也是这样的。; G8 r6 X" ~- K" H; a! h- `
1 M8 p8 {6 b( B$ i% b/ l# P9 P" c( I3 A" u5 q
|
评分
-
查看全部评分
|