|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 & p j! t* K5 m2 ^9 O: N
6 u/ V$ A) ~2 I1 N已经搞定./ f% T" K3 ~) l
7 L0 x# {4 y3 q F
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% Z5 G: T# o) i _6 e s1 d9 ?+ n
1 F" K+ x# a% o( S
1, python + pypdf 按章节拆分小的PDF
: V2 J/ o6 `6 s7 i T
) n2 P" H" L! }: P8 T! R2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile _: E5 A8 ~* {( ^- o1 o0 R+ w
2 Y6 f, Q! ?7 [3 f" {% c, D
得到text file& C4 L) u% q( W: \: k% d
" U2 a/ ]& _& C- C @3, python 读取整个outputfile,丢给deepseek 矫正。
3 d: V# D: l/ g" X7 {! W! ^. S
2 S6 ^: R" G+ x, Q+ K模型是 deepseek-chat
5 F% {% n& V4 r0 k4 v) [) U. ~5 a9 Q( W7 E( Y; ?
max_tokens 最大是 8192,别的不用改。 Y4 C& B6 J" D
2 ?2 I1 ?- ^4 |! O9 q. ?
参考:( ? d# u0 {1 F7 `9 ]; l& j
https://api-docs.deepseek.com/api/create-chat-completion
4 s4 o1 m7 ]5 B4 f, c0 D- Y4 ^( N8 f. M1 C4 A8 }9 [
4,费用:5 g+ a1 [$ ?) Y) O! X4 P# Z" P
w6 C$ q7 |8 T) B' J; k* ~实测:
2 z2 S6 i) @. h
) J) j9 s% I* p, N2 |4 ]296K 字母,用了 9 美分。2 c; k2 \, _7 P. H
2 y2 L+ P, r! F( u$ A6 }
英文字母 到 token 用量大约 1/3, U% H$ ^- G. e! w: `" N6 U, R/ G
) X ~- }0 G: U0 _. E( M
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328997 n& u8 R3 U" N6 _% `
7 }0 t) y" v2 I2 u32899 个字母花费 11782 tokens,包含输入输出的 tokens
9 ?' D9 a8 L8 V0 M( g' @3 y1 R: _6 Z$ t* D) o4 k- h! D( X5 v
价钱,非常非常便宜了。
, }7 ?+ f/ ~2 O* T$ s8 {( ^6 S e1 {/ ]5 u Y
参考如下可以计算,懒得算了。4 z8 |% K( x. t4 B$ q4 l2 X
& B D; W8 e" t
https://api-docs.deepseek.com/quick_start/pricing
$ s# Y; r2 x+ L2 k( N7 A. i: V# j
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14" b1 i7 J7 ?$ a8 F9 G4 k
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55; h) y$ {' g5 X4 y+ H/ b0 U/ N" s
1M TOKENS OUTPUT(5) $1.10 $2.19 j3 B( H; g( Q4 l1 e |
" ^$ f& _! |( ?5, Balance6 ?8 C4 g4 i* Y- T, |" Q
% ^# l5 w( N, P4 g可以在程序里调用,知道每次运行结束后,balance还剩多少。
/ [8 Q9 v- S% o# k& N参考:
3 N+ y ?0 n) U. Y0 Z/ ehttps://api-docs.deepseek.com/api/get-user-balance: j* I: p" ^5 G U: R1 P7 o
9 n1 o {+ M) d: R
6, Models
/ L- e( Q" Z% d* H& x" H% L0 r
! }3 ^3 ]& Z9 i# J目前就两个5 C2 j3 y& `" M, R+ L
# deepseek-chat
; t! G! g5 U& l# z2 u: A& F# z0 y# deepseek-reasoner
, C! U& ]$ Q# s3 O9 Z& H) i2 m+ j2 w
参考:5 @5 ?" M, w, M" g' m. P
https://api-docs.deepseek.com/api/list-models
' V7 o# t4 p# h4 I' n( t$ v* Z
2 m Y w: X3 {& C# b, w6 c6 u1 s: T7 r4 S J
7, 问题9 Z( T3 Z0 |) F
( p$ ~ Z6 ~3 I& o' V9 ~
deepseek 会将前后两段合成一段。
, k3 |6 s0 }+ ~# o特别是那种大量的对话的段落,deepseek会给你合成一大段。1 h' d* g* f! {( N" `! B: P8 D- u
2 y6 N2 d- j& |- C4 I8, 钱说了算。9 y2 w) d! s# v H) i% m
0 j! M/ }2 ?! o0 L) C/ _7 p2 _deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 z; B' j1 y; @- J* P* K但是API就不会出现这种情况,毕竟我们给钱了。- v/ P$ ~: f. c7 H" J' K4 y [
chatgpt也是这样的。
$ Z$ R1 C! T5 m, W" D2 I
( L# V2 z, W7 x. q. }# n3 ], u8 T# M" C2 [
|
评分
-
查看全部评分
|