|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
2 }! x$ `7 t8 y" E- f1 I: P0 M% z4 K0 n6 f
已经搞定.
9 m! e- m! V5 V; Y% W2 y6 O# N7 U' ^) f+ z
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( `) M+ |) [$ R3 |. l
, A7 o. j- n% U" h1, python + pypdf 按章节拆分小的PDF6 z- u; @+ n. `% q# V" y3 o
. \+ ^) U' @9 w
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& ~( E5 {1 `+ U6 _$ D( |
2 ]- t2 G0 {7 }
得到text file
: S4 K# {* }; C
- }' m4 w2 |$ F2 L) \! k4 ^3, python 读取整个outputfile,丢给deepseek 矫正。, z2 y% g7 I2 n& h
! {% D& K O% w. k) G. `( Q
模型是 deepseek-chat5 I/ W' j- U/ e4 V8 c# Y
5 z& |5 G+ }/ y7 G5 Y' E( a
max_tokens 最大是 8192,别的不用改。: [( t p6 R( ~' S
: Z4 u) D% b$ C4 A6 ]# _
参考:
; P- a3 J! f# `5 ~# a% \( q9 zhttps://api-docs.deepseek.com/api/create-chat-completion8 {5 w, {: M2 i% L
: s9 C/ N5 n: v0 K# g$ i' V
4,费用:! R# a5 T9 T" Y, N
w& T/ D+ A' R' w
实测:
, ?! a6 Z; ~$ g0 C# E/ v# Q, i( P( a* c& M
296K 字母,用了 9 美分。8 z/ m# I$ E9 I i2 l# o
+ f9 ~! V2 N! E+ z7 v Q3 j英文字母 到 token 用量大约 1/3) f) @6 t/ ~1 P1 x" F8 L
1 ~) l, D4 V$ u0 E$ B
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328999 ^3 Z+ z0 _( G! t. E
% \& T! X3 }' g+ N; S6 C32899 个字母花费 11782 tokens,包含输入输出的 tokens
$ w, r4 K2 p1 z- M. \- n& B: l* i
价钱,非常非常便宜了。1 `! v, T4 w/ O4 l; A/ C# e4 H
) ]3 J4 e2 N5 }; i4 D* ^
参考如下可以计算,懒得算了。
6 h x' f3 c1 i0 ]
! S6 L: w0 H) R8 h# `& D- xhttps://api-docs.deepseek.com/quick_start/pricing
& Q! u3 A- J3 d( f8 O+ z) t9 t* ]; D5 u. \: A# Z
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14. q% {) R5 p4 V0 u1 h5 k
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
! ?6 f1 I2 l6 p" \8 C: w: j ]1M TOKENS OUTPUT(5) $1.10 $2.19/ d9 k, p0 r! x9 l) A
- E1 c4 i0 }. g, l4 Y' _/ j
5, Balance
, Z" v' g2 C8 N) l2 v6 A0 ~0 S0 Q: l- I8 v( b% c
可以在程序里调用,知道每次运行结束后,balance还剩多少。
: ]9 B* b1 _0 y1 x参考:
' ~+ ?3 N- G0 d; X! |1 n: A5 ` Chttps://api-docs.deepseek.com/api/get-user-balance
. ?8 U( y4 N; P2 B/ }+ B+ a. j0 b9 ^9 E+ t+ a* D
6, Models9 k% o. m, T5 J# a
2 N# U H3 r9 k0 z6 p7 V! c5 {
目前就两个8 A# f3 b* k6 n5 z# }. f3 ]. w, D
# deepseek-chat/ B% Q! G0 H$ q
# deepseek-reasoner
) J5 R7 R1 W- m4 V. u/ u5 [. m& f2 R! J: f- V, r |/ N
参考:+ h* |& ^7 t, F; U5 I% V
https://api-docs.deepseek.com/api/list-models
3 Q, r' ^5 H1 |0 b# a% r
% i2 h, K" N! A- X3 t* q6 `' K
) h% }6 |' ?, }$ ^4 V% \! _7, 问题2 G( r9 T* h" q- i
! e/ M! H# v- f/ h5 i F% p. V. s* Jdeepseek 会将前后两段合成一段。
2 @, [1 L- a: ]3 ?特别是那种大量的对话的段落,deepseek会给你合成一大段。
1 M! i' p0 c* ~7 D
1 T/ ~ F7 m8 W; F" a, f8, 钱说了算。4 [3 `6 `# X! y8 L: [
z3 R! {/ ]/ f ^ C$ ddeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 T% [; l' u' R5 N/ M
但是API就不会出现这种情况,毕竟我们给钱了。1 X/ z( r6 M- T' j
chatgpt也是这样的。
9 O: E7 r, C& A- M k9 V
) y* M( S" Z- Q. r8 P% \+ G' T4 s o
|
评分
-
查看全部评分
|