|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 + j: V4 {" j0 l$ t# l
8 r5 W! P% }! X已经搞定.: c' g+ a" ]; |1 W7 a) \( I& L
0 M& J% P( y/ E% H# j* K0 v( p, I2 |
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
. ^5 g5 B. U! f! u) A* {8 U: q: ?2 j+ y
1, python + pypdf 按章节拆分小的PDF
4 |; a+ l* e, X
& B: E) |: _6 X# ^* d. i7 ?2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile1 q7 T$ b8 S" |5 `
% ~3 c0 v8 o/ M: A7 G0 H得到text file G! z: V# Z1 a* V. [
: k& T8 T, |: x1 K3 E) c3, python 读取整个outputfile,丢给deepseek 矫正。
. D$ e; y& U% D% z$ k
0 M' Q5 Q' q% A. L. D模型是 deepseek-chat
6 g5 }9 m. { ~* h6 _" X+ T7 m q3 y; M7 m7 }( @. W% }: c
max_tokens 最大是 8192,别的不用改。- o. J2 D' {& Z* u+ b8 [
4 H* o9 `/ } ^' i0 ?6 b! {$ [参考:
8 n3 j& }. U. {https://api-docs.deepseek.com/api/create-chat-completion2 N9 A1 X6 U$ r x' j3 k" j6 E
% z* D7 d2 y3 F) x9 a3 G
4,费用:% v; o- C4 Z4 E( e2 b( \
( l c3 L; r _, z }
实测:1 A2 j$ g. o6 {. u
) [0 o' M2 C* p8 L5 N" r
296K 字母,用了 9 美分。" d7 `# M1 @- u5 r
9 F1 v( I; E( n. d! o) e1 o/ r
英文字母 到 token 用量大约 1/3+ J* f. S7 L8 K' s1 R2 T9 T
! g" _* V- q/ x2 L+ S; Y
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899' g3 i3 a; c6 d
8 V& T. |7 s' ]' a V$ Y32899 个字母花费 11782 tokens,包含输入输出的 tokens
7 `9 D% [' ]7 b
; e" n" E5 x# n- v H# M) M3 Y/ T价钱,非常非常便宜了。
) e" L; B4 y8 J; C4 h; A: I4 i+ m$ ^. p' Y
参考如下可以计算,懒得算了。
: L* h( e8 ^1 Q! z( w
* Y2 Z1 n* h9 U8 Z4 k1 Q9 |( Y5 ]( Uhttps://api-docs.deepseek.com/quick_start/pricing
! B0 w& B$ Z3 c4 \* x/ C! J) T2 H1 _2 |1 k
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14# P3 q% l5 U& T/ m
1M TOKENS INPUT (CACHE MISS) $0.27 $0.556 w. O5 I5 j' c9 }
1M TOKENS OUTPUT(5) $1.10 $2.19) O& d, [" T+ H$ a; k9 E. P, V4 H
2 j! Y7 t; X( c" X) s
5, Balance
$ w1 f# f& h* N& i0 J. s
4 W/ s2 o" W" K G可以在程序里调用,知道每次运行结束后,balance还剩多少。9 z/ _! r# k l5 b! }( l
参考:3 J* X5 D9 H7 U% {% G8 o
https://api-docs.deepseek.com/api/get-user-balance7 f+ @* K7 T# P' M( E& ~# L
8 |. K2 U6 w9 _: E
6, Models
/ P# e/ a! t1 ~# z
% n* Z6 K! U6 K& w0 g* H4 p o目前就两个
+ _ G8 u( g! Z# deepseek-chat3 b \: i4 ^1 a C6 V$ ]( F
# deepseek-reasoner) x- p- o. \9 C7 o7 K
7 M* q5 t7 \* h: I参考:6 @* p" q8 F6 {; y. \" K
https://api-docs.deepseek.com/api/list-models; T) d0 n8 b6 R2 P
2 a! p& d* e2 |8 h7 O6 b
% n1 {1 y6 B6 Y7, 问题* S: l9 `- i$ n% i _, K
- x, u5 y, z6 J- l9 D, ldeepseek 会将前后两段合成一段。: f3 q2 A( C. B# j. S5 _
特别是那种大量的对话的段落,deepseek会给你合成一大段。
3 v5 H; }! c0 ~& B/ Z, \# U# s
. p! e9 r: ^$ J5 w6 v6 R' F8, 钱说了算。. w6 J0 a& g& E- g: C$ W# C
; x4 r/ q1 U" y0 o5 ]3 Pdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
0 O7 ], z7 p! j# m8 [7 R但是API就不会出现这种情况,毕竟我们给钱了。
7 U- {# g9 E+ b# s- }7 _chatgpt也是这样的。
: J7 g" ]# C# {( p. N H) a' c1 _0 O* i( t% G h
: O L/ i& |3 W$ M
|
评分
-
查看全部评分
|