|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
e7 V; _7 @3 K3 p% O9 p- ~
6 ?1 z0 h: H" a. n9 C4 m已经搞定.+ T# ~) n2 B0 H" [3 |
/ {" u9 b. A9 q t- K. d, f首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% L E' L3 C+ K9 m) V
: u( ]& R% K+ s& x
1, python + pypdf 按章节拆分小的PDF
; c2 E) F! Z$ b) ]7 U' w
" j) U' e/ s5 ^* O: T/ U2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile D- k8 ~ J% u) q, A) B
6 L- g9 Q u2 R0 Q |
得到text file
+ R6 p u1 U) s# n1 Z @8 O* b0 P. X9 p7 w T: c
3, python 读取整个outputfile,丢给deepseek 矫正。5 W' u! A) k8 n
8 y& n, {+ z* n$ E2 Z模型是 deepseek-chat
q0 ~. J: J4 e! @$ ^% X" Q$ D* v$ J( [: y, L# J0 d
max_tokens 最大是 8192,别的不用改。& O+ T# n0 E/ D5 ^' G
3 k2 A1 W. q3 r4 H; k. K5 a4 m
参考:- l/ {- u/ s7 |1 Q7 |
https://api-docs.deepseek.com/api/create-chat-completion" D" @% X. H& D! |
( b j6 W. M* v/ E
4,费用:
, N4 l0 y% N+ j2 H. t K
3 a* L$ ^! j% R( M实测:, m+ |% r8 ^2 u7 E* q% c! i) i2 B
, ~$ I; j' v5 t296K 字母,用了 9 美分。- `( }* q/ Y: T! C3 | G
6 `5 k6 D( x) a# D8 k英文字母 到 token 用量大约 1/3' E5 `5 q. t1 H1 r
' q! K3 W5 R0 i& ttokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899, ?7 V: ]6 a0 ^1 n
% s& Q K1 \" Z
32899 个字母花费 11782 tokens,包含输入输出的 tokens
2 w0 d Q% p) i2 d$ Z1 D
& g& E/ T+ z1 N$ s价钱,非常非常便宜了。
" {: `( v* Y0 g K+ n( B9 S+ @# U5 r' _/ m! V
参考如下可以计算,懒得算了。3 K1 g/ t1 Z8 k) T1 u" s
E' p' [3 @ i( Zhttps://api-docs.deepseek.com/quick_start/pricing# u! [' F$ h, U' M+ i
. e# R' k, d' u+ U) I
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
8 T; w/ }/ H$ R) V5 F1M TOKENS INPUT (CACHE MISS) $0.27 $0.55 l: Y* M* o4 J. w; |
1M TOKENS OUTPUT(5) $1.10 $2.19$ a! `1 M/ M4 q: |2 z/ \. E
7 @% @* H' L# C# C& T- R) E* q/ y
5, Balance
7 {1 @) h' y4 _* t
( x, V3 g) X: e1 N/ {" v+ q3 q可以在程序里调用,知道每次运行结束后,balance还剩多少。$ Z! j L6 c- X( {2 P7 ?; @ `
参考:' |7 N, p# A) B b( B: @
https://api-docs.deepseek.com/api/get-user-balance
) o+ ~+ t: i1 B0 }0 B8 L+ ?# X+ O) }" r8 U! H) x
6, Models
& I' }( o: l2 a: A6 h
! l y4 H- O' G' K4 O; C目前就两个+ f, D0 D) U+ [6 V, _1 ~) X0 _' S
# deepseek-chat
1 L. T% r# W# v) ~# deepseek-reasoner- f5 ?0 k# H# s( Y
% U, |1 g7 M4 w2 v9 k* E- v& z! h0 U4 U9 j6 N参考:: y) a7 c3 f: ]5 }/ e! s( M
https://api-docs.deepseek.com/api/list-models
! E6 G' p! n8 g5 L0 \5 k' U9 g2 O
9 U" d: T; f- R2 S' T' u
7, 问题
" J3 t' g% C$ O- ?1 T% L Z: N5 e( l1 P- g9 c3 A+ C. q: t8 g
deepseek 会将前后两段合成一段。' a! r+ `) v+ p% y2 o0 L# z
特别是那种大量的对话的段落,deepseek会给你合成一大段。) `# b! Y6 P( [8 K9 g
* X5 P+ Q$ A( ^3 c6 X8, 钱说了算。- L4 U+ _0 j+ ]/ z/ F
( M) q5 M9 R6 |0 H" f( h$ R
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。 f0 t7 \8 G4 c* S8 Y% ^" q
但是API就不会出现这种情况,毕竟我们给钱了。4 F7 J! U. `/ A" k4 _: ~& G
chatgpt也是这样的。
% R5 p2 g0 v/ e' Y* Q. v, w5 Z/ z- N6 g; _8 s
8 {$ x6 z" c- t# @9 ? |
评分
-
查看全部评分
|