|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
) e' p: n' T% a4 p
' {1 O! M& B s- } I已经搞定.+ j, O) H. X P$ I* F3 D' [& C
1 V/ P5 h; i' F$ D- k$ M
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
+ d" r E; Q; d6 `' O; j& W
9 x: I# S, n. b9 }; x: U1, python + pypdf 按章节拆分小的PDF
1 G: ]! T- `- f+ a& p4 x; K0 P4 @8 s2 V* J# i' \4 e+ L
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; v5 k1 [, }+ `5 C# Q3 P
2 x2 Z s& [6 x3 B8 `, q: q得到text file
7 ]5 W z K0 n: ]. v' a6 T. ~* l% C3 T
3, python 读取整个outputfile,丢给deepseek 矫正。3 E8 d' ^! J/ W. b% r
" `4 I" \ h$ S3 K Z3 D( q1 O1 r
模型是 deepseek-chat
- d1 y+ }5 }' H8 S* q$ Q5 C8 t) H8 `3 B
max_tokens 最大是 8192,别的不用改。
( `5 J& ?% Z7 d2 b7 Q; W; M/ J0 L) S" q( V$ Q8 x
参考:
5 N8 I9 W4 m# }- \- c- D' ohttps://api-docs.deepseek.com/api/create-chat-completion
" z9 G, }4 P: s& N1 d- @
6 V+ V) C3 t% l: _4,费用:
8 ^6 L7 v" `( \: S; l0 S" g) \/ b" |+ m/ I8 O
实测:5 e7 V' k) `- H( Q' S
9 j$ [8 ] ]9 f! k296K 字母,用了 9 美分。
2 I m/ _) q! l2 M7 F2 [& A
1 n: Y) ]0 W! t1 d英文字母 到 token 用量大约 1/3
' W( m, [. i T" S
% Q5 H/ z, c' ? ~4 ~tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899( i2 H9 ^9 t; p5 [1 Q7 |- F7 { k$ \
! `' ?7 O4 {+ E4 b
32899 个字母花费 11782 tokens,包含输入输出的 tokens# k1 y+ j2 ]; }7 s
" t) y8 F9 @2 M- v2 z; @; A
价钱,非常非常便宜了。
- D$ g" X3 l: \3 u: q
0 Y' J" t* |3 ], m6 n, o参考如下可以计算,懒得算了。2 A: l" Q# Z3 ^0 L
2 i8 q- n' C0 r2 m# yhttps://api-docs.deepseek.com/quick_start/pricing
) X' M$ D5 |% T" M" O8 X; k, P& ^, Q2 S4 Q; ^; A2 x3 m
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.146 S' q0 J5 O9 b7 v7 }3 b/ b8 E
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
; |( w% a' b4 \8 P1M TOKENS OUTPUT(5) $1.10 $2.193 M) ?; k- l: P, f% h! S7 |
/ y' e5 t: B, K% O! V7 }. S9 r5, Balance; z. h0 l0 H! @; B) z1 i
; p/ Y2 L* r: X% |0 {" i) N! ~可以在程序里调用,知道每次运行结束后,balance还剩多少。
/ Q9 v c) U5 |参考:
0 o/ x" Z; b# R2 Y1 G* Rhttps://api-docs.deepseek.com/api/get-user-balance
3 p( Q1 I4 u( J9 P$ `, x
9 \ I1 Z- P4 Q9 x3 `6, Models! L+ K; @* y0 Y% s) ^- Z
+ k! F. D4 k; ^
目前就两个; p# u2 Z9 l! q* B) R# W; G0 M8 [
# deepseek-chat2 p& _% r" _# j, E1 `( n- _
# deepseek-reasoner, m, M- t6 m9 L: R8 I L# _
8 y9 ~5 G3 l6 m/ a$ ?; A- ?# I
参考:
! C" s2 x0 Q0 u4 w D! ~0 L# X3 I6 r& Y- xhttps://api-docs.deepseek.com/api/list-models2 M* S u4 `1 H: Z6 j. K5 {
1 n7 |5 d; c5 b, i, }
- ], W0 q) K' a D! ^5 X
7, 问题
5 _) v3 J5 ^) i3 I) p
/ ]" w! q6 c$ C& i! ?! r# v2 ^deepseek 会将前后两段合成一段。
7 R6 Y4 Q; O E特别是那种大量的对话的段落,deepseek会给你合成一大段。+ V# I- L9 D, B3 s
) D$ r+ _7 q% [
8, 钱说了算。4 k# Q; s3 M4 t( \6 ~
6 ?9 n# a* a' f' U6 J: j) T; N
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 o8 J5 P, @3 a# Z" u; x; E0 }
但是API就不会出现这种情况,毕竟我们给钱了。' Z% F2 g/ R8 u* a3 {8 s
chatgpt也是这样的。
( i* ^4 U! X7 {+ S
' F2 {; L9 K) ^8 n7 ?; N6 f Y. B# }4 j+ L. D+ C/ p4 k d) `
|
评分
-
查看全部评分
|