|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 x" {1 A( X% f3 E% }5 T
5 k5 ]! N; R6 V; _已经搞定.
; [2 m# ^" l$ Y. g7 J, @+ l5 O a/ r1 b9 V1 E
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。 T5 g7 X: e' ^3 v& ]! ~5 f# X
* k( @1 _4 s9 x$ M' u8 ^- o6 V J
1, python + pypdf 按章节拆分小的PDF) o5 W$ W5 X9 }2 j% M! j( U7 `
# `1 w9 |1 X6 a
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 e$ c4 Y! E. k7 U- N- y. N
3 @5 g. l1 P5 U v/ L得到text file
! Q, t2 Z% v& {2 [# L7 O4 P. p9 i8 Z' T# \
3, python 读取整个outputfile,丢给deepseek 矫正。
5 H6 J+ E% P3 `, c
( K" P- D- K9 X* q- e; ?( @ h模型是 deepseek-chat: V/ r" v( r2 J; _& Z" Y, r
3 e5 ]( h2 W$ S2 {
max_tokens 最大是 8192,别的不用改。+ M$ T$ x. a f$ \2 P2 t. X& Z$ q
" Q9 j# b; A) t# ]: i" X
参考:
. L$ j2 @4 Z# p8 ]/ r- ihttps://api-docs.deepseek.com/api/create-chat-completion* m" k' J! G( m' V
0 r3 P- k- X0 S( L4,费用:( z7 u8 m# g$ Q
1 B$ G5 J! `: g& S0 E' Z
实测:
# `, J. l/ X: l, o
9 N% E: R( w6 }2 y' t k296K 字母,用了 9 美分。7 ^7 @# }7 j$ V
" d* G3 \4 J2 x6 L6 U英文字母 到 token 用量大约 1/39 u" T3 q3 k6 W9 U ?- K
& \. O" g4 M- j% x/ Ttokens: total, 11782 completion, 3729 prompt, 8053 | s: 328998 G" n% ?1 R+ K) L
h0 P$ P! z; R% }
32899 个字母花费 11782 tokens,包含输入输出的 tokens: R; U; {3 m% D9 N' F) Q# @
3 n+ I6 J7 |4 d" W- Y8 m) ^
价钱,非常非常便宜了。
" s6 r; F* U0 C, y" ~; e' F$ n# C
% D( U% l5 p/ d2 [参考如下可以计算,懒得算了。
' }/ Y5 Z% y. G) L _* b5 f: @) R6 R2 \) P$ Q2 u" u+ ~
https://api-docs.deepseek.com/quick_start/pricing! @& I( G0 \- N2 G# X" K
* Y1 n, i( d. U, a1 m1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14. x, q) z7 O+ T& R- s, f ?9 K
1M TOKENS INPUT (CACHE MISS) $0.27 $0.552 W, s3 t& }6 d7 \+ W) [) ^
1M TOKENS OUTPUT(5) $1.10 $2.19
! _+ q' ?9 V9 r, d% D& z' \$ D2 [6 ]! F
5, Balance1 J. {4 ]; G L) n$ Q3 M
, s3 x) \$ P, r
可以在程序里调用,知道每次运行结束后,balance还剩多少。5 g9 _+ M6 Z. t$ j' c
参考:7 ^% a w+ ]% M1 j- J5 h* i/ f
https://api-docs.deepseek.com/api/get-user-balance
: a8 p$ a& k% z! C8 D" Y2 g8 l! i2 M6 S6 h. @/ q
6, Models
# ~8 N' e& w: c% E s; `
) F9 G- s: S, B7 a' W9 N' P- D( D目前就两个
& ?8 ?7 a7 P6 z& x/ y- f2 f3 K8 v# }" J# deepseek-chat
2 f" [/ S. K# |. C# I& O( y# m4 }# deepseek-reasoner' p/ y2 ~) D2 T& o, \0 d* t. K+ B
2 x; X' q5 W' s- y参考:6 o; [1 R- @, y* W" E! L1 {
https://api-docs.deepseek.com/api/list-models5 ]0 x4 g2 `: S9 y
) u: x1 e: I* u! H. u
1 y. k9 ?0 t/ T4 g/ ~* H7 M/ P7, 问题
# K4 B0 ~: I; V! [
3 B# P+ b0 y7 ? I) \" e$ [deepseek 会将前后两段合成一段。; |% L" U y2 _/ _/ L" m) R
特别是那种大量的对话的段落,deepseek会给你合成一大段。
3 @ x% c6 O' F; |: ~7 Q I
) G7 o0 D% F* T: k8, 钱说了算。
- w9 f: \$ L8 v$ y7 X
' S- ], f, T# R1 adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 i- Q2 d1 k; `+ s) x5 k4 I
但是API就不会出现这种情况,毕竟我们给钱了。
& y6 H( J; @# A" s. z- ?9 A$ hchatgpt也是这样的。
+ H. e1 T3 A9 z
6 F+ t- Z2 G% h% t/ b& J' D
( f% k! |( P+ a# x4 h7 R; q0 N% H! n |
评分
-
查看全部评分
|