|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
U" Z9 E6 { d* j& Z7 z0 Y% `& ]: n( U/ f2 j
已经搞定.4 A& l# e7 z8 j' p, Q. d$ d
- P8 M8 @0 r5 R4 r5 n, G首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
% [+ h; u- x# R; O
2 Y! B. F# [! \( @& C5 K4 W1, python + pypdf 按章节拆分小的PDF' x: H4 B: h: I: f, S! O
1 \; G; r1 D7 F! ?; S# V) q( Q
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; Q5 J" D* `+ z& h
( P* U" w/ n- p( d, N得到text file
" Y& Q! u2 x3 z" i' T
5 \+ \% \, @/ H7 W) {9 S3, python 读取整个outputfile,丢给deepseek 矫正。9 Q0 K( C5 x$ j% c7 C" k
! _1 T9 B& z( w6 M) Y模型是 deepseek-chat4 l$ Y2 _0 {4 R- k/ d
; C. C0 \% `# z6 c1 V- Rmax_tokens 最大是 8192,别的不用改。
3 A- a, d0 b$ b4 Y o" `, y& {, c! @ \# `) A
参考:
1 m$ {/ Q Y9 jhttps://api-docs.deepseek.com/api/create-chat-completion
3 z4 H2 `! F. Q$ L1 [0 h- _ I1 ?" S3 _; `$ t
4,费用:
/ ^) r; u& F4 f0 `4 B
. O3 J5 ?/ j. S实测:
3 K8 g% q3 H) N( D/ `4 }8 Q5 h+ N
5 t& k# ~+ e9 X, X( `296K 字母,用了 9 美分。- E. G+ c' W" i2 _; }8 n
) x3 T& W* W' K9 a7 o0 f
英文字母 到 token 用量大约 1/3
9 o4 f2 s- |$ v5 h1 K! r& V2 s6 x: W$ p" ^& `. b" J& [& X
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
q9 F8 b- w3 X! {4 f/ F# w& S" V% k5 C/ @& K5 k
32899 个字母花费 11782 tokens,包含输入输出的 tokens# E- G) w& |9 R
! c5 H$ y B( R8 _7 L) `; ?
价钱,非常非常便宜了。
+ M1 o2 i" f3 h5 d$ D9 x$ U, r% Y+ Z; z+ y
参考如下可以计算,懒得算了。
. M J. t8 k ^( X5 G7 F6 y* E9 [' ^( ^ @" u, Z
https://api-docs.deepseek.com/quick_start/pricing
+ c- m4 @; F9 O) U, Z0 [) Z. r
2 \! F- M8 ]/ I# o9 M# B1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.149 V2 ^5 o: r% [( p$ R/ s* q
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
; L9 u; k2 }& ]1 l- p+ \9 F1M TOKENS OUTPUT(5) $1.10 $2.19
8 @, [ h% q/ Q( a B
2 u u8 n! M# T5, Balance9 U8 B: Z4 h9 }+ t3 \& w( e, h
9 x4 G6 B' [% ?* p, ^可以在程序里调用,知道每次运行结束后,balance还剩多少。
" ?- y3 Z+ [6 W: d! u) ~参考:. s! {) R3 n G* T( R
https://api-docs.deepseek.com/api/get-user-balance4 q3 \; X$ t9 p4 U
; s: W- z2 d. O, |9 b$ f! S N8 b, F
6, Models! @, ?% l" ?& {/ \
' ?& w. U/ M, }6 W* A( t
目前就两个" C7 F% c) q5 [( p* Z" H7 H8 K: Q
# deepseek-chat$ O7 u$ {+ ? l, T3 n
# deepseek-reasoner+ l% K- B; q0 d
; H/ c8 \+ `5 z7 c6 _- i4 x参考:
# E7 d) U$ ^0 R; u; _$ `https://api-docs.deepseek.com/api/list-models0 C4 @( X. g& a% m3 f
7 X* x9 b! c. c
3 Q; [% h) A. j( ]7, 问题, b e" R2 p6 Q) J5 b! @8 O/ S
# C# ^& \# m( U
deepseek 会将前后两段合成一段。& I( o8 \3 M* D3 l# [& x7 z
特别是那种大量的对话的段落,deepseek会给你合成一大段。
, [% Z; }% m3 x6 @
2 \. |4 s7 F$ s. a! ~' X2 i( f8, 钱说了算。
: B0 Z: Y3 u. G4 }% Z' y2 s$ s) \* D3 f6 O' w- E
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 v6 F! `+ k# \0 F: f5 p2 Q但是API就不会出现这种情况,毕竟我们给钱了。
' J0 ^. E; K, U+ T+ X) m# }4 @7 vchatgpt也是这样的。0 g0 Z; L% ?3 ]/ |
& q: X- i- @8 F9 L ^, S. s! |) j M8 i4 i* z3 E
|
评分
-
查看全部评分
|