|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
6 B% \+ g( d3 v& V X1 w3 p
7 O: `. _! |8 ~( j. }已经搞定.
5 `' K! {' ^- w" d, K+ v A+ @) W. o5 ~3 f; Y
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。* ]" g8 I! m: N
z7 L9 {! A6 M1, python + pypdf 按章节拆分小的PDF
" f' B: g0 M, ^) b' r: i
) a* p* Y/ j I% `2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile: R% \- g% h s; n) o8 t+ R
- v: z# n& r) Y# h, j得到text file
% |4 Y$ b. b4 R: Z$ R1 m9 p
$ R1 \. g+ C$ W3 ]5 I3, python 读取整个outputfile,丢给deepseek 矫正。
" K8 f8 ]* [3 W( v- q1 w! k) ^' x0 y- S# i) d: p
模型是 deepseek-chat
8 J, h0 H- l: W9 M* m3 Q( t, }8 y d7 v2 [3 O, d+ F" |) [4 g' a
max_tokens 最大是 8192,别的不用改。# ~2 ?: }7 j; L# H8 O9 v f: |. D
0 ?5 H% @ h' C, F) N0 Z参考:
3 S% f( R3 K$ Q/ I8 ]: vhttps://api-docs.deepseek.com/api/create-chat-completion8 T+ }* h# h+ K) w, |; n. @' @
0 y, f2 A6 v, a( [1 R! M4,费用:
& G! [0 I' y" ^' c
$ `! ]: |* i! _实测:; w. _7 @3 Z% e1 f# F" [, N
0 h# e1 h' J$ s
296K 字母,用了 9 美分。3 J j7 Y! c) @/ f$ `! Z
& A9 c8 s- C* A/ A
英文字母 到 token 用量大约 1/3
, S* ]1 o# b6 t$ y7 H- X) y
/ J/ _! }2 x5 L% a. Z8 Ftokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899+ m, X6 H m4 C6 N* [9 X0 F9 U, _; D
. h' T. \! H [$ J; I5 h32899 个字母花费 11782 tokens,包含输入输出的 tokens
% i0 u# t+ E( S$ j& j+ \/ ^
2 W: Z4 o0 v0 {# Q价钱,非常非常便宜了。4 T1 W0 R3 i8 Y. e
" g4 W0 w. y* P0 _0 v0 z参考如下可以计算,懒得算了。; E" S/ Z2 w6 r2 w& B/ S& \
) G9 t& y% c( B& r6 [1 yhttps://api-docs.deepseek.com/quick_start/pricing
9 ^ g |8 D- j/ b7 G+ j# ^; ?4 {! e/ m
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14, P) v" i& r/ T$ O
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
' |7 _4 m1 M: p- e+ u1M TOKENS OUTPUT(5) $1.10 $2.19
* m1 i4 ^1 x, |
6 b) e% O5 p# n B3 Y+ I v# `- l+ h5, Balance3 J6 ?4 k# m/ o' ~
; ]0 m# Q( E" d4 h; K( r# `% h; ~( W
可以在程序里调用,知道每次运行结束后,balance还剩多少。8 m/ \2 E% F6 J9 q2 |5 f4 ~; L1 I7 y
参考:5 ? D( U1 d7 g: V. I* C4 [* o
https://api-docs.deepseek.com/api/get-user-balance
3 u4 N6 c W y9 u6 o( C5 h5 [5 w
. H' m; `/ e, F% U6, Models) D2 {5 L7 z) B6 G
' e$ E. ~# ?( ]# H( j; B" e目前就两个" D; q* U) C9 H/ o' l% d% z, Q
# deepseek-chat
) o* j$ v) @7 Z' Z( D# l# deepseek-reasoner, `1 ]$ h1 V z
7 C! R9 H( O6 I
参考:
2 g. H' [( x5 vhttps://api-docs.deepseek.com/api/list-models" D* ~; m* A5 ]
$ O7 {7 _* \* t
! E3 v _4 A& J3 @7, 问题
7 ~0 d1 r* q1 L9 e L; k3 O" v1 {% R
5 g6 w, e; r( W/ c6 Fdeepseek 会将前后两段合成一段。
" E! p# I: G2 S特别是那种大量的对话的段落,deepseek会给你合成一大段。
u' w2 ]8 \5 |; D8 R
' Z: t7 P- K+ P0 q( `8, 钱说了算。$ X4 `6 @) I/ H2 v- n( k" \
/ e: W- C$ i4 Z
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。" p# _4 u' P. v) ^- o% K9 B; ^! D4 z
但是API就不会出现这种情况,毕竟我们给钱了。+ ]+ a4 p) |( ?2 B5 C
chatgpt也是这样的。
- m. A$ }3 u$ n- m3 e3 v" |# x# U" X6 }+ U# \6 m& _
! C$ |2 X5 J& F6 D. t) C4 y |
评分
-
查看全部评分
|