|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 G% c$ T+ j6 W3 c9 T" d9 ?+ }; N; @
3 o$ f" p+ W8 ^) T1 @2 j3 g; _1 {# G已经搞定.
' h, a; O; K% I" f3 O- \8 X+ G3 k$ a g* P+ G/ j
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 J3 T) c: R4 i" e) W: ^: m$ C
+ E9 y* q( p; w1 N+ k: i
1, python + pypdf 按章节拆分小的PDF$ d1 ]! }- `5 ^
# l) R/ a* F! @! t( H2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile2 Q$ V: M% ~3 \
2 L Y% r- m; u5 @* }9 J" V得到text file
1 j& K. q8 W5 ?2 @/ {
7 ~5 Z, `3 z$ u7 x2 b3, python 读取整个outputfile,丢给deepseek 矫正。; ~! M: W" E/ G4 C' K# Q. _
/ X* W6 o- E' {模型是 deepseek-chat
1 k: v- M; K" N# J% q3 x: B; g2 t, d
max_tokens 最大是 8192,别的不用改。" ]4 B" L! U6 u! B% e' B8 u
' L8 m0 \! Y. R. d! \ E参考:
, \4 p" \# {( _3 D# M7 Hhttps://api-docs.deepseek.com/api/create-chat-completion
. n; b0 W) ?4 a8 d0 u6 p9 [) {! T: K z' b7 K, h
4,费用:
c O3 G7 q; P9 c/ x% I& W
! z% D: z% L9 C h+ y! l% X" C实测:7 M4 S5 G" w2 D! F3 r6 J3 l
2 e6 \" y, ]: L4 y' N* b296K 字母,用了 9 美分。 \6 ]0 @; @$ G
9 @% o) l; h* w) g: ?
英文字母 到 token 用量大约 1/3
0 N6 f/ u% A) s, t c
1 t6 r5 z6 w- Ntokens: total, 11782 completion, 3729 prompt, 8053 | s: 328996 c; ^4 @6 d! c: \7 @
: a2 V# k8 A6 Z: u
32899 个字母花费 11782 tokens,包含输入输出的 tokens
+ l2 w5 E: X/ h0 q9 Y6 \) n- h' z# f% Y/ r
价钱,非常非常便宜了。) W2 w; f1 \: V7 d8 G0 E b U
! l% I3 ?$ f1 M$ ? k: B
参考如下可以计算,懒得算了。
3 |# E' d- N9 `5 J, u$ K- e3 m/ F
6 q; X8 |; N& B9 r2 _5 g4 G# chttps://api-docs.deepseek.com/quick_start/pricing
' s9 u5 V; S8 B2 I# H5 u
5 z+ S* D4 B/ A1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14- {. O( A- ~0 t' I7 e
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
( O* f" Q, S6 j/ L/ |' n1M TOKENS OUTPUT(5) $1.10 $2.194 z* V B2 D& I
$ w4 j/ g& A$ T! h0 h0 J c5, Balance3 Y8 K9 z- U2 l( X( o0 _
S$ v( Y7 s( V2 u9 }4 p& U2 `3 e
可以在程序里调用,知道每次运行结束后,balance还剩多少。( X; n9 ]2 F% J2 c
参考:, J- J! q. d0 c
https://api-docs.deepseek.com/api/get-user-balance
: y: q3 I" {- }7 ?& a8 S* ?7 K) e: D: |( q
6, Models5 O' Q: o/ L7 i- R( U
1 Q* M- P9 r( I& v, a目前就两个
# \" a9 b$ }5 o: |& \1 M' Z% Z" i# deepseek-chat
$ @+ S7 i! g- r: ~$ ?+ K, z# deepseek-reasoner
" W( G/ s+ s R8 s. v0 {! F0 m, H7 n* E/ ]; m( x$ G! D5 M
参考:, |+ @7 j9 R1 U' l
https://api-docs.deepseek.com/api/list-models
+ g9 r8 ^; H) H/ S2 z1 J' O( z/ P2 G7 X1 X8 ?' ^) E8 f
8 Y* w* o' H( ~7, 问题
% E0 D0 d, @* x* z8 i0 G! A/ n6 v. y% R8 E5 {8 J% b
deepseek 会将前后两段合成一段。 X# y, z) Y! j, \6 O
特别是那种大量的对话的段落,deepseek会给你合成一大段。
8 G! W6 P8 A2 c4 J; q
7 S% p- { G6 ?, I8 `8 Q$ e8, 钱说了算。
; s( v$ t1 R( g# t8 e9 V |; Z. u
( T/ S5 j$ h5 _/ r, O+ n, ], m" f+ w" Ydeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: {! X! I" f9 q& Q' k) _3 ~但是API就不会出现这种情况,毕竟我们给钱了。
5 p' }1 v3 B wchatgpt也是这样的。
1 G& J O9 ?# {1 B
8 K% I5 X9 g: a0 m7 E2 D/ F8 O
2 N W+ }( Q) {+ ]/ u7 W8 r. \. Q) ~# a |
评分
-
查看全部评分
|