|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 # U5 \7 U C. U6 \# e$ a7 L6 T+ c
j; \2 u9 k A! Z2 W" ^
已经搞定.. O) m" H6 G0 p+ p
$ s! ]) t3 U [2 f
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
) W O! D$ @0 A% A- M$ S: I' r9 ], z" N. `$ w# v
1, python + pypdf 按章节拆分小的PDF
1 W5 c/ B7 V1 B, F G6 H* G% b: I) B
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
! m# ?5 g8 c1 t) J, c8 k' W9 U) O8 t5 V2 [; T
得到text file
# z3 Q) ?, e. t3 }) p% q; o1 ], F# g0 a: D$ }, b
3, python 读取整个outputfile,丢给deepseek 矫正。
6 }1 o5 x5 \& A1 p& e" j; | M+ x0 D
6 f: a! L. I$ Y! |6 P2 k模型是 deepseek-chat
3 L D4 L8 q i, H- I
3 L- D; @6 N0 R' b) w" [$ ?max_tokens 最大是 8192,别的不用改。- \# L% K# Q/ T- a/ G
/ R' E) U |: x; w参考:. j- D5 X: O4 C% p3 Z: `
https://api-docs.deepseek.com/api/create-chat-completion' U$ b$ ]9 v9 H
' F$ f( s' G7 ^, d+ F
4,费用:' d; V- R2 u% N ~6 O- E
* Z8 s5 ]5 t( }* G实测:) g- C* ^! J! g8 k) e
" M) j$ t: T0 d% R& M: V
296K 字母,用了 9 美分。
d& Z2 E7 B0 A* e. k- s$ L& u
9 w- ~4 ~3 }5 I v1 V1 h. y英文字母 到 token 用量大约 1/36 P" T* ]! N8 B2 j$ w2 C
# Y; e% ~; ?9 n& a$ P4 U, K$ w4 |tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
4 ^" ?( G+ z6 [# t
# E5 F9 i8 l; g# q% g# b32899 个字母花费 11782 tokens,包含输入输出的 tokens
, `8 S3 f) E; m& K! ?! Z# ?- A: ]: S8 u: [" Y
价钱,非常非常便宜了。9 X3 U- k+ r: X3 W/ R, a% M
& v, |1 }9 F% E: _9 \: _) w; ^* h参考如下可以计算,懒得算了。
/ K8 O, H7 o- t0 q. w* z
p' T7 W# c& o+ [6 m- Qhttps://api-docs.deepseek.com/quick_start/pricing. G8 f+ `/ j3 Y. d0 v, j6 |( W
' \; e6 ^$ m" d% c3 f8 a( @1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14* @* a" [0 {% p0 `0 G, Z. k3 }8 v
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55, a) {, o7 z& t5 Z: W6 l4 s4 z
1M TOKENS OUTPUT(5) $1.10 $2.19 ^" P2 o6 a+ [ f( A7 h+ J
# H v/ T- U& H8 S
5, Balance
, F* C I# W6 c% H3 z; o" r
3 W. O. L+ i( C% Y( b可以在程序里调用,知道每次运行结束后,balance还剩多少。
. g/ k- O$ ]% j: r& R& B/ O参考:* `" \2 ^1 @" X2 `2 K- H8 I+ R2 q$ a
https://api-docs.deepseek.com/api/get-user-balance+ y) s \9 z c
: m5 O" y2 A1 n# G1 w' v
6, Models
: Y5 _( v8 @8 h3 {0 E | |. n; b+ b2 \" a# m
目前就两个" j* B" `* E4 r
# deepseek-chat
7 W6 _, M' s. k) |; E: k# deepseek-reasoner8 V8 c0 F: X$ `& E9 [
1 Z9 Z, s2 l# _/ U G参考:
0 N# ?: ?# ?) z3 d7 Bhttps://api-docs.deepseek.com/api/list-models2 z& L# L! A8 c8 Q
& n5 p2 }; X0 |3 u
+ V) [; @, Z7 p+ E7 z
7, 问题
3 L. Y* |: L5 j6 b, X2 m1 r, w+ d! |4 G) u( S4 V
deepseek 会将前后两段合成一段。
/ {( G& p% i4 k' ]5 X4 N, ? T特别是那种大量的对话的段落,deepseek会给你合成一大段。' J. y4 O$ c2 i" Y h
; t7 T% r3 R6 A3 l5 w
8, 钱说了算。
6 ~1 f. \" l7 l/ _: F% b/ N) k' E& e1 T# s% c. M; [
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。0 w4 U ]/ C+ V8 `" a0 o. { a) G
但是API就不会出现这种情况,毕竟我们给钱了。: J& X4 d' l, Y1 m, x" E! F
chatgpt也是这样的。
% c7 ~; q! Y% c# ~& V3 m& H
1 F4 N m/ e/ @8 L& Y! |$ n
( w: u4 ]$ z, V& L4 I( f& X" F+ w# N |
评分
-
查看全部评分
|