|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
& \! f. L5 a _9 a7 C! d
7 i+ C& N o) }1 O( q已经搞定.
0 ]5 `! ]8 s+ @0 o' c' p$ Y
4 e. Z8 I" [* ?! w+ h1 K" c1 J7 g首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。/ r% S7 ^" {4 w/ Y! `2 J
# \; w0 ^; E4 H6 N; h: ^ F/ Q) f
1, python + pypdf 按章节拆分小的PDF9 x4 ^7 v/ @7 } i: H* v
6 J- i2 X# ]9 G* q, n$ B- C7 c* T2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
- a" X1 B0 ?2 ?- L4 P0 m9 i+ k3 e; D* K# y# n
得到text file
. R- Q) w4 T* X( E9 h/ n; A
8 K z X" v/ z1 t6 t t! n3, python 读取整个outputfile,丢给deepseek 矫正。
8 S+ P4 _) }0 H& m& J; n# H2 a( m/ @. a% H
模型是 deepseek-chat
% y! D7 ~' }5 V
1 n& n5 s- I3 _- f+ ]max_tokens 最大是 8192,别的不用改。6 p3 G2 q. M6 S8 U9 [7 y
1 K% [) C6 r4 ]- S6 ]
参考:
! V G, R: ^% n9 [! D0 lhttps://api-docs.deepseek.com/api/create-chat-completion
2 M2 T; w2 d1 r( k8 H, L3 y: z
, S6 E2 M' z/ E0 s4,费用:% x$ G7 `" w, c8 u% W
; D, G$ u! p4 A' \$ `) B实测:
z/ Q# b2 M' I i1 C9 M
/ i( H# u# s" x8 {5 W& q- a3 K* m' U296K 字母,用了 9 美分。
; c. C$ R# E# B+ }. Y$ Y/ i7 P; C( @9 n# W) w
英文字母 到 token 用量大约 1/3
1 `7 ]$ J1 p4 G+ u6 z: Q' Y; c/ W( _3 h
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899- M( l5 q. g/ m' T, A
* N6 f( h e2 X Y32899 个字母花费 11782 tokens,包含输入输出的 tokens
& s* _# H* w* C" S" \2 _: U5 D4 }
- ~8 ~/ N3 [ G# v" {价钱,非常非常便宜了。
+ z. d" i( p# O! N' @2 X( i" J. n" S) H
参考如下可以计算,懒得算了。
/ G( p$ A4 f7 u+ `% X& q- x( A. T! g( Z
( q9 h1 q2 j" h; _https://api-docs.deepseek.com/quick_start/pricing
& D, Q8 e& o1 j) e2 ^9 c4 M0 h. S$ v1 J" F- l$ ^) p
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
( ]( P# M, h* j2 W4 X1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
( Z. q1 t2 d) r" ^3 }3 a/ p1M TOKENS OUTPUT(5) $1.10 $2.19
7 Z! Y- a# `- X% J
P5 H; `% O9 z, x9 Q' H7 P5, Balance5 c' h |3 ]; T" ~
& g) G$ c* D" p) a, p% p' g1 ^
可以在程序里调用,知道每次运行结束后,balance还剩多少。' D0 y7 w/ ?5 J& H! d: _
参考:
) o t/ }& ]; o$ a2 ^https://api-docs.deepseek.com/api/get-user-balance
1 F6 ^4 |. u2 J; {
$ m- Y" d$ ]( g* `3 R' i, K6, Models/ J/ ?+ Q1 b, p# B
, L" K! s& L2 t8 D0 C: a
目前就两个- t2 h% \ ? s; U3 W3 G
# deepseek-chat5 O& e5 P! u. ^4 d4 q; E
# deepseek-reasoner
( z: ~3 G* c3 y, V- r: i3 w* f1 [6 ]0 X+ w$ B
参考:
' g! Y m0 q6 m/ O4 c/ \- chttps://api-docs.deepseek.com/api/list-models
9 S1 k# a8 K9 T `4 R* r. W
/ }1 y) t' K( K4 G% I! S
: D6 `) F. ^6 h0 E0 ?$ ^# f7, 问题
' n& Z& i$ s% h/ _8 f9 E2 V; k. q
8 j6 R+ I8 j" P- i/ Mdeepseek 会将前后两段合成一段。
! B/ [& m8 s, F特别是那种大量的对话的段落,deepseek会给你合成一大段。7 G, P2 a' J8 v3 B+ T4 ~
2 @0 b- D) z& a2 I+ X: A
8, 钱说了算。% e4 l5 m0 W. _! q4 G$ k
# b0 g+ M8 R% N7 N2 s
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: A4 U9 x6 M+ Q1 A但是API就不会出现这种情况,毕竟我们给钱了。7 D3 e6 q8 {1 G, x
chatgpt也是这样的。( D- e+ }6 E2 z5 @/ K# _
x0 D9 ~, M! q6 i* C8 w- T; e
$ y3 p/ { \; I
|
评分
-
查看全部评分
|