|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
. e" o% P% { f8 s/ E) p; k2 |" L0 q" E c8 f. f
已经搞定.1 _/ L) k& @3 d) e c
& h+ _0 o, g4 c* j
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
& t0 E( G( z4 s7 I9 E, ^. s2 y% z* ]$ w9 p2 b. l; ^& Q% j
1, python + pypdf 按章节拆分小的PDF
8 R9 m2 g, J2 W0 {$ l
5 E3 M, k6 T, {. L* x0 m2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
/ u2 X6 K" R* T& \6 n- f' Q) ^ S' ~* j& C
得到text file. [# X: {) I# G$ P
( }6 f) [3 K! T! W* M3, python 读取整个outputfile,丢给deepseek 矫正。
/ o, B: D! X% x5 q' X$ r# K
. a4 [# d2 L8 j% i: e8 d模型是 deepseek-chat
# D2 X8 w T" t2 y% y5 w6 {2 _/ i) c) b) `
max_tokens 最大是 8192,别的不用改。; n8 i" _0 q. T" L# w
; J3 D* `4 N0 h9 {参考:
) J: K( J4 v K2 x/ L! Khttps://api-docs.deepseek.com/api/create-chat-completion
% M3 J' n) h9 _1 J+ y. K
A, o) H. h2 O# W4,费用:/ N) `7 t: @- N: K
/ r! W! W) Z: `4 t( e3 q5 g) u2 M5 X
实测:& R" p; Y/ I: a6 R1 p9 X$ ^
7 y1 {! Z0 K' w& t9 g
296K 字母,用了 9 美分。
. H" s/ H2 v+ q. d3 v# m; g" W9 m2 g6 ?* K. `
英文字母 到 token 用量大约 1/38 Y# g; X0 b2 d0 d
( J% @- d5 N8 m8 A* `8 O( S% z2 ytokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899* X! q. A5 @# M* Z7 p
2 j( P/ V4 Z# N32899 个字母花费 11782 tokens,包含输入输出的 tokens0 a3 Y1 k/ c* N: e6 f
u9 _6 R6 {: ?# X5 f
价钱,非常非常便宜了。- K7 F) H6 W0 n/ {& x4 T
0 \8 @1 J3 s. W, `! u/ o参考如下可以计算,懒得算了。# o3 K: a8 q& M) e0 {/ y6 @
6 z" t9 Z! ^; g7 j3 E
https://api-docs.deepseek.com/quick_start/pricing
$ W* z2 r: N4 r1 \& B5 a2 x6 t$ ^" f; w4 \! n- n% H2 u* P9 h
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
* g& V$ h6 Q+ S: k5 L& l$ ]1M TOKENS INPUT (CACHE MISS) $0.27 $0.552 w4 |8 x2 u4 Q0 s
1M TOKENS OUTPUT(5) $1.10 $2.19/ l7 D, R2 U; C$ ^ v
, a7 m O" E6 D0 v9 d' \) |/ [5, Balance6 p' X- G) e) c2 ?7 ~- ?0 [
5 `8 S; ~/ z2 I! d$ Q" {* _3 n) k$ {可以在程序里调用,知道每次运行结束后,balance还剩多少。
) O* d7 t: r! S3 }8 G, }# z参考:
/ z9 u# g6 i9 z. D3 Nhttps://api-docs.deepseek.com/api/get-user-balance
8 y. u m( ]- N# v. t, Q6 a
- j' w- h5 u" v0 A0 I6, Models$ f3 S8 C5 ^9 D
; z2 V% j4 o- Y目前就两个# Z( ]$ `& h) |0 n
# deepseek-chat
. K+ M. K+ x8 r$ n: ^0 [# deepseek-reasoner
+ l& O+ ^5 j, f/ a1 l* t
5 u% T. e+ D% J% j1 L1 `" H参考:6 l; H) a4 c( i6 Q5 m+ {& P- h: ~
https://api-docs.deepseek.com/api/list-models' |4 H: D5 W c* ^# v( U
3 }- ]; X7 C- K4 [- l8 }4 y1 |. G% O7 X V- Z! A% m
7, 问题1 {1 t/ P" z; s4 P5 E
1 _6 X9 H* ?9 f
deepseek 会将前后两段合成一段。) A$ q% P O& |8 F- ^9 c$ V
特别是那种大量的对话的段落,deepseek会给你合成一大段。
0 J3 W) d% S: y5 ?3 Y; }) p8 U% [: H/ b+ P2 i/ P
8, 钱说了算。- C" l4 n: Q3 D' b' o
+ @, ~- o2 Q/ z! sdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
4 W2 {5 e) Q% _% [. J9 |但是API就不会出现这种情况,毕竟我们给钱了。
6 Q7 l& N; o' m9 Ichatgpt也是这样的。
' d/ f1 h: M- ]+ ~7 m! M
# b$ z9 L4 o5 B' T6 p* C8 R" f* A$ ~. P7 ~8 A B
|
评分
-
查看全部评分
|