|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
# C1 v8 E3 d; Q& P. |# d H
9 k: g3 M. r r# U2 O已经搞定.
: r2 b& @) n* i) \7 l
2 |9 \5 ^& z9 L) {4 E5 E9 |6 e$ A3 `首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 I! V. e" r! \: w2 z2 h, W, ^& S
6 E+ t0 f! \2 {$ g, h9 D2 `3 K
1, python + pypdf 按章节拆分小的PDF
3 x G0 N7 a; v% w# C) c2 {/ ]" S5 v8 P$ w3 s/ [
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile( s l9 z) u7 N, A6 G V
. w7 g. ]5 C0 b* P2 ~2 @0 F
得到text file
* M N" V" ~, U1 K& R; c
4 z4 l5 J: A' @) ?3, python 读取整个outputfile,丢给deepseek 矫正。
5 C) P, {9 \; x+ R4 t- |( ^& h& P; S( _% p5 `4 c9 ^
模型是 deepseek-chat
$ m* x' o p( o/ z% N" l# n# v% C1 d, Y! w2 t6 |% ]
max_tokens 最大是 8192,别的不用改。
$ c( ^ `$ f! w H" J/ `) V, d- y& R' w
参考:
/ p+ M% W* f l7 Y. N9 ?https://api-docs.deepseek.com/api/create-chat-completion7 @& t: J9 @5 q% @" l6 ]* S' ^
4 m: I. ]% Z% {( i' z4,费用:
; ^6 A9 Q2 B" [: ~
9 M' X# q# q% }. L/ j3 e, e实测:
, H( _0 e% P4 M' v
$ {' Z% M3 u) G, q3 m) v4 j" Q296K 字母,用了 9 美分。! H) s: I. v) p9 ^9 `6 \
" I4 e; U# ~ _/ w" e5 z# |# T
英文字母 到 token 用量大约 1/32 m( {. f" B4 t$ X4 S) C2 B- i; o
, K" t+ y# D3 `) ]0 {9 e9 O8 z+ Atokens: total, 11782 completion, 3729 prompt, 8053 | s: 328990 C& w/ E" Q- w7 z
) v/ q M1 d6 G+ z6 K: }8 P32899 个字母花费 11782 tokens,包含输入输出的 tokens
# r5 Z3 b% J M- w3 a0 q( i2 Y8 ]/ ~# }5 b
价钱,非常非常便宜了。) D' n* a, S/ T. d, b" A
5 @0 }& h! y7 ]3 K3 q( n, }
参考如下可以计算,懒得算了。
. J2 E! Y) I/ [. M/ L
0 Q( A8 x4 g- f5 I; j) O1 a. bhttps://api-docs.deepseek.com/quick_start/pricing7 {$ {% V- t. I% S" q
/ L2 E/ C' m* e5 K1 g3 p, T6 B; g
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
/ y" W/ v' }! ?3 T! K1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
J" Q& M) j* U- {. P% @$ _9 Q1M TOKENS OUTPUT(5) $1.10 $2.19
8 K6 \8 M3 S1 M4 K& ~# j
1 @& C3 b/ ?! F7 Q* g5, Balance
% P. H" v6 ^! w1 A- z0 E/ a0 A- p" K8 D% i* S
可以在程序里调用,知道每次运行结束后,balance还剩多少。
/ c% O' @+ h& ^' A0 N参考:
1 x# [5 d4 e. R F- ]4 ~# Hhttps://api-docs.deepseek.com/api/get-user-balance
% G- z( T4 c" P3 O/ R: Y, {* ~. W8 Q# `. b5 d
6, Models
) P! J( {5 B' f* |6 ^! h) R) \9 ?( V% D8 F: A
目前就两个
3 k+ [0 W+ H8 {2 S3 }- F# deepseek-chat. Y0 l w' f1 t& g5 e0 A
# deepseek-reasoner
, y1 s- C8 j0 S! X+ O; a
+ Z: [. J. ~1 {参考:, J9 P4 G# B) a2 q
https://api-docs.deepseek.com/api/list-models: [ J2 x f5 N4 k8 x( A
( t' T# J' v. Y+ I% E+ a
. e9 F3 K4 e; g9 s7, 问题2 E0 X9 P1 X# L1 y/ ]0 V+ d! i% b
9 o+ e1 _% }/ p6 ], a" W- U1 x, }
deepseek 会将前后两段合成一段。( R1 p& [& G3 f; @; I, }! G5 B* k
特别是那种大量的对话的段落,deepseek会给你合成一大段。$ S* w6 z4 X( l6 J: C
) S7 ~' ]/ r: {. G: L2 r8, 钱说了算。, K- b* T& g& Z9 x
9 }5 `4 ^& u$ {$ {9 {
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( }% P. {. G5 e: i3 _
但是API就不会出现这种情况,毕竟我们给钱了。" }$ n( Y! v6 t0 Y: z; E
chatgpt也是这样的。
5 K, K- s1 w( V! ~1 h4 ?" J( O( [0 l
1 K/ F3 j/ \" u5 E. O
|
评分
-
查看全部评分
|