|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
- ^# d R. ?/ j0 H) x: c+ C0 d) A' K7 \. Z$ M: N1 e) O w
已经搞定.
5 q7 w9 e' i$ i2 l3 C- r: v+ v
* k: ?( j6 G1 h% R首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
8 N8 q+ |3 Y) r d5 j% }( M
" l4 ?6 ]3 N$ B1, python + pypdf 按章节拆分小的PDF3 n) b- H. `* a6 Y, a6 X3 b
6 D3 c6 Q; _$ F6 n! H
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile! M6 X6 c& S0 v7 C( g, O& M
6 S# Q) _& ~0 U4 Z% _3 r! b得到text file6 v6 R3 I1 K6 C/ x2 o: K$ j
3 e; v. B. F4 d, _) U3, python 读取整个outputfile,丢给deepseek 矫正。0 O# v2 X5 O, ^. V( z
% ?: J) a& J( ~* w1 R0 L! N
模型是 deepseek-chat
3 g/ ~$ x" G4 V3 Y" i: S- D1 h. R1 g: p
max_tokens 最大是 8192,别的不用改。
" `6 \( E+ `" M1 D5 ]) g7 A
0 i+ w c2 a6 r+ ^参考:! a3 V9 G( ]/ E/ a/ R
https://api-docs.deepseek.com/api/create-chat-completion6 q6 \5 I+ S" O) p
2 k7 S2 v$ B3 k8 `* ?1 ?2 O4,费用:9 ~% e) Y/ }& r9 d2 O
) i$ `2 {! g0 M2 g
实测:
. s8 i3 Q- E8 m* b1 H, H/ \; K* K( o% r: z
296K 字母,用了 9 美分。
/ ^$ M# [5 ~, J
, t% @8 j9 {, a5 f4 W# W英文字母 到 token 用量大约 1/3$ D4 O- c2 a, }. I2 h6 a, v2 P0 B
# }: M9 x# |" h) c4 o9 d7 K
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
, U) Q9 E( w5 H4 Z+ y9 ?+ h! x" ~: B: }2 F
32899 个字母花费 11782 tokens,包含输入输出的 tokens
m5 t2 Q# q& V9 P k- @8 j2 l: m' C: ~
价钱,非常非常便宜了。
! E+ t6 y! H; Z3 O. ]7 b) h
$ e6 x$ l3 m' t: s7 @1 {参考如下可以计算,懒得算了。
2 j) k3 |6 n6 t7 I w: q& m U; ]1 i' R* ?* w0 P! r& I3 ]3 y" W' m
https://api-docs.deepseek.com/quick_start/pricing
5 J s. e! e! F$ T* u" ~0 d/ }, _5 c/ { B2 v
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14# F) k- M6 A5 Q7 Y+ g0 \
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55/ B( g0 b" b: Z
1M TOKENS OUTPUT(5) $1.10 $2.19: a. ]" K+ a* H+ f
5 Q; }8 K" M Z9 S' D; E
5, Balance
9 N& Z" R4 g! p# a7 j$ S' k2 J
可以在程序里调用,知道每次运行结束后,balance还剩多少。
6 H( n: z- l X5 O+ b参考:% O$ O6 y2 K, q9 M4 D- T
https://api-docs.deepseek.com/api/get-user-balance
; _& \. Y& q2 F. O) t* a. C0 K# y. ^; L) p
6, Models& u7 o J, [5 p& c
3 `. T: K H' Q& T0 O1 X$ {
目前就两个
g4 W3 [- z, T5 r/ |. B# deepseek-chat
) S3 [1 M# ^ ^7 M/ y+ l# deepseek-reasoner
l V/ o( e2 u7 @* R5 d* }
1 M$ j0 D* [) H" e2 [$ Q参考:: x! T( n+ m. J' m( e
https://api-docs.deepseek.com/api/list-models& I* C4 _: M* G, g! g
. g+ ]( m/ L, ^- @8 Q/ }
, I7 k* t1 A. P" r; v, {' X. c7, 问题
2 E# `7 P6 ]9 @0 C3 r: j, c$ R* n2 ~1 O% X$ o
deepseek 会将前后两段合成一段。
9 \4 T% j9 t' O4 m+ Z# g' g特别是那种大量的对话的段落,deepseek会给你合成一大段。
% C, J# T$ H$ l$ A. P1 O' e
# w1 c7 m9 G! d8, 钱说了算。 U# ]6 {% _( C: C9 j6 `
; E2 W0 \5 I4 H! j. a* O# g
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。/ I9 |/ ]6 I: a* M( A1 O
但是API就不会出现这种情况,毕竟我们给钱了。
/ d9 Y0 ?2 k- d" o7 Gchatgpt也是这样的。8 d2 O' c- B3 y5 [' h9 s
' c% {$ }5 c0 b! x( \+ R4 t! Y3 L1 P
|
评分
-
查看全部评分
|