|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 8 m2 q5 `" t+ w
& Q) s, [) a, }: l Z
已经搞定.
& e) O& n. y O! \# l
3 P4 p6 B+ z1 Z$ m6 @& G5 N首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。7 N* Q$ _$ ~+ v
4 L* n+ m; D! F- [: l8 m
1, python + pypdf 按章节拆分小的PDF
* t0 |' y1 Q, M% y1 ]: l& D/ F$ R
( Q/ c0 t( e/ p7 s# n' Q2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
6 @) W f6 Q2 q: P9 R r. F X
' Z; k0 j+ O: H$ _得到text file
# Z* [: H0 h6 }: |" ^4 k9 ^- x, L' Q
3, python 读取整个outputfile,丢给deepseek 矫正。9 w$ `4 r( s# s, w
U* ?/ o: s7 a6 F模型是 deepseek-chat( O% @ S2 t, U- D7 D- U* O
: O% ?3 \4 s4 u2 }max_tokens 最大是 8192,别的不用改。
4 Q/ [, I/ V+ P- f: J
8 d+ c4 a. ?9 n4 C" K. o' r. q+ m参考:: d% V2 n2 ^5 ^- [
https://api-docs.deepseek.com/api/create-chat-completion2 c6 T! a7 V# t0 T! b s
) l. ^% w* V, c4 m* y
4,费用:& Y; d$ _1 n2 k
5 }/ c3 {; ^0 L, V6 }0 v
实测:/ B5 b: h1 F# u! Q- q% O4 \; x1 g9 P
0 Q9 k; ^% j9 ?- l, T
296K 字母,用了 9 美分。
3 |- N3 Z+ t4 w" }# d
6 \( ?0 M2 s3 S* i英文字母 到 token 用量大约 1/3
1 N" b9 z3 G. G A$ D" a
+ w; |' A: {* Z0 D- \' Mtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899* S1 u8 S/ }# t7 w( k. t& c$ }
/ S5 X* w9 I6 U' ~
32899 个字母花费 11782 tokens,包含输入输出的 tokens. v4 N1 G" b2 L9 @- m5 ^' \
$ ^* }: u9 n1 a& m: `% U
价钱,非常非常便宜了。9 K) Y& Q5 x# W% k, S
9 a2 I* I3 _& r7 A/ B1 t, D参考如下可以计算,懒得算了。* e+ c1 _6 i' o* x+ @* Q% u' t4 z
" N* c# W+ @" o, N- n8 zhttps://api-docs.deepseek.com/quick_start/pricing( h9 `* m# k3 {/ Z) |/ b3 n, @
% O8 M6 ?. K% J& g3 h* X3 n P4 V
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.149 P! Y7 D& h, b( l5 T' x! K
1M TOKENS INPUT (CACHE MISS) $0.27 $0.552 W! a. a' y. n% Z. @1 X
1M TOKENS OUTPUT(5) $1.10 $2.19& }# T, `+ T9 K1 p; Z
$ V- N/ }: |' l# w9 H5, Balance4 W; o) L6 R7 E9 e, s6 e
- }! u$ \/ Q9 p5 ^- }, t9 C
可以在程序里调用,知道每次运行结束后,balance还剩多少。3 U ~: o2 c$ g7 H9 r, y
参考:
$ T; I& m1 E1 g$ M5 f& P) O( {https://api-docs.deepseek.com/api/get-user-balance2 F/ x3 _8 d3 V) {* h
: @$ g5 R5 B& V% Z3 ?9 x7 M* g6, Models
8 b1 r$ A& A r# R; B! S. q4 u6 I) D) o! y
目前就两个' z1 [. T } O! L
# deepseek-chat2 a* N' Z3 b. r! a
# deepseek-reasoner/ [, L" L" `) `- J
% `, a5 k- |4 f Z- y参考:
5 b2 D4 E% s# o! W2 @! U/ M5 Ghttps://api-docs.deepseek.com/api/list-models) [1 [' |% _% F0 m- R: n# `
8 |) Q# g4 l/ v9 J
1 k) w8 f8 h6 m/ J% Z0 P# f2 {
7, 问题
* l2 ^+ M7 h0 `: I K1 S! |8 ?( B! C, f% c) {" K/ l! U
deepseek 会将前后两段合成一段。! ?1 A1 Q, h0 Q% ]
特别是那种大量的对话的段落,deepseek会给你合成一大段。
e1 Q$ e' g, K1 a! e* e3 m# k
. ]# [' ^- U4 O5 ?: y4 o! }/ ]8, 钱说了算。
6 g: H$ P7 [5 I0 B, t1 k* P& a# x( X
1 o% [0 v1 B2 Ddeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。, h* Z7 j/ s ~7 q/ t5 M+ i
但是API就不会出现这种情况,毕竟我们给钱了。% K- t1 F5 G3 P6 B; Y( G
chatgpt也是这样的。" g+ t6 w8 {6 a" `: M4 S
/ ]( h' Q; v3 q, L+ \3 ^
4 y6 v$ |" r! a2 ~4 j2 j |
评分
-
查看全部评分
|