|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
( D& A- Q/ [3 c% ]& K2 @& A5 }+ k( g; d( @9 t9 N
已经搞定.2 Y5 J2 v& V' S
% S7 f4 w7 q; b
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。) \ `8 o, D, z8 \# T& }
9 C2 d/ ^5 N2 n4 H# p2 x
1, python + pypdf 按章节拆分小的PDF0 }# `" C% | P; Z0 O$ E
4 Y4 s+ ?2 }% N/ V; K, K d
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
" m% ^( k9 o7 V9 B/ g- V! `. c' U5 C: G0 \
得到text file- A1 g( H9 N' Y' R1 o
6 t) B: J5 G' ~/ }8 {3, python 读取整个outputfile,丢给deepseek 矫正。' j* q# ]& ^8 {% y% {: n8 u* R( A
1 B. J7 d# g$ ]* v, ^ ]( q模型是 deepseek-chat
0 c* F% J2 _8 j9 q. ?4 i, r- @# ]# |- n e7 w+ X8 I
max_tokens 最大是 8192,别的不用改。
0 T' A+ u+ k& d" Y T/ h' L
* `! p* y. `7 O }& `9 H3 B( @参考:' o4 b, l- r- y ]0 }2 W* n
https://api-docs.deepseek.com/api/create-chat-completion
( g: A/ j) f! `: n2 j. T
% H0 K4 W4 B3 P. n+ J4,费用:' ?8 J; R: ? y5 k- f2 G
6 [. h4 M& o. Q9 k实测:
# [1 U& u" V3 `2 ~
6 Y/ L- `& b8 t296K 字母,用了 9 美分。
; R# t" V( Q8 U ]
3 ^6 t. k6 K3 |0 A) j& _英文字母 到 token 用量大约 1/32 Z! X( G0 d: x7 U. {, M' T; y+ Z/ m
1 s* x8 D- A! c" a& Y% Ptokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
( N" |& a9 o7 D! L
( g/ F5 V9 A0 J' S32899 个字母花费 11782 tokens,包含输入输出的 tokens
8 |+ x2 P8 k- x/ E$ m6 i+ D) J6 O( N. {$ e0 c) u
价钱,非常非常便宜了。
" B/ |$ n' r5 x6 A- a. c
1 h6 r! u+ P0 B' b参考如下可以计算,懒得算了。8 F5 s d& K& G& B
; Q8 N: ]3 M9 A$ @: W( A
https://api-docs.deepseek.com/quick_start/pricing! Q% e9 U$ d. `! s3 N6 L
- L7 p0 _" ^5 J1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
( X0 B0 X5 B7 F1 C6 c, }* d1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
" A* V8 Y8 a& Y1 c/ z) d1M TOKENS OUTPUT(5) $1.10 $2.19
$ n$ p1 A X7 k9 Q9 p
+ L# Z* {5 X% \# J# Z2 X. V! q" g5, Balance
+ J0 X( L7 Q1 e7 t8 s/ S, ?5 G/ q1 u2 k8 x, |" N$ o
可以在程序里调用,知道每次运行结束后,balance还剩多少。
# j+ W5 B# L: t: v, I, Z$ O6 J" J参考:# ^4 k; R4 A. B
https://api-docs.deepseek.com/api/get-user-balance
# {; }- p1 n! @9 H* t* X- X, m2 W/ ~4 U; [4 K, a5 x7 G6 s
6, Models0 H$ K7 _* c3 t& e/ m
* c/ K* t, a, O* s W0 x目前就两个
9 ?. I+ }0 I2 I8 d9 \# deepseek-chat
9 K) f( f' a/ @5 O# deepseek-reasoner" | o' q& Z8 [6 A
3 z+ z! Z' z$ G& ?" W! P3 ^
参考:4 h \+ W* ]7 x) O$ L* e. v/ u y3 d# u
https://api-docs.deepseek.com/api/list-models/ S$ w0 ~0 d# g: @' z
7 R) C6 p4 ^9 s3 Z# a8 `. ^
$ s9 O/ x1 z; s* e. T7, 问题8 X- O! l0 ~* r) \9 z& K) ~
( }! r6 ]/ k& gdeepseek 会将前后两段合成一段。
q' v4 ?8 J* ]: Z! }! [特别是那种大量的对话的段落,deepseek会给你合成一大段。
: W$ p; R" p4 l" }7 e& R
; Z) l, {& i B4 u B( O4 C8, 钱说了算。% |3 O$ W% M+ X
; P/ j O; E3 g, y5 R2 {( L0 Kdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。& X6 b- k& w! `9 h
但是API就不会出现这种情况,毕竟我们给钱了。
/ y2 `; n! z& Mchatgpt也是这样的。
3 G; S' V. a) N4 {
9 R2 ?( g5 Q. _) B1 S- V1 I3 _& s% L* D, G( z$ E+ d# O8 Q
|
评分
-
查看全部评分
|