|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 0 k+ I1 l) j: y; b
4 A+ F- H2 L% {
已经搞定.% M% Q$ y3 E) l$ w
6 f1 b- g* C# q0 H
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。+ {* ^& T5 }' {% X* R: t- g
q- H; _8 w K( \3 L" g1 P1, python + pypdf 按章节拆分小的PDF
6 C7 m8 F# G2 E0 b5 T* l$ j8 ^/ p+ g% l
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
8 B' o b# g$ i( v/ [3 K) Z4 ^' y3 u! z# e; A; ~9 Y" m' [* E
得到text file
2 K6 v' v" Y3 d; e0 K( D z2 d8 \3 C! C l* s' F" b0 X# U
3, python 读取整个outputfile,丢给deepseek 矫正。
# Q# L/ W. A- x- e e; h4 W7 J
' O2 P2 Q, l8 z" ]$ V模型是 deepseek-chat
! q" S+ }( Z+ N+ ] F. P
0 Z1 m+ _' q' g( b( R* V% }8 Emax_tokens 最大是 8192,别的不用改。, x7 V( |2 `6 l. W" M
/ C3 w3 k6 S# r- [ W, i' ]参考:
+ \8 Y% a- g7 w" B* W: m! E# c: {https://api-docs.deepseek.com/api/create-chat-completion) n s' N7 X% K5 }9 K/ H
, c+ B$ }$ U" {
4,费用:
( ~: N# E5 Z ?" G& E
8 P: C4 L8 Z O% L( f; J$ Q实测:
~$ C" a# I) z! d. _5 `& d3 @! J' A9 Q
0 S5 {4 J4 |5 Z1 H0 A8 s9 z296K 字母,用了 9 美分。8 _/ p: D" @+ s; K, i4 I/ p- Q T
; t. `9 C' n. z* P) Z! P. G& L
英文字母 到 token 用量大约 1/3
- p, A- P: b' t: X, l
1 H8 I( w; ` ?0 f* gtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
5 n( d2 O, R5 }* R$ _) K1 A8 z4 M. j" j0 \2 G$ a; {5 H' ]0 s
32899 个字母花费 11782 tokens,包含输入输出的 tokens
! y' R' y' |7 {( q" Q/ J
$ d/ C2 `: z" b6 g( x# t/ \价钱,非常非常便宜了。2 R/ r- Y, d0 E
. K E# Y( x) ]) h* C- F参考如下可以计算,懒得算了。
- p# ~" u. ]; C( }9 K N# x9 ?# t2 r
2 |3 I6 D8 q, phttps://api-docs.deepseek.com/quick_start/pricing" N2 c3 K) n1 _1 w1 h: L& ~
# e. U4 a5 x+ j* | D1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.142 X& m c; j: Y: l
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
' ^$ H7 ^$ \% c# C) H1M TOKENS OUTPUT(5) $1.10 $2.19
: T* l6 x9 V& r5 b2 h8 A$ X b$ I- |/ F9 i3 C4 j6 {
5, Balance3 Q L$ S6 m/ p8 \* `
) y8 e# a, t b可以在程序里调用,知道每次运行结束后,balance还剩多少。2 m0 V5 U/ s/ a! v, e
参考:/ U5 b/ b. E! y: p4 i/ r
https://api-docs.deepseek.com/api/get-user-balance
# g. Y5 R: o ]0 J4 P% m+ n4 ]- D* _1 d2 l4 D& |+ m4 Q( h1 k/ ]
6, Models, \; `5 T! R; N# u) E/ ?0 A
}3 C% M6 z. W1 W" @目前就两个
, J; Y# f# j' E7 ^8 r# W) f# deepseek-chat. z6 W$ S3 t8 G: ] M
# deepseek-reasoner) X7 ]8 g9 o. ]* m9 W! `
) B5 _# d. I1 E% ]) [9 r
参考:
& `/ w+ `" ^9 u. }) xhttps://api-docs.deepseek.com/api/list-models
- L( w9 l5 o8 Q& n; `1 h% n [- _" a2 o
4 M# v9 S `4 y& N* Z7, 问题1 G# K/ E$ J! L/ B7 v/ P! f, Z
; z4 T8 ]& v! Y5 t- m( N
deepseek 会将前后两段合成一段。7 r1 o0 m9 |6 k$ o5 _- l: }
特别是那种大量的对话的段落,deepseek会给你合成一大段。. H( O) R5 a& x% P' V1 f2 V
! F8 @2 G1 _' s; ^$ Y# B8, 钱说了算。, N% z( b% Q5 b3 c3 @+ G
/ @& m% e2 H+ W7 K" J
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
4 t( p) t, I* z I1 E1 K但是API就不会出现这种情况,毕竟我们给钱了。0 U' J% h G8 a. d/ r
chatgpt也是这样的。. _7 x7 p, k g, F+ l, f; J
$ M" ^, ?# ^* P2 Y; X
$ L5 U' Z9 v0 G |
评分
-
查看全部评分
|