|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
L+ _9 P! l4 j/ [% w3 _7 _. Z: F
/ J, k: i: e3 G1 y9 u* Q已经搞定.
2 v/ H7 b2 m3 t ~- @, ]! G. I0 z2 Q* t8 t: _9 ~3 t
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。. }! F# w$ c4 `1 }% M4 A
9 C% C5 T6 W) E, l* {1, python + pypdf 按章节拆分小的PDF
# [0 F; o% t! ^( ^+ U$ Q/ d
* P) @" Q+ d/ {7 n6 j) R" l1 h2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile/ W" O3 i5 m9 a4 q( u: M
1 Y* n8 s* ^+ j7 a v/ X. u3 S得到text file1 U5 a! k/ [( f" ^$ Q* f
* Q1 Y& N$ A4 L$ \2 e9 k! H3, python 读取整个outputfile,丢给deepseek 矫正。3 I; \6 x8 ~/ E' g5 q( W
9 P$ t7 O" I. A' P6 a) v# B
模型是 deepseek-chat9 J% Q/ d7 U5 r
' @1 X8 W+ b- t+ Lmax_tokens 最大是 8192,别的不用改。
! [$ H _ E D: p% T+ F9 t- Y# q" M& Y& n: ?/ H# ?( b; [
参考:# e6 H+ P/ v. F6 X* N# w. f6 q
https://api-docs.deepseek.com/api/create-chat-completion
1 y8 L% J8 V# C4 r0 Z+ R" U! Z
' S* l. c$ p$ L/ _$ Q; |- I4,费用:
, K1 R0 p2 |0 R& X8 t
|6 H" D" A- h- Y实测:
: a+ s+ I* E& e1 e9 X+ c0 A: |, A! f
296K 字母,用了 9 美分。
! y5 }# d0 d4 }: _' b- F& U! H; b) `7 E7 p% M3 W& a8 R5 w
英文字母 到 token 用量大约 1/3" u q3 H- e3 P% L6 \* w: O8 m. k3 L
% o9 k l4 S" N t# M% Btokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
9 I5 O6 L6 E. } g0 x- w" W9 s4 V
32899 个字母花费 11782 tokens,包含输入输出的 tokens+ Q) m, d2 _/ X: v; o( G; {
- ~; A- K& u3 H# P7 z
价钱,非常非常便宜了。
$ m, Y1 [. |8 m8 x5 b6 j/ s/ C( V
+ V# b8 l% E9 G" P y8 c参考如下可以计算,懒得算了。
1 O4 A8 M4 C$ Q) K1 }8 w4 x) S5 z3 V6 C
https://api-docs.deepseek.com/quick_start/pricing
: d4 R6 D5 N5 V; A3 b+ q# {- [
1 h# Z8 F! u1 n2 _1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.141 Z% Y$ W7 F7 L5 l$ u
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
/ x4 E* m! h6 V3 Y9 d$ e6 @1M TOKENS OUTPUT(5) $1.10 $2.19
2 Y i0 P, i0 G7 z* {. T( H/ e/ b. y/ |) l' f0 {- o3 L
5, Balance
* ?. Q- N' J& n0 Y
& ?7 L; x# O7 Y' r' B) w, q5 G5 x可以在程序里调用,知道每次运行结束后,balance还剩多少。
6 s" ~9 ]' D( P: s1 g4 X参考:( J4 G, x4 s. v3 l
https://api-docs.deepseek.com/api/get-user-balance
+ z: v- [1 K6 a9 w% a# z. Y, h8 S
6, Models6 H2 R' v5 F2 G3 ~$ J6 P# O) k
5 ?1 C6 M1 P% C/ W) c& @
目前就两个
: h- J! @8 } y4 F# deepseek-chat8 s# @9 \. L; }6 K, q7 X4 F. L+ |
# deepseek-reasoner
4 k, N/ h- A9 [1 u/ f4 h
9 j T% E4 q# b4 m, H$ @! Z ~( F8 W参考:
3 f5 `1 g* l0 U# Z/ f+ _8 q fhttps://api-docs.deepseek.com/api/list-models$ R; d3 k1 @; L7 Y
0 u0 R8 g4 H U0 p4 N9 a
% G) g) ^$ K9 q7, 问题
9 J: Z1 B$ U1 C1 M3 s+ X& j5 b: q% }3 j
deepseek 会将前后两段合成一段。* U5 |4 s% N4 h: ?9 d) y2 C: f
特别是那种大量的对话的段落,deepseek会给你合成一大段。4 j7 K; W; C# K2 k# [, t' y, n
4 E4 m+ L7 _: I6 t
8, 钱说了算。
* G3 W1 b4 A4 e7 h+ L" R
1 F: }- u$ }" x" I; wdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
* L% Y2 z$ P5 O& V7 S p$ u但是API就不会出现这种情况,毕竟我们给钱了。
/ o1 z/ n6 a! [5 ], T2 F/ schatgpt也是这样的。
8 r% m7 G! z- n! t1 g. P' V8 w$ W+ u9 ^1 j' _" V! Y# i
+ t' L; @! r2 g* E1 h, k |
评分
-
查看全部评分
|