|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
; q9 I& T/ T1 z2 C+ T$ ~3 ~ R" Q
* }& N& m3 e* ?& h0 y1 j# A5 Z已经搞定.4 b0 U; U1 _( ^# q3 Q' n" i" b4 H D C
* W! V* H7 f8 ]& f8 S0 H3 o! \' q
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- {* l j; G$ g' N4 ~# x* Q6 H* c, R
' }7 R3 d: Z' v' \- y' [1, python + pypdf 按章节拆分小的PDF+ o! `4 V- b8 h. i3 X9 I
; }3 Q& A) H! J! g5 Q
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile N6 W# U: n K( A5 ]/ K1 o; |
4 E3 X* i. F1 p
得到text file
* d$ [2 D# F! n8 `" H8 B# Y# k. g! z% ^
3, python 读取整个outputfile,丢给deepseek 矫正。
2 U5 K' F: |4 s' a6 P+ o% `$ @( u0 x, o
模型是 deepseek-chat4 R/ i0 ?. j1 A
% d# \, w2 B( A7 J: p \
max_tokens 最大是 8192,别的不用改。
; W/ W8 @3 U' G$ K3 }; u( _9 M+ y1 L' n% O9 @: ^4 e
参考:& g- [. P2 V4 F/ ~6 R
https://api-docs.deepseek.com/api/create-chat-completion
/ h' i1 _( W& Z. A; \
5 a3 e# J1 _ O, b$ | ]$ s& F4,费用:7 H+ o" _6 [/ A' K' |
1 v" H7 x9 H! }8 J. M" Y
实测:+ |/ {1 l2 @0 n
% d2 h) v [3 _" J ]8 y6 |& a1 Z
296K 字母,用了 9 美分。
3 p/ g5 `6 ^, Z& s
9 A1 g8 m; C: D8 u英文字母 到 token 用量大约 1/3
, n! ~9 r+ A6 e, f3 u% [# T
3 w# m) q- J1 Mtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
* i. K2 ~7 ?3 X. L4 `% E Q) p/ P
32899 个字母花费 11782 tokens,包含输入输出的 tokens
) o$ c; s# U i0 s% x' ?4 f
7 i! v2 ?8 X. t8 X0 {. Z# J价钱,非常非常便宜了。
' N! R: [& Q% s2 `, u, F" F: s) m8 r& |2 l6 q5 s) r
参考如下可以计算,懒得算了。
2 E0 q: ?1 P6 G* N- y: e0 o$ ?
* @0 ~2 ]+ |4 W. v# H1 h) A$ Hhttps://api-docs.deepseek.com/quick_start/pricing
: D6 W/ L- `1 `* l' I6 d4 V" L
6 O+ w& n' f" m7 U, r1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
( m/ x1 n0 P7 v1 F- x! c& S; |1M TOKENS INPUT (CACHE MISS) $0.27 $0.55/ c9 y! Y9 x6 u2 k3 d% @6 B# o5 v
1M TOKENS OUTPUT(5) $1.10 $2.19
8 |/ M& p& M: a) @* ~9 X& @) r% X3 l3 C. U7 y3 U( _
5, Balance+ p& v9 l% b8 [* }$ M( B: n
1 X' ^! D# S3 `7 T6 y
可以在程序里调用,知道每次运行结束后,balance还剩多少。) w# \. } o$ y I& `
参考:
1 S5 C8 u0 ~- q: `! U0 Rhttps://api-docs.deepseek.com/api/get-user-balance
1 y1 j1 |2 d" h& k! v' U7 f: d8 f. B! s; _# H; ]
6, Models
1 ~3 f+ X0 r: {
* V/ H" i( d4 y- n. Y+ o4 `目前就两个
/ M% P0 r% [6 {1 h0 L, f- h; u# deepseek-chat
O' y6 Z% S7 `0 o# deepseek-reasoner
3 E$ Z# t: U% z! y; X
* y ]' C/ B2 W# u; p; R8 `/ y, Q参考:
4 \, J1 ?& v4 U+ H+ hhttps://api-docs.deepseek.com/api/list-models9 `6 G8 v6 b+ u4 e7 R1 \( V8 r9 n
* s \# N; z6 t3 s( ^1 C) c
3 n `3 h: p, R7, 问题 @0 z6 C3 U4 Y4 F
3 J+ i2 r6 t4 J5 {/ Xdeepseek 会将前后两段合成一段。: ^8 B( ?6 Z4 n# }, Z. w
特别是那种大量的对话的段落,deepseek会给你合成一大段。9 R0 b: U( N2 C# X1 o! B
: x! x, j, f# a: h8, 钱说了算。8 O& V) ]2 h% a" l) j
0 J- y( A* @% h2 c6 i3 k* ddeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
/ W! n' K. p/ y% J3 P: B5 R但是API就不会出现这种情况,毕竟我们给钱了。! s7 {& O5 y3 _$ U
chatgpt也是这样的。
0 `, F: D$ O0 }7 T, V O& f* M3 H8 B: t& `9 @
# E9 b9 K, z4 K4 T& l/ ] |
评分
-
查看全部评分
|