|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 K6 r4 t4 O1 B- ?
V8 n, V" X" E) x7 W已经搞定.
6 \$ m. Z2 p' H" H g4 J4 Q Y' h' }" V% P' d( V
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
! {2 l8 O) F' |! D6 F
% T' o1 ^$ q% @" V6 }1, python + pypdf 按章节拆分小的PDF
$ R6 R+ k6 l' c: o3 U' E, b& E1 W5 f' Z- I' z" Z
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
3 H) F( Y) M2 w) C, D3 b* E+ {' m
得到text file h4 r: b+ U# _1 I
/ f7 r0 g* W, j4 ]" D: x3 E( g# K: u
3, python 读取整个outputfile,丢给deepseek 矫正。
; _: q! o9 A6 D3 [8 b. i! f
/ Z: A6 C* _% P) `模型是 deepseek-chat
9 M, h! H1 E; [! n2 _+ a' O2 J5 x J$ U1 B' V/ P Z4 [: \
max_tokens 最大是 8192,别的不用改。! M* C1 a2 v/ Y# C
6 f2 H( | P& t% M
参考:
- R" ]2 B3 c* f C* yhttps://api-docs.deepseek.com/api/create-chat-completion
: |) h) ]6 y" s! o2 C, F9 q% Y J# s; M. H; d
4,费用:
( L9 k( x- U2 h( r* p( ]6 X# @/ Y0 W9 N
实测:7 k. K2 W: Q0 K( u; T
5 V2 S3 A! w. K8 e$ D0 ?
296K 字母,用了 9 美分。' x; `/ m7 P! Y5 d, l
8 D6 l' q6 C# ^; h1 D% C! S
英文字母 到 token 用量大约 1/3
' Z2 r5 L# ]' k H& A' h2 J8 g+ {& v+ q$ J
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
; ~$ g$ V( {, n% P$ W6 J: C& ~! p' Y+ h7 m1 R2 L o ^( L C
32899 个字母花费 11782 tokens,包含输入输出的 tokens
- M/ K5 n4 v- u% P/ r: E/ _1 t0 W0 J, r2 i3 q& l
价钱,非常非常便宜了。$ K' _9 r/ ~2 O% f, Z6 K8 p
0 f: k# K3 _( V参考如下可以计算,懒得算了。
) y- D) b7 e/ Q- T6 J) L4 u6 N
: N4 S- I0 f* L4 `4 E: W& G! Dhttps://api-docs.deepseek.com/quick_start/pricing
% Y3 G# @; t9 [, U3 }
7 r" u1 k6 n) v. V5 R1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
& i* Y( x& P9 y$ Q" m) ?1M TOKENS INPUT (CACHE MISS) $0.27 $0.55/ }# j9 w+ L/ H3 b# W* @( f
1M TOKENS OUTPUT(5) $1.10 $2.19% ~; T/ F+ V W* t
E1 ^/ {' B# h) W# c5, Balance
6 ?& u4 o0 F0 [* u4 ~/ ~2 K) J5 \4 N4 F2 M n% J, u9 k, n2 `
可以在程序里调用,知道每次运行结束后,balance还剩多少。5 @1 v0 ^1 S; Y) M3 K" e
参考:/ c, V* Z0 Q5 @- o2 `
https://api-docs.deepseek.com/api/get-user-balance* R' Z L+ N0 p4 Y, h( q
4 O! Q f$ q- x
6, Models
& L% b9 H5 t8 P+ c6 Z# W( `
* I3 B6 ^- v2 U: `目前就两个
! w s" Y9 e# R0 n% c% |; z' B# deepseek-chat
4 X- _0 C) Y; ^9 l. C; e# deepseek-reasoner
5 X u1 x% s9 t8 ]) t* O+ C) ?3 E
参考:
; k0 h6 m2 ^. x3 R2 L: f8 _https://api-docs.deepseek.com/api/list-models- @! k/ Q% G/ d8 J" \, ]) \7 n
( J5 h1 a H$ S% B; i
' ^8 {& s0 Z+ d7 {8 _2 x7, 问题
% V8 P6 x5 Q+ @- m2 s A# g, c9 r- a
deepseek 会将前后两段合成一段。
8 _5 X" r: m! o0 c特别是那种大量的对话的段落,deepseek会给你合成一大段。. J; a$ L+ u! `4 I: O
( n. X5 w5 I8 P: Q8 O
8, 钱说了算。
: K a: V9 M8 S2 m2 b- W; i5 k E# f
, p: R/ K/ t% pdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 N7 _: [; t" e' M4 e% R
但是API就不会出现这种情况,毕竟我们给钱了。
, L/ K/ t% d, e4 V1 l1 N* t$ qchatgpt也是这样的。
) Q* ?# a. ] J0 L( r2 C% J! _+ v! g5 g: p- L7 [8 t/ K! a. `0 Z/ @/ ~
, Y5 a5 U8 I6 g
|
评分
-
查看全部评分
|