|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ( m' e( q+ Y0 k" k
6 c! T) O) K& G; t8 ]
已经搞定.
0 p5 L w' A# c! }( @- S+ S; k" h8 s$ m
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& Z4 z" O- x5 C. K6 S7 E
, r' h' B! T! j+ F
1, python + pypdf 按章节拆分小的PDF# b, I- ?- F' o& }. g0 Z; Y" \
- ?6 ^ o* s5 t6 m2 X! |7 @" F# W
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile! D. d, r$ i0 Q
; B2 ^7 ~) C+ M
得到text file
* V5 I: d( }* z4 h/ [+ ]% M6 b# J9 K6 Z
3, python 读取整个outputfile,丢给deepseek 矫正。
' s# E8 c+ ~0 f* K8 P. X7 m% l5 r# M, x2 n
模型是 deepseek-chat9 T7 G+ s' R! M
/ w7 N# j. R4 C8 g) V( E3 C
max_tokens 最大是 8192,别的不用改。
- `9 s8 z& n' D; [) ^8 {. \8 }- R
参考:
- q# t+ T4 y, G, d- ~https://api-docs.deepseek.com/api/create-chat-completion2 V1 H. X; I! t- k) X2 b9 J
, _7 d) S" p) K) ~5 L- q
4,费用:$ U& p+ ]3 \- v5 `8 l, P: ?* Y$ l9 b
3 k# d. J' A) N/ a6 r9 G实测:
) Y7 r/ V( W" Z- W
( O S; {: N; N! I" O! D5 J2 a2 F296K 字母,用了 9 美分。
3 Y& u- E5 W% g% H8 u/ ^# v! g$ B; `) z3 f, D) _
英文字母 到 token 用量大约 1/31 g) [0 L. Y$ j6 f* [ c; P9 v
- a6 B' j) C1 X$ b# T' j, \
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
$ a( y6 A' Z9 z# U, Q& e, k7 t
1 X, {% X% r1 L7 S& C& |* ?& t2 }, h& E32899 个字母花费 11782 tokens,包含输入输出的 tokens. j! y& i k# Z
' [0 J: |$ r, ?/ D6 X1 l* ]
价钱,非常非常便宜了。- v% O8 R$ E8 M
9 s. Z. Q" E7 Q. R& K! ]# _参考如下可以计算,懒得算了。8 s" U/ k2 T6 U* W$ K' D
. G b# ~7 J' \+ l) W% x, qhttps://api-docs.deepseek.com/quick_start/pricing$ Z4 d8 e& L& U
[& m- ~( }) l1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
; g& A# D6 C* }2 ]# B8 p7 \* V1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
6 ^1 a; t7 U5 ~, B% W) {1M TOKENS OUTPUT(5) $1.10 $2.19
" W/ I1 _/ u) \. B6 y2 z1 n3 p- B( ^$ t+ |
5, Balance" d, |7 r8 R# H3 e6 @! `
3 @- l2 q% C0 v$ R9 G- ~1 ^
可以在程序里调用,知道每次运行结束后,balance还剩多少。4 G, u2 ? |' U- O- g
参考:5 }9 q6 \* D( p {) a! q
https://api-docs.deepseek.com/api/get-user-balance, W# u! p/ a7 a1 b; {* L) ?" `
1 W3 W. [& s( N0 y, E6, Models3 y# V1 H% ^$ Z4 d# O# y8 ?- Q: O1 }
3 A: p) ?) o s/ u目前就两个
" M2 V2 s/ t; j: t6 C% s# deepseek-chat
, \. G6 x) c, A) d; s# deepseek-reasoner
$ U% {; Q1 p. D7 ?* ` J4 ?# {: @3 H5 l( l, Z
参考:7 b% ^2 ]) h" {- V+ x& z
https://api-docs.deepseek.com/api/list-models! t3 X; l7 s, D5 f
5 _ k% f* ~' |; D
3 j: o# `( j$ ^/ u) N, Q6 F7, 问题
% F: g5 t( X& Q( r* j) I' \: S% T# G' ~% \
deepseek 会将前后两段合成一段。
5 O5 S3 _. d l特别是那种大量的对话的段落,deepseek会给你合成一大段。
- e: u2 w8 Z1 l4 V3 i5 T
! E0 C1 Z" q$ \' T: @, k S8, 钱说了算。
6 t- L* G6 d) M; Z C
6 |+ h8 |* i& `4 O0 \4 D2 @deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: d/ D' `; a; a3 X; C2 F) u) B! B但是API就不会出现这种情况,毕竟我们给钱了。& ]# X6 `! N+ U: x
chatgpt也是这样的。
9 ^6 k4 T g0 i9 G) ?1 U% W' q5 b% {* e9 J0 L" ?3 W
2 P' R7 X/ f& B! M/ ? |
评分
-
查看全部评分
|