|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
' P5 o$ q- F; s( `% i# \# w2 s) z, E" y4 z! b7 _
已经搞定.
8 Z# `! j5 U2 Y( Q4 H/ ]
4 \9 z7 m* u0 x5 [5 H首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
) I3 i5 d! I) _& f4 `% N: l. _8 t8 E. S8 U1 ^5 P
1, python + pypdf 按章节拆分小的PDF U2 i( |3 e7 i3 E3 d
$ b0 X1 _, w9 b; U: b) w
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
, _& A4 k+ i4 a# |& V: Z0 b! i( P- u- H
得到text file
; N" N5 ?! b0 w' F& H6 p( a8 Q9 c3 I
3, python 读取整个outputfile,丢给deepseek 矫正。
. `1 N7 _3 R1 |- r& G
& O8 ?8 V4 B. n5 J" E7 X$ m S模型是 deepseek-chat2 C3 T* S% G ?
* w0 n9 n, e. z! G" _
max_tokens 最大是 8192,别的不用改。
; [1 j! m' F& [/ F" _
' o1 r) V% J, a" J7 k/ q+ x参考:, L8 G0 [; G" V5 ?# [; f. a
https://api-docs.deepseek.com/api/create-chat-completion" p3 i- Q# A# D+ F. Z4 f
2 P3 ]4 ^; q! {) s8 r/ w% W Q4,费用:
6 |6 P2 v" o- ?; S# U
! z) q& b- f1 x( b! ~3 l3 F实测:4 ^/ y0 ^7 n/ I7 P- r1 Z, F
" E' Y) e/ Z# R+ r1 \8 D296K 字母,用了 9 美分。
B1 V; a4 V+ y- b" r. \. m1 b2 x+ P' ~, |
英文字母 到 token 用量大约 1/3
3 o/ o7 w2 X( X. h2 e: H) Z" m1 K1 F! S% J
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
0 k3 Q2 F: n Z3 X/ M1 s" Y; u0 r4 w3 D2 [% p- J
32899 个字母花费 11782 tokens,包含输入输出的 tokens$ l h3 [2 V0 p$ ?) _$ ]6 Q
/ q3 S `' u' A; o' X) A" Y
价钱,非常非常便宜了。& x! |; ~8 w& c$ ]* E( c: b
" e i4 H i z: C
参考如下可以计算,懒得算了。
7 |- f! r5 [8 o( b G- [ p; o: c) I7 w8 a2 F+ ?$ T4 u
https://api-docs.deepseek.com/quick_start/pricing! `5 I' ~3 e/ S W3 H+ }
4 X2 q/ d7 Z; u) s+ f6 _
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14% H9 P/ K% P+ ? o' M& W
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
3 g' u1 l- E* q3 H) l1M TOKENS OUTPUT(5) $1.10 $2.19) l7 n. W% c8 ]
4 [! c) ~/ x; X$ N( g7 ]5, Balance) {8 {. a/ \1 V t
0 }0 W& E! S7 X
可以在程序里调用,知道每次运行结束后,balance还剩多少。
" U: M2 k: z, s7 R' j参考:
4 e4 }" j6 L( `https://api-docs.deepseek.com/api/get-user-balance4 n5 I; y* ?9 X/ s) b* `
, w: ~; ~+ \) |, X
6, Models
* `; P* ~ Y" }0 v( ^ Z3 ^4 y% ^2 O' Y; @* N a+ F3 J
目前就两个, I0 G8 J# f7 M0 Z
# deepseek-chat
( p- T$ \" _" T' F: s2 q: g$ y# deepseek-reasoner
. t, c$ Q1 m7 g/ R, a$ G) e3 j; v8 I: z' _$ d1 _
参考:( a H6 B. a9 p: ]+ L" o% Q5 K
https://api-docs.deepseek.com/api/list-models
9 u8 c6 a& [1 b. Q' L: |+ k! d
, O" U6 I6 A' U2 h, y) W. E4 y4 X5 C) t6 ?4 V& c: P
7, 问题
0 {- E/ V2 z7 L% l
7 t/ t8 f* b: wdeepseek 会将前后两段合成一段。
/ M4 b3 S: G/ e! E特别是那种大量的对话的段落,deepseek会给你合成一大段。' g+ _( _! K8 }" b# c' G) [, M L
% h+ ~0 J& T' p; p( X" {* E8, 钱说了算。
6 H- O, t/ F+ O$ g3 R2 B
6 Z% D& X* `6 S% w) R& [1 p2 Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: B% I% ~ y& d% H5 j F! T. d但是API就不会出现这种情况,毕竟我们给钱了。( {+ h! q, g+ q* u! V3 B
chatgpt也是这样的。7 x* D" h% {* U! e# l; T7 I" g" S
5 V- r0 @6 X4 U: W2 n2 O+ f6 [
b0 B( v% r. c% [" A" O* v
|
评分
-
查看全部评分
|