|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
7 t) k5 l( ~ K) s% o4 e/ {5 M+ Y7 q4 o. _9 I
已经搞定.
0 b! Y+ g4 q5 b( s6 [
5 P0 n( P/ c" w' `, L' L' j首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
9 b! _- Y! B9 ^ [$ w! r1 A) e! `- J) s8 z3 Q( n
1, python + pypdf 按章节拆分小的PDF
; Y% T7 b" s# o9 A% f: J: a( H. Y' Q
" ?' i+ m, q8 c9 g+ Y2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
( N7 `5 L! J- ~. p) Y/ s7 @7 F
, y9 Q2 \9 D! v) R得到text file
" ]! t4 ~' S; _$ r. H: l3 _# U8 p( ?4 ]9 p- p, f, v; o
3, python 读取整个outputfile,丢给deepseek 矫正。# T4 u; k( R0 b t( p( O j O
* o; B& U7 T& R1 G- n6 |) O S8 ?模型是 deepseek-chat5 m4 [ S% {2 R( | ]. ?! o, R3 G
7 R$ Q, P' P* Z& I y
max_tokens 最大是 8192,别的不用改。6 S3 y$ U: c7 d" T; ]; }: R2 S
4 K1 Q; r2 [, d0 O& O
参考:1 y2 z9 [# V G3 n" W1 ^
https://api-docs.deepseek.com/api/create-chat-completion' X' S: Q+ o2 G7 T3 r$ s0 h
4 Z+ P+ m7 c# M4 _$ w, @4,费用:7 `- l8 D O* P( ] j
/ J P; [& P% I
实测:
8 g. x& A3 R. O$ P/ E/ w2 E$ w N' f' V5 c, D1 D/ u
296K 字母,用了 9 美分。/ I {8 }/ S$ {/ n1 c t
% G2 h1 i1 S" G3 a6 l英文字母 到 token 用量大约 1/3- }( ]% p8 o y5 L0 f3 a
% U/ s5 J6 S, t! g% ]4 W
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
; o7 J9 x& g# F# `
- X' } S. X1 ^32899 个字母花费 11782 tokens,包含输入输出的 tokens
) ~% |$ _) k- ^% c6 ^" j3 T' C
1 m6 v4 A+ h) L6 H8 x% ^价钱,非常非常便宜了。
" A+ j3 ]7 E4 M7 D' n
+ [5 x7 t5 X, k) w参考如下可以计算,懒得算了。# w# y3 Y/ h0 H8 W& g
- V5 Q, e4 l# B' i6 v8 u4 U, e9 Ahttps://api-docs.deepseek.com/quick_start/pricing7 \4 r: k- h# l2 o/ n& N
. b" X+ q+ b* Q) z! X5 p1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
+ I, [& Q" N- z0 }$ Y1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
; z/ }( g* I; W$ e7 x( R1M TOKENS OUTPUT(5) $1.10 $2.19
1 o I. F0 S/ X; T5 l2 H
! g5 ?+ W$ U+ _3 ]0 W5, Balance
9 l5 z# R7 y. v2 S7 F0 b6 d/ ~; d
! m! q6 Y1 w/ W- B. G0 `, S可以在程序里调用,知道每次运行结束后,balance还剩多少。
0 _, }$ l- j0 k Z8 p& u参考:6 X" x( }8 J# L+ X1 O& J, I
https://api-docs.deepseek.com/api/get-user-balance
( V, u: S% R3 \6 q m' q- f# u: G6 u1 o: e
6, Models
4 p) u2 l: w8 @0 n# N( [
6 k/ T- `" Q$ }8 U) [$ L目前就两个
2 V' \8 A+ A( ]# deepseek-chat. z) s; ^8 j& y+ N, z7 ?' h5 B6 l, \
# deepseek-reasoner1 s3 g1 c! U' f2 U8 }
9 u) a+ ?/ z3 F L参考:
7 h& u0 ?. B/ I6 X( R3 Bhttps://api-docs.deepseek.com/api/list-models' ?' \8 R( ~. x- q$ s( g
. r! ^) k3 n0 g) Y
. |& Y/ v: S4 S1 O- T1 r& k
7, 问题
; w8 @- `, A1 s% E$ |
K1 {/ o: C7 |# Wdeepseek 会将前后两段合成一段。
: U( }) b. |* ~# U' h- Z特别是那种大量的对话的段落,deepseek会给你合成一大段。1 w4 H9 q7 h/ I @
2 o% R% i$ N9 V7 o6 v2 Q- r, U& V
8, 钱说了算。, c! v- L$ F3 N' R
; S" W5 b+ L+ D2 Y3 @deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
; Y( l1 k$ J% w4 h但是API就不会出现这种情况,毕竟我们给钱了。
5 [% N/ `% i- E3 D" g; kchatgpt也是这样的。
% p4 H6 ]9 f( N1 @" H
) u: v6 u7 F8 H I4 c0 }) S+ V
/ u7 \ F. W- r# ~$ N+ n, Q |
评分
-
查看全部评分
|