|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
" G0 m+ W- F" c, w8 c
# m* X; ?9 y! }已经搞定.9 q- D0 ^4 i9 Z" I0 I j
9 u' `: v1 n: A3 {, `4 o. t
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。' C- x9 d$ j4 Q" F, e
% S" d7 s: }; G1 l1 C% s2 a1, python + pypdf 按章节拆分小的PDF
6 o! s9 f2 t5 Z5 f' r8 o2 a/ ~5 }" Q. p3 F( Z) `, H! `
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile2 V$ c& _7 q* z# [" X
. x% E/ g0 ]$ R1 Z, |2 K: O得到text file- I5 m/ C' H( M! H! C/ S2 F$ N& ^
y# f1 X0 K1 ^2 J! @3, python 读取整个outputfile,丢给deepseek 矫正。
* C* s! N/ \/ l8 J1 G; s. H, e& F) G+ I4 l6 @ U r
模型是 deepseek-chat
( j& l- }% Y: ]9 F7 L
- F3 j- t. N2 g0 C% Z8 W0 N/ zmax_tokens 最大是 8192,别的不用改。6 ^9 U" C6 ]0 ^% e2 a
& z$ X: |' U' f) h: S参考:
. D* K1 v+ c6 X1 d2 Ghttps://api-docs.deepseek.com/api/create-chat-completion
. ~1 H! g6 e& j/ @4 A% ~
7 X% g/ p/ v6 N6 e4,费用:
' U) B2 d4 k0 P+ T$ \
; Y1 ~. _( ~' k实测:! l; ?6 H& k- c
, }* d r) d4 i! h4 x7 {" E$ e296K 字母,用了 9 美分。
% N& u9 w4 v' \! \7 G' _/ Q3 ?7 y# P' e8 } L! \' S! K
英文字母 到 token 用量大约 1/3
# k8 o" p3 t W1 A
5 I) }$ b5 g% J* o, B( I3 L6 ptokens: total, 11782 completion, 3729 prompt, 8053 | s: 328995 j" d: m8 }; U6 n7 E6 S# y
, j: D- |' Q$ I6 b! X: G
32899 个字母花费 11782 tokens,包含输入输出的 tokens5 G: Z7 D1 o* p6 C1 D
. W9 b3 `5 B" }/ P
价钱,非常非常便宜了。% M7 G- I& d& a( |
- w! `9 p) D J参考如下可以计算,懒得算了。1 v# ]* q- _4 j" q3 Q; K& u5 j6 {# s
W. j5 \( Z& i& I2 H9 r2 F0 X( Vhttps://api-docs.deepseek.com/quick_start/pricing6 u" O/ |" o9 e' V. x
e$ V* a+ K2 e1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
- I. l8 V# |" J; s# T- d. _1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
! v- Z6 }2 J7 C0 T% u% s3 I9 c, ~1M TOKENS OUTPUT(5) $1.10 $2.19" e% x2 X! t) x8 n
2 @! n: \% c8 o0 C6 l5, Balance6 N# O( J! C4 S# S# b. [4 P
( h0 Z S( L! B4 A
可以在程序里调用,知道每次运行结束后,balance还剩多少。
5 N) W7 R* Q# e% O$ X& c+ U参考:0 ?9 J! B$ \2 l( B" N! X5 F% h2 r
https://api-docs.deepseek.com/api/get-user-balance
- c2 r7 w' y1 m: D- T* \
% y: m a, ?& w+ }0 b5 P, B, J6, Models
: C2 l- S; r, R1 }8 L0 b6 Y e- s M+ q4 k/ L; [
目前就两个1 w0 ?% F2 D- j8 c
# deepseek-chat
$ L, \, J# ^ p& `2 K ?3 }# deepseek-reasoner
- C# Y0 \# ?: D/ U" Z9 }( |
" H- J5 J C5 L+ L& s3 m- c参考:# a' J2 Q- i$ z. ~ h
https://api-docs.deepseek.com/api/list-models: T3 I. i( f( ?" ?! v
( j& j" [) `& Q' P/ D, B
+ c5 r6 M. \- ]7 d. ?1 Z* u7, 问题* G$ H7 h5 i$ u% ^/ c( a
) g7 A, D8 z6 I P/ p4 y
deepseek 会将前后两段合成一段。3 b9 V6 X* g+ }6 @: d
特别是那种大量的对话的段落,deepseek会给你合成一大段。
* r; a: }" t3 R9 O
. J a$ I) q# f: y8 V8, 钱说了算。
D* Z8 v4 a0 x! f5 f
( z$ u$ G( S) }! M' V8 P" adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 S! c2 m) N+ [9 F5 Y
但是API就不会出现这种情况,毕竟我们给钱了。- \1 m& B% U! A4 X* g5 U% z) h) T
chatgpt也是这样的。
0 c6 F+ x+ y% r
; w3 N- J% ?7 a! |# @& t. `% b7 H: ]+ ?$ @" L
|
评分
-
查看全部评分
|