|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
) p& x1 \" B9 K7 k l0 ]" I/ _0 p4 @9 \$ ~4 l' Z# {3 Q
已经搞定.) J8 |) D6 w' ~
1 W. V( [$ @" {4 P8 c( U6 c
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: l8 a" B* T$ C/ A0 c+ c' C
. N+ g) Z4 E2 G( _7 R- p1, python + pypdf 按章节拆分小的PDF
1 V& d" z, m, O; l
( b/ m3 G# S& [$ E! i+ X' E2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
- K: b/ g5 ^* m0 K( W3 I! i i8 L, b; y/ u0 p
得到text file
; l6 {9 q3 t# D1 d! h+ C( o0 Q+ f( l- v3 M5 ]# a1 F
3, python 读取整个outputfile,丢给deepseek 矫正。
2 Y8 y' L6 e7 y5 G4 i$ t+ i$ m; d, T2 g7 b$ z& [6 K
模型是 deepseek-chat+ I' m4 I) Z/ q* `, n0 Y/ ?& T
2 |1 `. {8 |: }4 K4 ?/ ?6 c! Cmax_tokens 最大是 8192,别的不用改。1 A! B( j H( }% r
% Z# r. F- z+ k( {. s3 N6 t参考:
( c. Y: u7 {8 |- U2 P+ Qhttps://api-docs.deepseek.com/api/create-chat-completion
1 q6 N( K R# @0 q. c7 A9 g: z. d) c- O! T
4,费用:
/ U9 q( a$ K9 j/ K3 U' o9 K: h) F/ ?# t- n/ s- s0 ?* m2 }- O
实测:
0 f! E/ i6 D! h) s3 X1 ?/ ?6 `' |8 n S8 w" U9 t3 S1 ]0 L- \
296K 字母,用了 9 美分。' M* d7 M! c/ g
1 b/ \$ |5 x8 q% ~2 u( v英文字母 到 token 用量大约 1/3
( j6 { ^( p8 X7 @ o; s$ z# M
2 E9 }$ Q1 @0 F, ?2 Ytokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
; X5 ?! g/ D6 L0 N' l4 W9 Y% l5 m" Y9 g7 D
32899 个字母花费 11782 tokens,包含输入输出的 tokens
* E6 ` ^" Z3 o1 d+ x0 A7 F! e, I( y" \( B8 |
价钱,非常非常便宜了。
) T( d- ~* \( \! a
4 j r& i- }, v6 c8 I' ~参考如下可以计算,懒得算了。. u, C6 Z8 g) i: i+ Q$ z5 v8 W! _' S
, r4 |% J% U: f# f: ~+ rhttps://api-docs.deepseek.com/quick_start/pricing
% Q9 B$ }. b9 I. F6 d, _
/ R. f% H2 V! V' ?' y( C1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
! }3 @ ?# {$ ?- [8 c; G1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
1 X2 Q N6 C9 u1 @# V1M TOKENS OUTPUT(5) $1.10 $2.19& t( L. y2 b3 _7 d! s$ D
; }# W, [4 |4 J8 W, |7 n
5, Balance
+ ]& E) q+ _4 b0 x6 F, {
' |& H1 H3 d2 p& d可以在程序里调用,知道每次运行结束后,balance还剩多少。! e. _# S+ m# r+ s
参考:8 p) c* e4 G6 T' Y
https://api-docs.deepseek.com/api/get-user-balance
, ~0 Y4 N/ N) R% N8 I- P/ i# I. I' r: f
6, Models' l& y2 {2 q4 d6 K3 s- e
) ]2 A) ?$ ^6 |' d目前就两个
+ P+ {' M" t; u9 ]* N( A# V# deepseek-chat. m, K* M, }$ E+ u' s
# deepseek-reasoner4 `+ g3 d# G1 `3 Y
: Y& h) Y- z7 v2 U
参考:
7 p1 N1 L/ u* {' Q, Phttps://api-docs.deepseek.com/api/list-models
9 \2 \$ B2 I) |8 Y5 a6 s6 _2 i4 s
% A) e. P+ ]9 R1 [/ t4 ?( C
. Z# n9 Y6 I& d! H0 m7, 问题: r6 e# p0 X7 Z9 _& V9 F: k$ g
8 o& q. ]! w# Ddeepseek 会将前后两段合成一段。
1 h8 `; B' }% Q. `1 Q特别是那种大量的对话的段落,deepseek会给你合成一大段。2 [/ p4 \, b/ ^8 j! ~: M
( b7 Q6 x0 S7 h& k( l0 X4 b
8, 钱说了算。2 u" r+ a9 e2 Q" Y. I; F
4 I5 }1 p& a: t. H5 n/ Q1 wdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
- j) C# h! r/ Q, h5 K但是API就不会出现这种情况,毕竟我们给钱了。8 {6 @: p7 C- f$ w. @5 `+ @
chatgpt也是这样的。& u9 f( K6 E) {9 I. O# H" J4 m4 p& h9 t
" Z% M3 ?, p8 Q' ^$ ?. r
( a [: j* W4 [. m1 r
|
评分
-
查看全部评分
|