|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 . g4 t W8 R( u; I/ O" H) T
; g$ ~# A! f4 w
已经搞定.
( u- i) ~ w' r/ y/ U U8 V$ D5 l$ K
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
6 S- Y3 q1 ~- U5 |+ m
- M. h# @* T9 [8 |: v. ^5 d6 H9 Y1, python + pypdf 按章节拆分小的PDF
9 Q4 H7 I: S3 i2 p+ w3 x1 r1 {2 q8 |+ ?; x% L2 s- ~
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
! E, ?- S( h. r5 y/ t$ ~
5 \4 a. T0 a3 o8 j6 \% z' Z3 x+ G得到text file
/ A+ e6 e. r3 B) y! \1 X- l- ~1 \7 p* G6 t7 P# n! q" o, Q
3, python 读取整个outputfile,丢给deepseek 矫正。& F- ~& b; I! o q _/ Q" {9 q- I
- o0 `3 s; Q+ O6 R# ^
模型是 deepseek-chat
* _" N D2 Q3 b8 J) t( u6 h
7 b" V( u W }! pmax_tokens 最大是 8192,别的不用改。! o9 z6 i2 ]$ }5 B& q5 C9 y$ V
1 q5 o/ y. y* j6 A. D; q$ Y. k/ N参考:
/ r9 f* R5 Z$ x! B5 r) |' I- f) o, dhttps://api-docs.deepseek.com/api/create-chat-completion
1 U* n2 @2 }4 k; X7 |7 X% C& j% [' F0 p
4,费用:& ]7 o/ \5 m% v% i
& x! q5 [# c" J/ g& Q% t8 ?% f实测:& g" j# H, h, q; ?9 F* J! s
~1 [5 @) |5 }5 b* ~( {
296K 字母,用了 9 美分。
/ a6 e) q$ f: k: }# T
5 ^ V7 p; b4 I: {英文字母 到 token 用量大约 1/3
0 ^; W9 L2 V6 _* D% w! a
: S) v+ V) Y% A' R. vtokens: total, 11782 completion, 3729 prompt, 8053 | s: 328996 d' ]: A; O) v& D6 m6 H' z i
1 s2 t! ~( J G: Z
32899 个字母花费 11782 tokens,包含输入输出的 tokens+ e* y- o5 y4 {0 i5 X
3 J6 p! M7 Z) J; J" t. W3 O
价钱,非常非常便宜了。
5 L4 ^) } o6 d( o% l1 n2 {7 ?7 O3 N/ C; E; T7 e
参考如下可以计算,懒得算了。
: `9 k* g- D+ }5 _7 T" @
" M4 V6 j5 Q. p# }* h, U, ?; zhttps://api-docs.deepseek.com/quick_start/pricing
$ \5 R3 Z, D& k4 w6 s, @* C) Y% e3 c( V1 A
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
. H" G5 w1 S5 I& }+ t. @2 h1M TOKENS INPUT (CACHE MISS) $0.27 $0.55, ?8 P6 Q. n- {3 R
1M TOKENS OUTPUT(5) $1.10 $2.19/ T# W: ` y! T+ b u R1 L
s B: c; s+ h
5, Balance
) {, V9 M+ E/ _ \; `/ h9 E* A: I$ k! ^% ?1 N2 h5 q
可以在程序里调用,知道每次运行结束后,balance还剩多少。# ]$ B3 v) U/ G6 z, |" m
参考:
7 R. u8 H2 @) R: ahttps://api-docs.deepseek.com/api/get-user-balance
& [! Q0 A* [- P) U; G1 c5 d, X) Q* p+ h$ z ~
6, Models8 b! W7 s& z4 u# j
$ f- `2 x2 \% L2 | D1 h+ K
目前就两个
0 d1 w6 R2 m# z# deepseek-chat
/ `- J. e8 [4 W* d; @3 y# deepseek-reasoner
, k: N7 z8 n4 H; g- F7 M2 ]3 Y' H% L! {/ g9 i
参考:# Q* Q- O7 r8 d# Q, v" @5 c
https://api-docs.deepseek.com/api/list-models
4 m* K w; V7 T9 w! E" \3 t; J+ i& B9 J) W
0 ~. m. C9 t6 W9 H! T% v+ x
7, 问题
* L" w" ^: S2 w2 s" ]* B
/ x7 t7 `1 a+ `. ~0 Zdeepseek 会将前后两段合成一段。( D, w- p' |: |1 ?; Z8 I
特别是那种大量的对话的段落,deepseek会给你合成一大段。& |; @3 T' I' \4 i' \% q& k
1 B* z, r* e6 e* E" x$ ]1 T. `8, 钱说了算。' @- D, k ^) I
! j( z1 R) c) g/ ^+ F7 Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
( B/ }/ X5 j* g" b8 |7 u但是API就不会出现这种情况,毕竟我们给钱了。
4 K2 p, f/ H) {1 P0 `! A+ y. F% p5 mchatgpt也是这样的。! {4 L) w1 Z. d5 |: L/ r1 r3 W
" V2 |/ W; T- t c
6 n# N, w( ^. Y& Y% ?8 k
|
评分
-
查看全部评分
|