|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
( A$ M1 U$ ~8 Y, n5 r9 \
. _( c% E) O; x( u) Q已经搞定.! M- Z7 S6 I* C0 Q
3 b% b$ A9 ?2 o: n
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。9 f+ M4 l# F/ v i
% K" _6 N c6 _* U
1, python + pypdf 按章节拆分小的PDF! ?3 `$ w' B$ {3 [9 Z
2 R' r" l9 O# j; b: P2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile* ]* ]! J( s1 U" I: h8 W8 @* p. ?
! b+ r0 j1 K/ V4 h/ D, g% Q
得到text file8 O* N: o& y' C1 [9 C8 o* @
4 M; v8 j6 F, [7 k g2 Y3, python 读取整个outputfile,丢给deepseek 矫正。: o8 t: L& m g
, P, W" }$ Y* ~$ y. g模型是 deepseek-chat% K$ w7 Z [& _2 G8 C2 G, T
( o0 t% t) i! o3 {5 J8 y% E
max_tokens 最大是 8192,别的不用改。. t3 Y( ~* {2 p/ q" Z9 k7 O
# o0 k, z* U4 b2 z参考:
9 Y' N2 I6 e0 \0 phttps://api-docs.deepseek.com/api/create-chat-completion
W' {, L6 u, x4 d `: t! i% F. a6 @& K7 S% T5 m
4,费用:
, y [% D3 l+ ^3 ~' b
; t% Q7 A: P; N实测:; s% Z9 p7 A4 G- W
) b _4 A* S o" ^& Z8 q296K 字母,用了 9 美分。) U7 C9 m' x4 w; A5 N R
7 N, M5 Z6 V+ ]7 I: N( V8 P" Y& M英文字母 到 token 用量大约 1/3
2 J$ v1 r# a' c& g/ H: W, e' c& B
! ]/ }7 n9 L' T1 i% @6 C" xtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
2 V$ `3 E) I% E4 H
7 `( j! @* w6 g( | F x- i32899 个字母花费 11782 tokens,包含输入输出的 tokens
, `1 h$ J e8 M7 F I
* M! Q" s( n- _' [7 Q) }! S价钱,非常非常便宜了。8 I+ B, P: h# R: `% [) M
, V u( j! L D" v" E$ N1 T
参考如下可以计算,懒得算了。
1 u+ S0 S/ ] U( O7 I/ ^+ J, E6 J/ c3 O
https://api-docs.deepseek.com/quick_start/pricing
3 M9 t5 e# E: f1 n) _ j6 V6 w/ _) ~+ {
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14. k/ r5 Q. Z9 w* G1 f% j
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
& c0 r4 N; F3 B0 P1M TOKENS OUTPUT(5) $1.10 $2.198 t a A$ L! D4 f. Y; O
\' `5 n) M' i0 v M$ L2 V
5, Balance& c( ~+ a( [ T" q1 m$ A
6 O3 d e% w7 I9 l) P) i8 z& ?
可以在程序里调用,知道每次运行结束后,balance还剩多少。7 V! `& @( O# D- S7 B
参考:
2 _% C5 g1 Q# s; q4 nhttps://api-docs.deepseek.com/api/get-user-balance) X" ^" T4 w i# [: z( v o
: `% m8 y1 m& A' v2 I6, Models
) a8 f9 n2 `9 B% V( J& { c( C6 q1 W" g# v' l/ E0 q
目前就两个
" e( @, @) @3 G% u5 H& b5 X' p# deepseek-chat
" H$ ]8 Z/ ?# {# j% M \! ?( B# deepseek-reasoner( ~# V1 G, v8 V1 v, ?; ?5 U
8 S; r+ X4 L. N; L: ?- H' @. i参考:. H7 A* j( s: `) v, m- Q
https://api-docs.deepseek.com/api/list-models
! u: N$ U* p6 |5 g9 R% B B
+ H/ t: @" o- @" Y0 q6 g, f/ o1 P8 m( g P9 N/ D8 ]5 Z( N
7, 问题
8 }8 F0 }: T: k8 V, w% ~1 b7 O( i0 O) k2 E: V" g" O0 ]0 `/ {
deepseek 会将前后两段合成一段。0 P. f( y& n% o' z% M9 M1 R& Z
特别是那种大量的对话的段落,deepseek会给你合成一大段。, o8 k7 f& Q2 K
1 C8 i/ Y* _: U8, 钱说了算。
2 x% d w0 U6 N9 T% S' f. B' Q
! | u, l# ~- b5 i* [! s' hdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 U- z: O; z+ [2 a
但是API就不会出现这种情况,毕竟我们给钱了。
8 |: Q- C3 g; z! u" H) Xchatgpt也是这样的。4 z u c. @( z) z
! q8 Q5 k( h# U; x/ b5 x) H; {- \) C0 I+ H, p2 v
|
评分
-
查看全部评分
|