|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 % u% m) x; v/ ]( Y( k1 z- d
: k) T6 E% h2 v S2 F4 {! z
已经搞定.8 W7 ^8 s0 Z4 Q: j1 c4 ~- C( L+ z
6 F9 _# l; |& ?+ z/ `+ h J, h1 K
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。; X2 Q* ?9 s) Z6 U& W' p7 x7 E/ T
& [1 L4 ?# b/ p; }) ~+ Z% V! J1, python + pypdf 按章节拆分小的PDF5 E, M2 K' R- P; h' Q4 ?
% j0 V W1 {- \ D/ H2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile1 E1 j& y1 c+ C
: C( f7 e( j. ~& i9 m
得到text file9 U, F3 a9 z' w2 Q" X! B* Z
: {5 Q/ n; a0 d. o Z. i: \; F x. M3, python 读取整个outputfile,丢给deepseek 矫正。4 l& e) v5 S4 n/ H9 C
2 S/ {$ n$ X" v: t f& E. P
模型是 deepseek-chat" r5 j- f# }; ^* n: Z1 ?! w
8 Q6 N4 g- | p( r, h" Smax_tokens 最大是 8192,别的不用改。
5 L% G1 b$ l- H" J$ h1 w8 s3 v& Q
; U3 V, o2 V* `) Q. B0 \参考:
* ^2 |: s' W0 m, y& L. J4 ghttps://api-docs.deepseek.com/api/create-chat-completion
7 _7 b+ y" v5 n, z0 S2 @, I& E
^2 Y8 l, c9 O; E# t4,费用:
7 O. H( z9 P9 J, _2 o" K7 a) x2 N2 y- p7 j! h; c
实测:
( i$ Z. E% V; e4 K; d
( t7 J+ C# P- q t; ^- I& A296K 字母,用了 9 美分。
6 B2 O) P9 T# P; p7 c7 }2 a$ \' a v; o7 R( Y8 F
英文字母 到 token 用量大约 1/3" W) Q- o7 ^, J) F/ v& Q1 X
, i9 ~+ X% d( ?+ x+ {/ u) g
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328999 }) N3 ^) A! k+ m7 j7 O
8 L' `0 `6 G6 B9 R; B8 l
32899 个字母花费 11782 tokens,包含输入输出的 tokens
& q; [8 b5 I: |0 A8 D, ?+ b1 Z! c( K4 J1 U8 S6 _0 a
价钱,非常非常便宜了。/ v3 G$ b7 ]5 z
$ R" y; a' _9 v$ n. j
参考如下可以计算,懒得算了。& i- Z- K: c9 j+ E D! n
4 z; M D7 D! S7 b% k# B) n8 ?. q* V
https://api-docs.deepseek.com/quick_start/pricing- a9 I1 X7 Q6 ]/ }7 G8 G# P
" ^/ w" V% v" V' I2 m
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
# N& _7 [$ h0 V6 G$ K) U5 ]5 w) c1M TOKENS INPUT (CACHE MISS) $0.27 $0.55) L2 u \+ _0 |$ d6 N6 H
1M TOKENS OUTPUT(5) $1.10 $2.19$ i% b) }. S1 m q% }0 K k
5 U* ^$ L1 d2 {& M5, Balance
& z: j. N- W5 I7 B7 T3 X9 _: t, r# s
可以在程序里调用,知道每次运行结束后,balance还剩多少。
: X0 d7 l4 u# n/ }* M: s/ j参考:
, V$ c4 Z o- K& Yhttps://api-docs.deepseek.com/api/get-user-balance5 q, K/ ^2 ?0 R' s' g/ e# h4 d4 J
) K# A- D) t" [; Z6 [2 @) `, H6, Models
5 `. ?0 N$ M& m2 n" }# i j" b' z# a/ f' a' ?1 W; I
目前就两个
B& R5 N9 g7 F2 t( V# deepseek-chat
, ]) h( G1 N1 @# deepseek-reasoner
& a, x! |. O- i7 F% Q0 ~
* E: [& V# n7 ~9 B' {3 z* c2 E参考:
0 f7 k0 Z2 P$ i" D! H5 `https://api-docs.deepseek.com/api/list-models8 x% ~- Q! d8 l) b8 Y* z
+ X6 T" g' A) B/ _2 s4 e
' y/ q2 b! H& c- ? S& G* c
7, 问题0 Z& v/ x, r }% N" P3 i$ Z2 Q2 E
5 X9 Q5 S# h3 B7 i a
deepseek 会将前后两段合成一段。
+ y# f9 L3 k; @' d$ M: Z特别是那种大量的对话的段落,deepseek会给你合成一大段。
+ \/ ?% u9 H3 f9 v% ?
; S( J/ A+ ]& N8 O. M- U8, 钱说了算。
% l6 a& t0 n3 O; @3 p$ v/ n% \# |% W4 \! M1 `8 ?$ c; h& J
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
7 `4 s- x+ v0 i, A但是API就不会出现这种情况,毕竟我们给钱了。* ~$ }8 F y% l; r% I* {3 i% s
chatgpt也是这样的。
% A. i, F6 o, \* t7 `' j6 f' K ^* T+ c
% F0 N, |# u! ]) y1 R |
评分
-
查看全部评分
|