|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 U: G% c, a4 j$ _& w/ ]
* M# E7 L; c' B5 ?( B3 R
已经搞定.
5 c5 S, R& i6 B/ C+ C% {& F. @, T) a$ @0 k H
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! C7 ~3 p2 s- I2 ?3 n: k, V
4 o$ f2 [, t- X! ^, G; H+ ~, ^
1, python + pypdf 按章节拆分小的PDF
) W0 I7 e% `9 L; ^' u2 ]6 {9 s2 a4 ~6 z2 V
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
3 G9 Q! H# T, C- S6 A( y
1 }+ C {5 D& v. J4 y L得到text file
$ }8 D) q5 R4 Z' z
5 S# A+ |' H8 R& S4 @! s9 Q3, python 读取整个outputfile,丢给deepseek 矫正。
' f3 f8 S" @: }; N/ L9 s, y
* S1 p5 S& h$ L. z! I模型是 deepseek-chat
: i( {# I+ Y; }* K9 {! ^" }; _$ b0 I8 x6 \& D
max_tokens 最大是 8192,别的不用改。
% R& B, e" A5 g/ X
3 X1 `4 a3 X" ^参考:
( d7 Q7 o# _% ~ nhttps://api-docs.deepseek.com/api/create-chat-completion
! W5 O% T9 y& W# V
0 b% o9 |/ q1 z# R' _ y( ^4,费用:2 j/ ]3 H% {9 M# Z# [0 @& t
6 @. `% D3 g9 e) m+ G/ H' P* b1 L实测:
0 L/ A9 {7 U: h) F# p1 @( _* h& V
296K 字母,用了 9 美分。4 s$ Y1 X. d2 D" |1 F& N6 c5 y+ ?/ E
: a% [( N. ^* O7 P' Z c2 m
英文字母 到 token 用量大约 1/36 G4 q! `4 `' Q; Z
# h) ~8 z) {- y5 [; x( u
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899* c* s4 t5 U5 v& }" p# Z5 ]
' T2 o; _4 b* z3 }% k7 _) u32899 个字母花费 11782 tokens,包含输入输出的 tokens* ^6 r) Q3 d/ |: |4 s' p. j% m- v
; U5 _/ v3 @. b价钱,非常非常便宜了。# \4 t1 U" G2 Z, v& _4 i+ Y
6 j: I+ s6 L7 x. G9 i! C3 q
参考如下可以计算,懒得算了。/ z% O. q- M/ l+ C; f% j. T
; X+ P! E! g" Qhttps://api-docs.deepseek.com/quick_start/pricing
% l7 R& ~/ j0 ~: e3 |, ?. I
5 j$ s3 F6 _( X1 n: D9 t$ L1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14; ~/ Y$ G4 S( p' p
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
5 e. s+ ]% h- ]% e7 L- M: h( D- J% s1M TOKENS OUTPUT(5) $1.10 $2.199 N8 p& _* A4 x* E+ k i2 ?
3 X; v" x$ S; e2 F0 M
5, Balance
7 T4 `, K! D4 i9 c/ S0 J' O+ C
2 B; h5 u2 H8 U可以在程序里调用,知道每次运行结束后,balance还剩多少。5 b+ p. c k+ F& \, X8 D7 E
参考:% [0 w' W x0 C8 l' ?
https://api-docs.deepseek.com/api/get-user-balance, q2 h3 ]; Q9 f- J2 I! c
( y0 M% m( ~- d$ p9 R6, Models& e/ }6 S& Q$ C- \* S$ I5 v
: q i' i/ d2 r) |3 E1 y
目前就两个
' V7 `: b' K" _4 y0 B1 V8 g- F# deepseek-chat
3 N9 T4 s; e9 D) v3 m+ o# deepseek-reasoner
7 ?9 ?# U1 Y) E7 A$ z1 t, G E' q" F7 e( o m1 I5 i5 w
参考:
3 s2 `+ O- _+ T+ ^https://api-docs.deepseek.com/api/list-models3 D' J9 C; m1 Q( C" F) D$ s
6 t( m5 [4 C$ o# X& s: h' p$ J& r+ G" Y2 p1 j1 V
7, 问题
+ L2 J( r9 D# k$ _
6 S- j7 z* \4 D" {% @deepseek 会将前后两段合成一段。
! j# p) C2 v1 K" |* J) y1 b特别是那种大量的对话的段落,deepseek会给你合成一大段。
% p4 b. s+ {; c* ^
4 I% H2 a3 e0 F# J& a8 Y8, 钱说了算。6 J) I" [, D8 x1 m* s- a9 _1 z1 ~
7 L9 X z6 E3 u( j4 u
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。; [ b1 h R+ x# ~$ c4 O
但是API就不会出现这种情况,毕竟我们给钱了。
4 T9 z) Q: W* I0 A4 lchatgpt也是这样的。
5 t% D( @6 ?# x; [* H3 |) ?, y' c0 N. J
0 g1 J# n- K A |
评分
-
查看全部评分
|