|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
* y: i9 {$ v% c4 v7 q& }5 _7 ^0 l/ ~1 B0 [# A
已经搞定.
0 c- Q4 ^& W H; h$ g
# c; |6 S% K' _+ W$ d7 I8 e' g首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。8 f% L8 L! N$ p
6 w% N# ]3 Z( I+ i4 t1, python + pypdf 按章节拆分小的PDF
: x% m9 d0 _ ^5 g' j* j- l' E
. o4 U9 `% D/ j. }" d( b0 ]0 \+ `2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile Z% L' O# n2 n5 }" g; W
# o& H+ x$ Z Y4 p7 v: r1 Q# f) O7 k得到text file* {+ i( G! E* b- C
# M" C. B! `$ ~9 @) Q; y
3, python 读取整个outputfile,丢给deepseek 矫正。
0 ~ [/ T$ t4 U9 P9 t7 K4 L* g: X. g! l5 K2 I5 X
模型是 deepseek-chat$ f9 C6 I& Q% J U8 z; T5 S
: s) {5 c/ }+ b7 l# amax_tokens 最大是 8192,别的不用改。
* i* \. e# `+ u1 V( D' q+ N: K- a9 X7 z6 v2 }& q
参考:, i4 W- J9 o7 h' A* C
https://api-docs.deepseek.com/api/create-chat-completion
' I9 E& L$ F+ y7 F( }4 [* u7 [3 ^4 d% k. ?! p6 m* W! n. Q
4,费用:9 b8 S0 _- D' ?( T) k8 b2 I+ g
5 D- E& {1 X( u, O
实测:# |2 M6 A4 q( t: c0 |7 d% H
+ d5 d, b7 y1 x. M3 F296K 字母,用了 9 美分。
: }9 _! k4 N8 J# S) I0 V' m& Q$ M' k# ?. B9 g+ s
英文字母 到 token 用量大约 1/35 t7 O! v9 T0 W& \5 D
; o$ \& k) ]( w' u9 Mtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
* |2 h& ?8 T3 i& k7 j: V, p9 K3 m5 `( K
32899 个字母花费 11782 tokens,包含输入输出的 tokens4 }3 t$ w' i! a; G, l! ]7 N
) o S9 \* B8 u6 v: D5 k0 i/ o! Q" j价钱,非常非常便宜了。
' [' K; P2 N5 m! N
+ F% B! B) e4 ?+ m: M# u2 m参考如下可以计算,懒得算了。
% @* v | [; W z) Y
# a7 |6 w; ^" m0 D8 l* a" A1 m, v) @https://api-docs.deepseek.com/quick_start/pricing
( n" W/ E% T9 P& @ h& Y; Q4 g
; D9 B' z( T7 J- K1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14- J/ z% ^& P' ^ a% B
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
' Y3 q* o( q6 t; S/ d) l1M TOKENS OUTPUT(5) $1.10 $2.19
2 z4 V( L5 A4 F/ \0 k$ p
* @% s1 I1 J& |( u& {5 |, I k. T! d5, Balance& D/ e5 L' V/ G0 [6 M% k1 o
8 C1 b1 j. O8 q5 o9 f可以在程序里调用,知道每次运行结束后,balance还剩多少。) b1 O* s0 O- o' [( F
参考:( G! {+ l8 }, ~* Z. W" z
https://api-docs.deepseek.com/api/get-user-balance. n( l2 s: h8 _) ~. v
$ Y2 W) u3 b9 Z0 b. @6, Models1 a' G0 O; z/ j2 d( `; E" F
9 f8 M1 ]9 f8 Q2 ~5 P* G" C
目前就两个1 f0 H5 { @0 r- n+ C/ ?
# deepseek-chat6 m- H& x! V" N3 s( |: y
# deepseek-reasoner
D2 l' U0 K5 Y# o
5 n, W" @; a( U, V! Z9 n参考:1 R3 a. _+ r; v3 v" t9 w
https://api-docs.deepseek.com/api/list-models
2 k; U7 o4 M+ \) S: ]+ o' c
6 }* r7 E$ M# y6 [5 h+ J
7 g4 Q; U$ p: e3 Z7, 问题, ^: L3 m f5 u! q. ]4 g
2 k% y) C( {* g$ @0 j1 a$ r
deepseek 会将前后两段合成一段。
' [2 W3 p T/ L7 n特别是那种大量的对话的段落,deepseek会给你合成一大段。
2 ?# k# H, B# Y: H" \+ W* u5 A
+ r2 w+ _/ K: N, `+ ]8, 钱说了算。
$ K: q# N0 a; x2 U. A! o- g" k% G$ B
. }( e" V# r. i0 Ndeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。% ^0 y6 {6 ^ m
但是API就不会出现这种情况,毕竟我们给钱了。5 Y' V) y3 J$ S4 u% h6 s8 {# S
chatgpt也是这样的。* u# a6 C2 `) V" L
5 M `, G6 f4 O3 Y
6 u; w. g8 N9 s
|
评分
-
查看全部评分
|