设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2860|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
7 B. U1 n% R& T/ ?3 U- w2 k$ X; K! o/ T( u
把PDF上传,然后让他抓取文字,并修改可能的错误。5 W& g" G. v7 x% X. d( T1 h7 f
然后deepseek完美的完成了任务。
% U# `3 Y  w: i8 v" ^9 {- y7 s段落清楚,列清楚,页眉页脚全部去掉。
+ _  M. J0 F" M' X. g7 m$ }我要疯掉了!) x. y3 A# M+ j8 r* u
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!( O" O" U6 y! i5 C" h' y: f
====- C6 p: V) ?5 ?4 K/ K
中文也很完美。
/ k# u, I) d- o9 n经验值,每次十页比较稳定。
; r6 D; s- z4 }) P7 y现在我这里API还不能用,等恢复了,全自动了。
# J+ c# \1 N: q4 B6 u. r====' X8 u9 r* l1 d) `- n
第二次疯掉了!& T3 A  x( }: y# s5 Z* v3 b9 w
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。) i% o' O6 X; ~. L
====& U; N% l% `* L0 [8 S, b
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。, M' t& F0 a. B$ o! u9 E! X
但是任务多了后,每次翻译的页面数是减少的。
; ~; q9 v6 U" W好吧,我五体投地,继续探索。
# V3 x" A2 ]4 p% J' O====
% I6 t) L# O! |! m! n为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
* x6 e" {2 y( f" E4 Q7 C0 {* z" |====4 s. h$ {% R  e
好吧,有些东西是不给翻译的,哈哈。- F) t/ `4 K, n8 r: v

* ?) B& |0 K- c7 y( gSorry, that's beyond my current scope. Let’s talk about something else.5 F5 H" q$ n, y  p2 g( j% t% S* M
====
2 d+ P+ p+ r) M3 k0 x* h* i+ m然后我的英文命令也让deepseek 帮我修改,呵呵。5 m) ^# J, M8 i1 q5 s2 f* H
====
8 V- z( ]4 S7 h6 V日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。1 ~# i% B7 [0 |9 y' G$ u
====
2 n- q' Z& n! @1 d+ f) j4 i! [时间段的话,北京时间的下午和晚上用比较好。5 x/ G, `( e! R; G! Q
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
/ n7 d" [: z" v$ `) V  q; R% `( S====( u1 ?% N( d5 g( }1 X
用千问吧,非常稳定,非常强大。
4 v' m1 B/ Y* c' }https://chat.qwenlm.ai/1 b6 |" p. v! T) L& \& {
====( U3 R. o3 F) l7 O/ `/ q4 q. V7 Q. U
Deepseek,API 看上去可用了,但是不给充钱。
7 X9 ?& a* E$ W7 p$ }4 Y" [. g4 ]4 N( {9 {, ?1 N: {
- o8 ^4 B- G3 M+ N8 T
$ l4 R: m. n  S8 G

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3746 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ) a! V: G4 ~4 [; J# x) ^% K9 w1 h这功能很赞呀
      d4 m% R9 h5 R( t# n0 d  ?
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:132 g: ^/ C- e  H. }1 F5 p* G
    有没有上传整本书试试
    ( T, U& t* @% D/ U
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3746 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 ( k/ @: q2 |: q6 O5 J2 N. a3 V7 l
    6 X1 ?! D8 H* N! d  @/ Q
    以后让deepseek 读出土的竹简6 L! b- {: s. }( x: ?3 ]4 H% F2 |. \
    ; c" E$ s5 l/ U- \
    还有把古文翻译成现代白话
    5 m3 q. H; k( M$ f$ ]/ B8 i# I' X4 ]' o& |
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 2907 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?8 C5 D' ^/ O( R

    : Z* D( }4 l+ X: @我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    9 D0 ?! R) t  F; j; }请教是如何实现的?
    * X# w$ a0 H! D, H" L
    5 w( I6 f2 q" O6 @" q9 Q* ?我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ) A) D; }- j! P/ G! z1 j0 R6 U/ U( l- i1 P% E9 g
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。% O* e7 m2 _/ E% B+ _5 k$ O, b
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    , m; U. D( p7 g6 c, o5 B美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。% N  q- j! u, y0 S

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23& U4 O: x2 u( m* E+ n! M" I9 ^
    请教是如何实现的?
    / n+ z1 P) |: s9 |! r4 H
    6 y" l6 }, Z% c我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 U6 V& y9 U3 @6 O9 Q" {2 e# v2 n: c
    https://chat.qwenlm.ai/* V7 d/ z  M. K# }/ E
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ( t2 h0 C# n# _7 }, b$ E* P, `很稳定,质量不错,好像最多一次处理15页。
      u8 U' v+ f3 R0 k我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3019 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    , f( ~7 A2 m6 `处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。5 V" p: _" a& V8 B, @. K+ V  a
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    + d1 V% m7 r: l- u- l
    . R6 H' ?8 J  H( P: R8 ^https://github.com/oomol-lab/pdf-craft
    , E3 C8 Z( N6 e5 m/ C6 e: E% U! S& [6 Y  L. c
    1. 这个工具要求装 python3.10" w" C# p4 C+ B; m" V
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    * q' k  r$ p$ B1 Q* u/ ?( a3. pip install pdf-craft
    ) I" `+ b2 t8 J0 ?+ ?) B/ m4. 把下面的内容写到一个文件里,例如 a.py* A2 G  F& ?: Y1 W- I; Q. I

    - I6 j( M8 ^# a) n! a5 P! ^7 n
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter( {" @  i4 ~$ H4 q, \

    2. 5 s. ?. U/ W7 |1 t
    3. extractor = PDFPageExtractor(
      + g# l/ N  X& g: I
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format." _' X( m3 w+ T4 I
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed) W7 I+ t# K: W! `
    6. )# i! N) U% s4 Y0 ~6 u
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% x$ j4 J6 |% @8 D! B) ^& F
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):* n: e, R9 A: E: K+ e2 l- O
    9.     md.write(block)
    复制代码
    5 r( V2 }7 _( n. t( \! }( f
    " s( s3 L2 g& m1 i
    要修改的内容:  M& B: x: ~& I
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型1 a: p2 i2 I9 X; R4 F  T
    4.2 markdown_path:输出的 markdown 路径文件名9 Q" P8 g0 C! E9 q
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    $ n+ u; C  N2 s1 E- o0 k7 ]- s; Q" `  M1 F2 e( }) ]7 ~$ m
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 # ]/ L, x9 ]( n) r+ M0 u  k" A" \

    8 Z% k$ d' U* x5 ^6 M, K' T# E目前为止PDF转纯文字的最佳办法。( W+ {3 ]  \5 ~' j" q  |
    先写个小程序,把PDF按章节切成小的PDF。
    0 {1 F& l9 Y/ z然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ; j4 c+ T- I1 r9 b2 R$ u6 ~4 s! w* x效果非常好。
    3 a' {& S" ~( {: ~2 E+ j0 k1 `
    ; Y$ h  N- p. Jdeepseek,qwen,chatgpt 三个,deepseek是最好的。5 Q) H$ @$ E( E. `! F" V8 h

    ' w& z+ K8 H% [0 Odeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    % P7 {4 l. b2 U+ ]6 L) m而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。& a7 O5 Y% z9 l) Y. {; X3 u* P
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    , h- {* Z1 {( C6 ]3 }% O$ U- {4 g) r  n+ e! a/ x, s
    API到目前为止,差强人意,不如网页版本修得干净。
    3 C( i& [8 c+ Y( z$ ], R' P& X
    + {5 `8 \; s6 Q- Fdeepseek可以同时开四个。
    ' R3 z6 I7 h( i

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    - A+ ^) v- E3 k; \$ M, q& V
    * y( p7 q5 G6 k8 _让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    - E/ h2 D5 c3 V* p+ E让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    $ ]3 g/ i2 S- i0 }细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33* _3 ~. E7 i. Y1 F  _
    细说一下,听上去很不错,多谢。

    4 s  Y4 U7 }9 b# ^" m+ c$ ?直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 ^: ^9 C! `/ d  N/ [: ?( E1 w

    # d. R7 K) y3 ~' y) L: X* y已经搞定.3 I$ ?" ~: P. s& `6 l
    - A; l) V6 E! r! w1 C  r0 T0 i
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    8 m+ F8 f7 l; V6 w+ h8 K1 S( U% a6 f; P
    1, python + pypdf 按章节拆分小的PDF
    : X+ w4 x  P& P; q: n! Z
    ; e- z0 Q- t3 [5 x2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    * Y" o% m2 K" q  \2 o# b! a* M# l: [" E: i6 N/ R2 t% f. s- f
    得到text file
    " Q9 ^! j- ]6 U! H- C! p) \4 O5 w  T0 n! c: n. A
    3, python 读取整个outputfile,丢给deepseek 矫正。1 t9 v5 y) _9 K3 ^1 x
    3 O$ P% a) l* m& W- z
    模型是 deepseek-chat
    2 M' b' w* x7 C  w3 F1 a: E$ h, G4 R3 Q6 j. p
    max_tokens 最大是 8192,别的不用改。
    ! C: X8 i) |* B  q' A( O5 u8 @7 q: E
    参考:8 S/ y+ G4 g. g* x- m$ o2 y0 w
    https://api-docs.deepseek.com/api/create-chat-completion% y& {. A3 C  H% q% d) k; ^

    * W- Z# r* L) U* I& A4,费用:( w. D/ E6 ?  Y
    4 d" D$ Q( R8 D4 b9 \
    实测:) l$ |4 i8 y/ K# h  b* d& z1 x' O

    6 z5 j$ I5 y8 ]! h9 q2 ]296K 字母,用了 9 美分。$ X2 u8 N9 p3 O0 i: h% T

    1 h& H/ S# L9 K# G0 E, m英文字母 到 token 用量大约 1/3. Q. H( q" N' A1 w! U+ e9 ^4 o
    : i2 b, X9 r2 E8 X7 Q( p
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899* U8 I) o& b) x6 }' V; W/ `$ L

    ) Z, J1 d0 M  A: ?, K  z% ]: \32899 个字母花费 11782 tokens,包含输入输出的 tokens2 ?' d5 a; J- `0 y

    . w. r$ N7 v% D) U+ f. X, W8 b* k价钱,非常非常便宜了。4 c' b6 j, o4 L) m

    , I. i9 U& z/ S  F' s+ B& b参考如下可以计算,懒得算了。. ]: Q$ M+ t+ ~6 I

    - ~$ ~5 B  [1 v: Y/ [3 U- t' vhttps://api-docs.deepseek.com/quick_start/pricing
    & B7 w5 w7 F( s" E9 n# \  K4 z) B. e2 R8 \5 l
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.144 @/ k6 m* m, |/ o' C$ }1 N" V
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55- T) x0 S9 S' D
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19$ |* j9 R8 Z5 a8 c

    ( R# _5 j5 W- t# J9 q& h5, Balance6 H) B( N6 p' r1 p! ]

    6 h& }0 K% b5 v/ g$ M  I% t可以在程序里调用,知道每次运行结束后,balance还剩多少。
    8 A* k9 [& N2 w' w0 k1 @: u参考:1 K' l# W# K/ o: a9 t/ ^% X6 @
    https://api-docs.deepseek.com/api/get-user-balance
    9 a+ P, W4 ^  k( x! S/ M8 t
    , G+ ?% V/ Q" j# N* l) ]! A6, Models; N7 Y0 ]# p# _& b1 G& X# ?, p
    ' }0 O2 i  ^7 E% r& @
    目前就两个1 Q6 x: X% Y* y( g+ ]
    # deepseek-chat
    + ]0 H6 k" I/ `' s9 {. h! M2 ^1 ]# deepseek-reasoner' Z, O! y. K$ f2 `; S7 v0 J

    6 u6 V& b0 I7 Z: G: F" p参考:
    8 n" V3 j, C0 U) Qhttps://api-docs.deepseek.com/api/list-models
    7 N* Y7 B4 ~4 r
    - b! Q4 s4 `+ b
    8 t; Z' p6 ?# a4 W. D& X0 R7, 问题
    1 `# G8 W$ s/ f, L+ H. L) L, ]0 g
    # _1 }/ ^- S1 _8 ^; Zdeepseek 会将前后两段合成一段。. @" _# r2 N( ~6 {, M1 A& n5 m; Q5 n+ D* i
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    / [' X& S. x7 N( y& o# B6 }! R
    , }7 T# s2 d* U2 e8, 钱说了算。5 u3 j4 M% J) s2 V: |  l5 U

    ) Z0 r" B6 B) h: Q9 ydeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    1 \# U% O  Z: u' S但是API就不会出现这种情况,毕竟我们给钱了。
    2 v- P5 \; S$ y7 h; E. d  b4 lchatgpt也是这样的。, i4 b1 \* Z% o: n" ?/ \: o
    0 _) N# k9 N4 M+ y2 ^2 e

    2 H2 q* X7 s1 [, \% u/ ^7 J

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-6 09:15 , Processed in 0.065313 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表