设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1784|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
  l% m. i8 D0 s6 b0 l+ A; D) r1 q- t: f9 [; Z- a$ z
把PDF上传,然后让他抓取文字,并修改可能的错误。
' T; L2 \+ ]! {! m" X; b然后deepseek完美的完成了任务。" m4 B0 @2 ~6 k5 r- u
段落清楚,列清楚,页眉页脚全部去掉。' C1 e: ]/ u+ ?! w: O' M# w2 X
我要疯掉了!7 e5 Z: K9 L" z
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!; s4 I% C2 e/ S* p9 O& Z8 d
====
6 N% H' q. V$ H, m5 r中文也很完美。/ x! m+ q% x/ s2 a8 h* Q+ f) K
经验值,每次十页比较稳定。
' A0 V* U  X) l0 Z3 O- f1 e# ]现在我这里API还不能用,等恢复了,全自动了。
5 x$ W3 V5 Y* V7 e====7 g! D% X: f% b
第二次疯掉了!; L. j, j* \( m" r2 _- E1 b
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。. S0 J2 l6 u4 }
====; K. i. v3 r8 L6 ~+ K
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。6 J+ P* y  z1 `: y% }
但是任务多了后,每次翻译的页面数是减少的。
5 ], d$ u) F) {* x  n7 i2 E/ _& S好吧,我五体投地,继续探索。
4 {. f/ T* r0 k. A  O# R====' R; e. P" e7 }- R  D; T
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
/ m- X7 A/ `/ }/ {$ x====7 {) g+ _* u3 I2 i. M
好吧,有些东西是不给翻译的,哈哈。
4 [. l4 L5 P5 U" e2 [+ C
0 c/ W. c: F* }+ aSorry, that's beyond my current scope. Let’s talk about something else.
3 @- i: \  E8 z- Z====
6 l; ?  B3 v- S9 Q7 R6 r然后我的英文命令也让deepseek 帮我修改,呵呵。
. U+ ^; U! M$ A. Q====
& k1 ~, P) }2 e# s# C日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
$ P/ ~/ U) t. h. a+ T/ c% u====
+ |4 x5 o! |% V4 |' p时间段的话,北京时间的下午和晚上用比较好。1 t, j2 n5 Q7 n( o/ U0 L9 ]
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。$ l* P( o. L& Q1 f
====& a  d: t7 M9 d) Q, [& w2 @
用千问吧,非常稳定,非常强大。
2 Z: J: u- \7 J4 P& w; D4 xhttps://chat.qwenlm.ai/
% S1 G/ T0 F. ?" @/ b' ?====5 k( U2 I' q) b4 [6 i2 m
Deepseek,API 看上去可用了,但是不给充钱。' {9 P5 a1 x, N6 n. r7 ?
+ [6 |  i' C/ j6 r6 C* Z  f
3 ^- T- R' b+ o4 B$ s. s

. @2 |' t2 ?/ B6 M7 q, a

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3548 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53! b7 H, c2 H7 m1 T
    这功能很赞呀

    ! c7 }8 y+ ]3 @. m' {简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    / {: Q: U5 V( E有没有上传整本书试试

    # C5 X# D, Z8 W* P4 l7 J目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3548 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    " `6 k5 D$ N; h- P. F( l5 b
    ! q( N; o* N! }以后让deepseek 读出土的竹简4 l3 i$ C: G, r7 _
    ) h7 e7 X  P& [  y" Y  d. d" R. y. P6 ~
    还有把古文翻译成现代白话' }! ?3 {  i) X0 C! b2 {, f1 M
    ; T, {: i6 n+ L! l' }
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:16
  • 签到天数: 2697 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    5 w! j* I, }: g" P  Z6 y
    * U4 [- ^) E% E0 [5 a我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    & x, ^9 q+ |# {/ ]请教是如何实现的?
    9 K4 f4 B; G3 @& g% P/ G
    / ~. q$ s% m3 F3 W) L8 o7 a我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    & Y1 i  U- g) h6 o
    . z5 \+ R' C; ?7 W/ F/ t5 e# S3 R我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    * {3 B  e0 A& M6 \文字之类的没问题。估计deepseek现在暂时只保证主要功能。8 I( E" z2 N/ u4 t6 a
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    + D- z; L: H2 X$ @3 }5 a% K$ q

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ; i& H4 a3 i" G& w9 z) @请教是如何实现的?
    6 j9 _9 s0 X5 `/ B* Q& g; }3 a6 f1 {" a+ ?( J: w: [: i
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ) c3 `# O* F6 }0 y! `7 C9 C& Khttps://chat.qwenlm.ai/
    # t( @1 R2 Y4 P. I0 Y试一下千问,估计美国人没有攻击他,所以资源敞开用。1 l' V: ^: J8 W) X7 X! N5 C) S+ G* P
    很稳定,质量不错,好像最多一次处理15页。
    8 V7 y5 `+ f; A/ d0 j我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 2834 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    & U# s! u9 `( C' L9 H% @. {- V$ i: N处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。; m9 k9 P, s' P- s& M+ P7 S
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    ' ?% A+ B6 w/ V
    - X; k7 `% D# {  Bhttps://github.com/oomol-lab/pdf-craft- c( y% |; h- A/ |# Y
    $ j0 l  Y- Y7 a. ~* \. o
    1. 这个工具要求装 python3.104 T/ k8 X& N! ?, k) F# _, _
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0" p5 ]8 u2 _5 |9 e. G5 M. Q
    3. pip install pdf-craft4 P( X( P* T, j1 [9 K+ @9 |7 v
    4. 把下面的内容写到一个文件里,例如 a.py
    4 q/ Q  r! U5 ?9 T  J3 [( p; `5 o/ ^) t3 O+ ]. n8 x* `0 p
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      6 p8 \4 ]7 r& D; ]* h

    2.   e" U' w( b# G! h: d6 q8 c8 Y- H
    3. extractor = PDFPageExtractor(
      , g9 w) m- I3 ^7 A9 J+ X$ T' g/ F
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.) v; g& ~* ]2 l, x: v& F3 @" t
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed" I5 D2 }, i( D9 ~2 d% k1 `
    6. )
      ! L% g' |. v  }) e5 U
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:) p& v( X- c/ ^8 t& n
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):; V' ^; G4 I& M. [: g# f/ L# O
    9.     md.write(block)
    复制代码
    0 r6 g3 x% _* D* h: j! i

    % H+ F/ p. [0 _" |, K要修改的内容:
    1 H% M* A7 Z6 r! j, M5 g4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型, ]  F$ n) |6 a
    4.2 markdown_path:输出的 markdown 路径文件名
    1 c" E" B8 O7 n! J0 B; P5 g2 }4.3 /path/to/pdf/file: 输入的源PDF路径文件名5 c- J) ~+ \/ M; x1 m
    3 o2 I8 X0 ?& M
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 * G0 K: h  p5 i: e
    7 h7 t5 t, P8 \% o
    目前为止PDF转纯文字的最佳办法。- K" C" C7 A9 x# O% o
    先写个小程序,把PDF按章节切成小的PDF。
    / l* {/ M9 Q1 q0 a# I然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    - f9 Z. _3 ?" _; u# Y2 F效果非常好。
    ( b" O  {* ]* J: A
    2 s# Z, g# y+ j; I- j  _deepseek,qwen,chatgpt 三个,deepseek是最好的。
    . G9 O7 a7 `3 y& W. H( a* h# x# D! k, T; ?+ x, x7 B
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    1 X0 c& C6 K& Y/ L0 A而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。& L* H; B% R$ T& b6 I7 L. w
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。( s" }) T+ j" K; C. X2 f/ ~0 a
    3 n( ]- J" z9 O& c/ z6 }, ?0 P
    API到目前为止,差强人意,不如网页版本修得干净。
    : @2 @5 S, {4 J' f6 T8 c
    $ f+ E1 l* m8 Z$ n  A- a1 xdeepseek可以同时开四个。
    2 X" M9 r% l6 o: q

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 & e1 Z8 f$ V6 q6 s2 {5 W/ R0 m+ ^( }
    ; z4 T: l) g9 M% q8 Y, b8 e
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26; D; t4 S" N. r: x$ i6 J1 j9 C
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
      {$ e# H" ^( ]- A+ b8 b$ J8 V
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:339 Y8 ?: z4 [2 [6 }1 I
    细说一下,听上去很不错,多谢。

    + w- q. S- i. D, |0 y直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ( D& A- Q/ [3 c% ]& K2 @& A5 }+ k( g; d( @9 t9 N
    已经搞定.2 Y5 J2 v& V' S
    % S7 f4 w7 q; b
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。) \  `8 o, D, z8 \# T& }
    9 C2 d/ ^5 N2 n4 H# p2 x
    1, python + pypdf 按章节拆分小的PDF0 }# `" C% |  P; Z0 O$ E
    4 Y4 s+ ?2 }% N/ V; K, K  d
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    " m% ^( k9 o7 V9 B/ g- V! `. c' U5 C: G0 \
    得到text file- A1 g( H9 N' Y' R1 o

    6 t) B: J5 G' ~/ }8 {3, python 读取整个outputfile,丢给deepseek 矫正。' j* q# ]& ^8 {% y% {: n8 u* R( A

    1 B. J7 d# g$ ]* v, ^  ]( q模型是 deepseek-chat
    0 c* F% J2 _8 j9 q. ?4 i, r- @# ]# |- n  e7 w+ X8 I
    max_tokens 最大是 8192,别的不用改。
    0 T' A+ u+ k& d" Y  T/ h' L
    * `! p* y. `7 O  }& `9 H3 B( @参考:' o4 b, l- r- y  ]0 }2 W* n
    https://api-docs.deepseek.com/api/create-chat-completion
    ( g: A/ j) f! `: n2 j. T
    % H0 K4 W4 B3 P. n+ J4,费用:' ?8 J; R: ?  y5 k- f2 G

    6 [. h4 M& o. Q9 k实测:
    # [1 U& u" V3 `2 ~
    6 Y/ L- `& b8 t296K 字母,用了 9 美分。
    ; R# t" V( Q8 U  ]
    3 ^6 t. k6 K3 |0 A) j& _英文字母 到 token 用量大约 1/32 Z! X( G0 d: x7 U. {, M' T; y+ Z/ m

    1 s* x8 D- A! c" a& Y% Ptokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ( N" |& a9 o7 D! L
    ( g/ F5 V9 A0 J' S32899 个字母花费 11782 tokens,包含输入输出的 tokens
    8 |+ x2 P8 k- x/ E$ m6 i+ D) J6 O( N. {$ e0 c) u
    价钱,非常非常便宜了。
    " B/ |$ n' r5 x6 A- a. c
    1 h6 r! u+ P0 B' b参考如下可以计算,懒得算了。8 F5 s  d& K& G& B
    ; Q8 N: ]3 M9 A$ @: W( A
    https://api-docs.deepseek.com/quick_start/pricing! Q% e9 U$ d. `! s3 N6 L

    - L7 p0 _" ^5 J1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ( X0 B0 X5 B7 F1 C6 c, }* d1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    " A* V8 Y8 a& Y1 c/ z) d1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    $ n$ p1 A  X7 k9 Q9 p
    + L# Z* {5 X% \# J# Z2 X. V! q" g5, Balance
    + J0 X( L7 Q1 e7 t8 s/ S, ?5 G/ q1 u2 k8 x, |" N$ o
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    # j+ W5 B# L: t: v, I, Z$ O6 J" J参考:# ^4 k; R4 A. B
    https://api-docs.deepseek.com/api/get-user-balance
    # {; }- p1 n! @9 H* t* X- X, m2 W/ ~4 U; [4 K, a5 x7 G6 s
    6, Models0 H$ K7 _* c3 t& e/ m

    * c/ K* t, a, O* s  W0 x目前就两个
    9 ?. I+ }0 I2 I8 d9 \# deepseek-chat
    9 K) f( f' a/ @5 O# deepseek-reasoner" |  o' q& Z8 [6 A
    3 z+ z! Z' z$ G& ?" W! P3 ^
    参考:4 h  \+ W* ]7 x) O$ L* e. v/ u  y3 d# u
    https://api-docs.deepseek.com/api/list-models/ S$ w0 ~0 d# g: @' z
    7 R) C6 p4 ^9 s3 Z# a8 `. ^

    $ s9 O/ x1 z; s* e. T7, 问题8 X- O! l0 ~* r) \9 z& K) ~

    ( }! r6 ]/ k& gdeepseek 会将前后两段合成一段。
      q' v4 ?8 J* ]: Z! }! [特别是那种大量的对话的段落,deepseek会给你合成一大段。
    : W$ p; R" p4 l" }7 e& R
    ; Z) l, {& i  B4 u  B( O4 C8, 钱说了算。% |3 O$ W% M+ X

    ; P/ j  O; E3 g, y5 R2 {( L0 Kdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。& X6 b- k& w! `9 h
    但是API就不会出现这种情况,毕竟我们给钱了。
    / y2 `; n! z& Mchatgpt也是这样的。
    3 G; S' V. a) N4 {
    9 R2 ?( g5 Q. _) B1 S- V1 I3 _& s% L* D, G( z$ E+ d# O8 Q

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-8-21 08:38 , Processed in 0.053240 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表