设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1116|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
( k1 n1 t7 E. W6 J6 _
' h6 X  ^  n% `. O0 Q* V把PDF上传,然后让他抓取文字,并修改可能的错误。1 a; T+ |/ Q* r+ I
然后deepseek完美的完成了任务。
" f8 W5 x. a5 g段落清楚,列清楚,页眉页脚全部去掉。/ W% N. T; m2 z3 H  A- Q: Y
我要疯掉了!
- f  `, L0 b9 m3 L4 j1 J# h9 c赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!+ |) c8 j+ L, b, G% P
====+ p+ ~1 q8 G+ k* Y" X1 Y
中文也很完美。' J; u/ o  N/ K
经验值,每次十页比较稳定。0 z! T1 S5 U+ H4 [% h
现在我这里API还不能用,等恢复了,全自动了。6 k9 C3 a6 \! S) @2 V
====
# Q" G  Z( U; e第二次疯掉了!
7 i: ~6 j2 {% j  f5 J1 E% Z; ^我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。0 V' B8 |6 p7 m4 u
====# j: g" i$ ?# u  d
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。$ r! |( T3 a# ]# a5 L/ P  a* U
但是任务多了后,每次翻译的页面数是减少的。0 L) W$ y7 E6 Y# N
好吧,我五体投地,继续探索。" V! O1 {, `# O& F
====
( P9 A" s  f9 s9 Y2 Y- K/ j* B为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。5 A* N' M) i8 R; V
====  M$ J) Q. B$ T6 T: S) L
好吧,有些东西是不给翻译的,哈哈。$ Q  @' V3 p* a; H1 @
; ^" \# ]) y* J1 s) h
Sorry, that's beyond my current scope. Let’s talk about something else.
& t$ W! {% x4 F% b====
6 L" s, P6 H9 ~! O+ N/ O4 F8 t/ H然后我的英文命令也让deepseek 帮我修改,呵呵。
: e- H9 j; y3 j' {& q4 q) ~/ h====
$ L# k1 W8 N; g( ^! E6 `日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
: G+ \9 h" Z' }" }/ p2 d5 F8 ]====$ @- E- ?% L" p! D. O# r2 }
时间段的话,北京时间的下午和晚上用比较好。
8 f# _$ u3 P, R* ]  l- u后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
' F3 _" K2 J/ m, m====! o7 M9 |) s; F3 U! l, j- R* m
用千问吧,非常稳定,非常强大。1 {) a4 }% W& e' s( A. G: u
https://chat.qwenlm.ai/
" |' ~8 V( {4 q6 X====
. p3 u+ n% R. t% tDeepseek,API 看上去可用了,但是不给充钱。
, G. }( z  |2 Y' N: b0 r2 \
$ b5 T/ z* Z4 b' w5 w) J: G! M8 H4 Q$ j

$ H) b" f/ ~% G: q) ~2 C6 Q

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3441 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53! r5 ]) v( r" P5 F; d1 b) Y
    这功能很赞呀

    0 [6 B3 M/ ?3 }; [简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    4 V9 D0 M6 d0 M有没有上传整本书试试

    8 m9 s6 r' s4 N- g目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3441 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    6 z( Z7 C" p3 I  t' h
    % [4 W6 O" g* y  _0 y% x$ x$ \% t以后让deepseek 读出土的竹简5 F  f- i4 J. y6 v
    * u+ p: p4 E" S& f* B
    还有把古文翻译成现代白话! Z9 q9 r! L% d' Y7 ~

    - ~1 ]4 U' S) _以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2594 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    , G; v$ t* {% H$ P* u4 y! R9 E6 ~" Q3 L9 ?7 p! m
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    3 c, F3 B5 [, v/ F. d( ]. r* W请教是如何实现的?( u3 A- H* k3 G) e; S. u  q: P

    $ `+ r: E) [) y* x+ z' |我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ; |8 U+ D$ `4 f5 |0 f0 t8 R/ n4 z4 {. d+ I4 D: Q
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    # L; g$ {7 |# {文字之类的没问题。估计deepseek现在暂时只保证主要功能。2 ]( Z+ k- }/ i  I( |
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    , _$ \5 [( U0 r' R9 C

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 K* f* i5 c" w, a6 X9 p$ t请教是如何实现的?
    5 u4 T9 c6 ~2 P
    - m1 G  v  U- l0 Q  |/ g3 r我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    6 G* s! y. L. z9 D8 i% O$ V2 q$ c
    https://chat.qwenlm.ai/
    : y' G! a" u4 R; z7 J' F试一下千问,估计美国人没有攻击他,所以资源敞开用。' ]% T* Q: i) K
    很稳定,质量不错,好像最多一次处理15页。
    . Z0 |, U* `& J我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 2734 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    % G( A5 Q. Y( b/ G; E% s3 w* c3 |处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    8 i6 `( a) k2 ]' G' u这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    " F# a$ A- O# e" y5 G2 q8 k( h, |. Z# v- N! [6 m, m; B  e* n
    https://github.com/oomol-lab/pdf-craft( J  R+ L% a1 f( T5 l

    ( w) @9 k5 Y& V$ F# i4 E/ u: r1. 这个工具要求装 python3.10
    1 s, s+ G2 W, A" a2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    2 R( c( J* |3 \8 |1 r- P# h! h. E3. pip install pdf-craft
    + m" e% I- w7 S! {8 u7 D4. 把下面的内容写到一个文件里,例如 a.py- Y+ [' b, _2 v4 C; s4 n  y

    $ g) U. n6 k' H5 j8 M  M, w  K
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter8 R* b* r( ^( |6 ]/ K4 Q" v
    2. * S2 i+ p/ E# r0 V- F
    3. extractor = PDFPageExtractor(* ~  y) b$ j5 Y4 M1 V6 `% l( O8 g
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.; w5 R6 U) @+ o$ J4 `% Q- A
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      $ M' c5 Q6 Z: q& u0 O) e
    6. )* x& Z4 L3 d/ R% N, A4 `
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:: F9 z' G% V# N6 k
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):' V* _2 O* \, c* ?- I3 V
    9.     md.write(block)
    复制代码
    8 ?1 G: G- o( Q. }; U9 j8 \
    ; x$ Z) b' }# l) u5 s
    要修改的内容:
    ! l7 p6 m( t: h0 o7 K- O4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型3 ], V5 o% U5 Q4 L( c6 N. L
    4.2 markdown_path:输出的 markdown 路径文件名5 {; o$ ]$ v7 A& M: M- w$ \% c# ?
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    $ s- E6 ~* P+ l* k4 V
    , G) J! V9 A2 T% M+ p' E5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
      b1 M6 r3 Q  G4 b: U! r! Z
    ' `' i$ J4 n" o$ C0 v+ h; K9 A目前为止PDF转纯文字的最佳办法。7 a  F1 N) I1 _$ h$ U1 r" Y
    先写个小程序,把PDF按章节切成小的PDF。
    , L7 q7 V/ M' r9 D; A! v5 a然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    4 Y- t) t  f7 O& k效果非常好。
    4 j/ q! x! H4 D$ Q% _, @* Q8 i) a3 o4 N
    ) L2 t, Q3 [8 pdeepseek,qwen,chatgpt 三个,deepseek是最好的。" b- N; W2 X: f0 {: C" Q8 B) |

    6 o0 S. }6 p( j5 adeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    % a5 b! B% v: ?而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。7 @: T4 o; d! r
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。; b5 F8 ^* U+ C' |+ \7 Q% h6 f: g
    $ \( @# g) L3 y/ [8 o3 p) w
    API到目前为止,差强人意,不如网页版本修得干净。6 c$ U4 }2 `, d3 A; B6 R

    # K+ ]5 q- {& G1 o, U9 ]4 Tdeepseek可以同时开四个。0 ~7 a7 E) u) U2 B

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ; u! U8 d$ q4 e

      X- `+ i2 z) E9 S; |: o" x) Q让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26, ]% y& O& X3 T- q: C
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    $ W! [, m5 `' m3 P细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33/ \" u3 }' v$ ]. S* {
    细说一下,听上去很不错,多谢。

    6 X/ c. o. l& z" {5 Z直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    3 H# T  j7 Z' I2 M' q8 Q
    & h" K  z* o$ z4 M7 p0 D  l已经搞定.
    6 f4 u, \* {' n. O) U! j" ~0 p! I+ {) J
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 V5 J7 z$ d7 d! l1 C
    # S8 ?7 X- f5 T1 I( u6 p* @
    1, python + pypdf 按章节拆分小的PDF
    1 _6 n1 J& \* Y$ G' i5 m0 W
    % `5 u% N. k8 ?3 t1 E" W2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile# l9 e" n1 \! K+ B6 C
    * m2 B# Y, u; U6 ^. v2 T8 J2 c
    得到text file) [1 @; r% M5 [' L7 U' r" f

    , Q' d, }7 c* ^; _; ^/ P' r3 `3, python 读取整个outputfile,丢给deepseek 矫正。9 r' j6 j: H, x: V7 ~; w; c
    + W7 o* Q+ c$ Y# V2 j. Q6 T
    模型是 deepseek-chat5 o+ X; N/ d4 r# d

    6 |, P& i4 N6 |! o; c  E- jmax_tokens 最大是 8192,别的不用改。
    8 A% [1 D0 C; ?8 I  }2 z) H
    ; p4 {1 |' y6 N/ i- g9 u* A参考:
    % g4 i- F0 B- y8 T7 dhttps://api-docs.deepseek.com/api/create-chat-completion8 o8 L% ]8 ]9 E  T2 Q/ z9 {4 O' H

    : ]) y0 Q: {$ E+ M; l% o4,费用:  n2 _1 G/ D2 G# S3 I* ?5 `. _

    $ d- |4 Y' z4 w- O实测:
    0 A6 E- C0 m$ H3 n1 D# O3 R; \2 d. w7 f
    296K 字母,用了 9 美分。
    % B4 k7 L5 {0 e/ u6 Y
    ! r* V6 i! @# E5 T$ }6 p英文字母 到 token 用量大约 1/3
    9 ], }& l2 V3 W7 l/ g1 K) {+ @! K( a# ]+ F  u8 |( |: x1 {
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    " [$ F8 }7 u! H2 I6 e6 c# I6 \0 ]
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    6 H+ q+ u5 i- H& W- j
    / C+ _- Z+ D" I. H+ n价钱,非常非常便宜了。
    5 k6 l' J! Q) k4 D( f, W( r: f% i
    " \- j4 J" B4 x, j参考如下可以计算,懒得算了。4 v, ]/ t! i1 D+ s

    ) C2 L6 g. z; J6 J( n( q0 mhttps://api-docs.deepseek.com/quick_start/pricing6 b% V7 F; \, E7 m8 O

    2 S# T4 U; T, O+ T1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    7 I5 Y( K# }+ q2 u  q% ]: f& H1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ) ?+ ]1 T. z8 L! f$ K& f1 r1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ' P9 H. H, N/ o/ c2 ?: r1 H' g, W" O* x6 K. M& [
    5, Balance
    ) f  r4 D. [: U# Z8 B/ U! V: R! _, O$ b. a/ O- L) Z9 D
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    . ^; h, Z* w; V, K. D8 f/ i) g参考:' [0 `1 C1 z) H. ]0 x! C
    https://api-docs.deepseek.com/api/get-user-balance
    7 b3 f; F. N1 O: i. U0 \
    2 H3 N; x. b$ ^# [6, Models
    6 k& `. d; U9 ]" g! N- A0 y/ Y2 V! |0 ^6 h( B9 \6 I
    目前就两个5 W3 X: V5 c+ E" a% c( D, i# l  W
    # deepseek-chat# @3 T! a0 u+ }) b$ @2 k6 D: v
    # deepseek-reasoner+ [, ^5 u1 R: @' Y9 r- v5 F

    , ~- h: ?) H' v* V参考:& D# D9 O+ w$ {9 ^# R
    https://api-docs.deepseek.com/api/list-models
    7 u' K6 x0 `$ F1 i+ h' W  Y- c" k; [% w1 Y/ N1 x/ ~
    6 P, v* {3 x8 l* K
    7, 问题2 g" F. F2 p+ c9 [) U
    2 ]% s' j5 _: e( [. O
    deepseek 会将前后两段合成一段。
    7 Z6 E7 M6 x. f) s& Y特别是那种大量的对话的段落,deepseek会给你合成一大段。* a% c9 F: C5 Y; x/ T

    5 v( \# k) T6 Q  G" Y+ ^+ S. Z8, 钱说了算。& C+ W! s1 Q2 @+ z4 k

    & z, Y$ \: i- G7 {8 M6 Mdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    , ]9 p5 I8 f, M  P+ c4 A: v9 s: N但是API就不会出现这种情况,毕竟我们给钱了。4 h! ^5 J- K2 X% t# R7 u, `' U! }. X
    chatgpt也是这样的。6 s2 X2 G! ?3 q7 z- @% Q3 v

    * W  C3 T; ?- Y, W6 d: \2 X
    " g% |; R  k( e& @; k/ l" F

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-6 16:37 , Processed in 0.042253 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表