设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2689|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 / y- L1 {* n& t# \! S$ d; V, S
6 C+ t- ^! A$ \
把PDF上传,然后让他抓取文字,并修改可能的错误。: B: V$ j4 a: o
然后deepseek完美的完成了任务。
  f% H/ u3 H  ~+ I" Z, s段落清楚,列清楚,页眉页脚全部去掉。5 B& L2 \% [: E; ^5 d1 O
我要疯掉了!5 ]8 E8 D0 o2 V! m, \8 u
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!2 @1 {: \9 E2 }* }: s6 ?$ w7 a
====3 v6 U' \) s2 w7 v, x
中文也很完美。( y% ]" I+ K! |8 m4 M, A
经验值,每次十页比较稳定。
1 l( @: `# d# Y, U% U现在我这里API还不能用,等恢复了,全自动了。
5 ]# `3 i; |* i5 _7 ?# L====
3 G! H; p9 g/ s$ R第二次疯掉了!
% g4 k' b" z8 y6 c3 ~3 t6 o0 |我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
- d( h/ {  \5 a2 P* E====
7 g* M) ~: d8 n* ^+ e/ o& W现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。) P2 a6 F) s1 I! ]  m( B3 L) j7 V, ]* r
但是任务多了后,每次翻译的页面数是减少的。+ T$ l& r5 V6 ?) B$ ]
好吧,我五体投地,继续探索。3 a( s4 u& M% P6 o
====
# _5 l4 I1 t& x' N$ Y! @为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
: _) S: |4 K) E; q====
; K. u7 [& z* U1 E! ?好吧,有些东西是不给翻译的,哈哈。
9 e- L% z( I8 C5 v5 E" Q$ f! K
% ]6 B( T" Z1 d+ I. i9 C! CSorry, that's beyond my current scope. Let’s talk about something else.
+ A7 d/ ^1 z8 X9 Z1 Z====
9 u- w9 _5 \0 q* \3 `然后我的英文命令也让deepseek 帮我修改,呵呵。& l& v. T. {+ H) ^0 l5 J
====
: b2 y% [- j0 @) |$ R日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。& N0 x0 `0 U$ Z
====
1 ~# K+ a) A% Q; S0 V6 c3 D" I时间段的话,北京时间的下午和晚上用比较好。# y% n# R+ l, C$ ]$ r% E/ C
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
0 N/ m/ i/ Y0 J  G" @====' _- [" q6 c% a1 W
用千问吧,非常稳定,非常强大。# w$ G7 o- A+ T
https://chat.qwenlm.ai/, o6 w7 R" d/ R6 w8 v  Z) s
====
/ U4 P6 N( v. c) pDeepseek,API 看上去可用了,但是不给充钱。
4 _; I" i! F8 d, _7 v
) [9 J4 _& J& n$ h8 o  b
5 t0 a0 o0 f, m* y. Q0 _3 L
: p* O/ c* {! z" s

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3704 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53% l( @) J- c1 b
    这功能很赞呀

    & q9 w! a9 M: D0 @; y" C简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    # M) Z% L# E: K' d: r8 p有没有上传整本书试试

    4 O8 D8 O6 O3 g目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3704 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ' j+ ]5 r' G' H" A' Z$ w* f: L8 F, J$ z
    以后让deepseek 读出土的竹简
    9 [& i: j! F5 t7 w, f$ }, ?. k0 P5 H+ M
    还有把古文翻译成现代白话; H2 U& A) `$ ]& m1 N
    ( B3 P% }+ R0 E, A- D
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2866 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?) Y9 Q" |0 j1 R3 o

    3 b; I) t2 Q, @* K+ G5 N/ v4 f我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23  v- Z' ~, H) y* H5 B4 X  Z# l' C# }# x
    请教是如何实现的?4 x. q+ P- U/ A+ y' C. Q+ ^

    7 b* l. T; Z: }我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ( ^% s& Y% m5 N
    5 G3 |* ?1 V" \& y. E' ^" Y( a
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    5 C& T1 t3 j9 M1 G) U) Y" ^$ B文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    1 n# H1 |1 }! V/ f# n1 c美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。- a8 p) X6 W% w" X

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    0 Q3 {$ Z  B5 L; d, U2 w请教是如何实现的?
    ) ?5 {# b# t* i* E/ Y
    0 l( c8 u0 b" }- F7 f/ ?我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 Z. E/ {; H( V4 v: }: C, ~
    https://chat.qwenlm.ai/
    - ~( j+ Q- B' W6 k9 c试一下千问,估计美国人没有攻击他,所以资源敞开用。
    + h+ d% q2 E0 s4 x很稳定,质量不错,好像最多一次处理15页。6 ]" I6 c/ b/ G7 r3 V& m2 v# T: H/ z
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 2978 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    $ V7 O- z2 o% t: }9 H& e* S5 i处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    2 H& w+ t( [7 ^9 C, U这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    . t" q+ g, H: |- m' }
    % D( P6 N. G9 Bhttps://github.com/oomol-lab/pdf-craft0 ]: x2 v6 v$ F( J  K& ^

    # r1 \# [* }- x3 J0 K1 f1. 这个工具要求装 python3.10( R/ t0 N; H" P' a7 Z3 _- u/ f9 i
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0/ X: z; @0 X5 Q+ T; c
    3. pip install pdf-craft
    & E) j7 r/ |9 ?8 `" @5 S* ]4. 把下面的内容写到一个文件里,例如 a.py/ s" e4 B4 m+ _
    * _. S3 {: e4 H
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      " X" g1 D) e2 h0 s! ?/ [
    2. + H& I" I8 t4 }, e" C1 D
    3. extractor = PDFPageExtractor(
        d9 l3 Z# o+ i+ y  x( T  O3 S
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ' w+ N" @9 |) j( `% B. C
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ' u2 K7 E8 }- t0 W
    6. )3 |4 R, Y8 \( R5 Z9 m
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:: P+ Z7 X2 l: X' o: z
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):( M; J- T- `6 z. Y: i) @) L
    9.     md.write(block)
    复制代码

    & o$ u3 S" l- {  L, [
      d6 U, s4 _" C0 f# m/ t3 s要修改的内容:3 m7 S$ D8 E; k
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型/ ]1 l4 G0 ?5 x& M& @
    4.2 markdown_path:输出的 markdown 路径文件名! F, [$ X/ h# t: f" p7 d6 s/ N! `
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名; p, d) N- z3 ~; J7 K
    ( W6 ~+ l+ q/ s, D
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
      h8 {1 t9 q5 ], Q1 @( L) B1 c6 U  n! s1 J: {6 @6 d
    目前为止PDF转纯文字的最佳办法。
    + |/ K6 @/ \% V5 {先写个小程序,把PDF按章节切成小的PDF。* B7 ^. d0 W3 i$ [- ~9 S
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    3 m9 _4 X, N& Z0 c效果非常好。8 f' ]8 w) u8 ^2 e/ U( P
    6 Q( z9 X# Y( ?
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    5 j! v8 ]# Y7 e# V  u0 D; O
    , Y2 x- M6 m& E! Odeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。% l3 A* g  U1 V: p4 k# g$ n! s
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    0 p$ c, t) r8 i, k/ |/ b' P* k  A" A; d我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。) P9 f! m3 G4 V% Q- Q5 j2 ?

    : _) m3 P# e5 @' w2 R4 u" {API到目前为止,差强人意,不如网页版本修得干净。; B! p" G: g& G

    0 B; b+ W: I. p; H2 l2 P0 ^& B: Tdeepseek可以同时开四个。
    8 H* `5 M# T# m; D

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 $ v/ b3 E/ {: ]: Y6 c6 v; V

    8 p( `' G* T3 x( N( ^# |让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    6 t! V& E" I9 |让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    + ]6 M5 E+ C3 ~" |- X细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33: r* d8 [+ I* ?
    细说一下,听上去很不错,多谢。

    6 S, \' v, f# j2 i! n直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    * m0 w; I1 r4 s- O' g2 i" g6 q4 ]. s6 p" ^$ s3 F
    已经搞定.
    4 N/ d0 i, ~  ^. }, h3 d- g4 O# M7 I+ c# ?
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    6 V/ }; @) W& c0 d: M( m
    3 T) s8 `: i9 s, ~0 |1, python + pypdf 按章节拆分小的PDF0 s% J3 a% A7 g- ?
    7 ~) _; F* K8 v3 ]
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; }! g' o! U+ J5 R1 J

    ) x- s3 c7 M$ h$ Z2 x. _& V得到text file% Y8 ~  u! R0 s; U! x: T3 V
    ; N+ h7 f0 Z$ v6 j8 o+ z) O# T
    3, python 读取整个outputfile,丢给deepseek 矫正。
    / p5 y5 ~, \- g' Y: F" Q2 e, }: N$ u. H# a7 L9 I8 F, H3 L6 ]
    模型是 deepseek-chat9 O4 ]( N0 k" b

    * N5 }+ n+ \3 Q0 nmax_tokens 最大是 8192,别的不用改。4 V: n1 v7 o- Y7 ^; L$ J7 s
    # v+ x( L  J8 `% h
    参考:# U% \* t3 r; O' u, c
    https://api-docs.deepseek.com/api/create-chat-completion! ~8 ^- J1 g# S8 o

      M5 f; |3 y) C$ M# w/ Z( [" O* m4,费用:
    5 k) v* ?7 ?+ u3 t" H# K
    $ T" _4 |! [/ V* G7 d1 l" Z) ^1 g实测:  }. y! o& U/ L
    " i3 {% P% u+ n0 ^$ w
    296K 字母,用了 9 美分。( a" v8 t9 j  I+ `! ~) E
    3 w% y: E, G% e; ~! P- y
    英文字母 到 token 用量大约 1/3
    / L- ]" o% [! w% |( K4 t; L$ y! |# u9 ?: T* ]1 r
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    6 N! |+ a8 z! u% P9 J9 F7 ]' c: `9 A! i/ X6 G% b3 j1 z3 l
    32899 个字母花费 11782 tokens,包含输入输出的 tokens+ I( q3 ]% ]& W* g0 T) p

    1 `) v9 a4 `: e) n* H价钱,非常非常便宜了。
    2 ^8 r: d5 F( n* I2 C2 ^' n) Q0 Y) m
    参考如下可以计算,懒得算了。% O1 I; ]) i/ f

    8 i  J6 M5 K2 H- @4 V- B" |- Shttps://api-docs.deepseek.com/quick_start/pricing: C" X! R* n$ A  ]

    6 i! j* Y+ N, D' ]1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14! `2 ^1 v( ~: W( S
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    $ J* U% F  i. a0 H& Q" p1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ! m: G. ~( E. ~! l+ N7 j; j* `8 s* |% _5 E& z: Q/ e: q
    5, Balance
    4 {. P- K! N( J6 G, @
      z5 q6 X- Z% N0 ^+ b9 ^* A; N可以在程序里调用,知道每次运行结束后,balance还剩多少。1 r3 T) U1 W1 A! G: w! U% N
    参考:
    6 p  l7 `/ K4 S( A3 V% G* Ghttps://api-docs.deepseek.com/api/get-user-balance
    " `, @* }. F5 ?1 C8 b4 N- P  \/ m# S0 k: ?; X, n4 a
    6, Models
    5 r6 u) |- t0 o: J
    2 ?6 c) [; t" m; i0 O  K2 O目前就两个
    3 q; V8 g* s0 S! n1 X% K/ x) C3 R# deepseek-chat
    5 \& O' |' m5 T8 ?' t& p. M# deepseek-reasoner
    . [  O" o- e9 V/ d
    1 ]* Q; e/ f! T+ q参考:' C& B. z, Q  M& N- W% s
    https://api-docs.deepseek.com/api/list-models' X3 J. H  a, W+ e4 M4 V
    8 M1 @/ |. R" D6 w' `

    9 E0 k% u! I( J- X/ v2 v7, 问题+ w4 g0 K2 _  C' ]

    7 v9 U+ ]- M) y  r& c" Kdeepseek 会将前后两段合成一段。9 k, \3 C* S0 [* Y
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    " O. F* d1 |. b; _
    . R! e* a" q- q# ^8, 钱说了算。# _- {% K! y" X
    2 Q3 R- ~7 w3 n  Q) Z: d* @9 a
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) O, l# [3 L8 h. s, b
    但是API就不会出现这种情况,毕竟我们给钱了。: D8 B& v9 a: B8 g" \1 _! C$ z9 Y! I8 j
    chatgpt也是这样的。
    2 t% F1 I0 x# c1 k8 F  o- n$ c+ x
    6 G1 S" D/ Z  Y# W+ u3 W! d2 j* X  M1 s& R5 d5 W" i

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-23 09:14 , Processed in 0.103779 second(s), 27 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表