设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2805|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
9 ~3 X9 M. _% z) m( J. y) X( p% z% y1 H! ?" z; c1 ?
把PDF上传,然后让他抓取文字,并修改可能的错误。1 ~& i3 t% I: B1 j" P
然后deepseek完美的完成了任务。4 I2 \  }8 q  N" I: }1 u# z
段落清楚,列清楚,页眉页脚全部去掉。
2 [' ], F( s. _# k' A: k9 V我要疯掉了!
) U3 H: |+ F' h5 `6 I; a赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
3 E; c; H2 s8 T* a7 c7 }====
( Y( m3 R/ R0 U& b中文也很完美。
( S4 n+ Z: |, Y' l# n6 a经验值,每次十页比较稳定。
5 v- L6 x% \0 ^% |现在我这里API还不能用,等恢复了,全自动了。
8 O$ y, {. v( Y5 b4 q4 N====
* v; ^3 I8 f' a% V$ x2 [1 F第二次疯掉了!
7 Q) M) Q) v6 U! s* q5 S我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
4 s( @" ~, Q8 }====4 W  U9 L& q; X# Z7 V/ W
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
) ]8 H9 ~4 p/ f+ l/ `3 T2 L* Q# b但是任务多了后,每次翻译的页面数是减少的。
+ M+ N. W3 v, z# t5 u, O好吧,我五体投地,继续探索。
/ o- ~' ]* c/ u====
$ v/ F6 P) ]/ R$ Z5 O为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。& A# }' s2 \( P. Y8 T' Z9 u
====5 b4 u% g9 S+ |( [2 ?% \5 ]
好吧,有些东西是不给翻译的,哈哈。
+ E8 q  R( v0 o4 R
" O- m9 K$ |& b; dSorry, that's beyond my current scope. Let’s talk about something else.
% e; u) }" G$ y====" Y7 X: V- ~9 B( I' N1 B, a
然后我的英文命令也让deepseek 帮我修改,呵呵。' l0 I2 V9 a( _9 H
====
8 [) y9 h" R. F& e" A日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。, ^& `% L) R3 L
====
1 t+ T  J1 O" I# o# d% _时间段的话,北京时间的下午和晚上用比较好。& z$ p1 Z8 y$ U, L1 X6 ~& U
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。4 V0 Z2 Y8 D# Q8 J: v, z% Z
====
" q* _9 Z" |% f8 h用千问吧,非常稳定,非常强大。
" C6 O7 ~- {( r" V3 mhttps://chat.qwenlm.ai/. F2 F) z- e9 T7 n- ~- `" ~& z
====
8 q. y) F, ], |* eDeepseek,API 看上去可用了,但是不给充钱。
- E; d! _' i' g! f. B8 w, x9 p7 w8 u* g& h) L' V
+ f8 U& k; _6 _, W- I
) q' m9 ~& U+ P! i& ]

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3728 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    7 s2 k3 u/ w/ G这功能很赞呀

    : y3 k* y# C1 c6 O简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    $ V9 l' @# S) l9 ]有没有上传整本书试试
    ! z; J# g+ l: Z5 h& S' I. x: q
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3728 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    * a9 P6 `5 j( p. f% x' A8 h. t8 x1 l6 ]3 Q% G0 r# `" X7 G
    以后让deepseek 读出土的竹简" M: u9 q# Q  Q

    % G7 d# i: a  ^: }7 [3 u还有把古文翻译成现代白话; W" a9 y0 n- R, Z5 |& f. J- u
    8 T) B( o7 y  S
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    9 小时前
  • 签到天数: 2889 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?0 K1 K& \2 t9 ~' M
    8 |" i# v2 D, w0 `) w+ ?
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23' T# Q" c( _) e- v3 E0 H3 O
    请教是如何实现的?
    2 ]$ ?( k/ N. }& G) y* o5 D
    7 e. z) o: r. }4 a' C$ i; O% \0 p7 [我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ' l! z+ g5 \4 ~$ Y: U

    ( ]5 ~7 u7 x) t: m, f我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。  Q0 D4 i( I% W8 W' w$ ]6 t
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    6 b: F6 u0 w( p0 O美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。2 C3 P1 ]- f# n. D& k. g  x

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23  R# Y) E4 \: o5 I- s% u
    请教是如何实现的?
    2 l; D  p, e. Z, a6 S' P5 H
    3 H& w3 d, X0 ]  u我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    2 ]0 j* @0 @, j& y4 d0 ~https://chat.qwenlm.ai/1 z/ W# J% J5 ~/ B& F/ F
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    # Q) `0 A9 ~  c很稳定,质量不错,好像最多一次处理15页。
    ' y& L. Z: Z, T我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3001 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    , b0 y4 |3 ^) y  D处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。% l" ]5 V% D4 @& X' N& W8 }/ h  @7 Z
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。+ A; U6 q1 k( q

    : N* S! j1 |& ]3 Ahttps://github.com/oomol-lab/pdf-craft. h  |6 g7 G7 J: I* d! i- u
    3 x* a5 H0 i# U6 x9 f$ k; r
    1. 这个工具要求装 python3.10" A$ i' W4 l/ J- C  M( }# _$ d
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    , G- M# r/ l. C: D4 X( ~( l6 p3. pip install pdf-craft. N9 X0 f, e$ ?& A) d
    4. 把下面的内容写到一个文件里,例如 a.py
    ! _( K. t1 W. i6 n* |( K8 q; P- c# t) h/ H8 f6 F
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      5 p5 r3 z0 i3 Z9 N. v8 Z& W

    2. " C* C1 @" K7 k2 N( s! Z+ Z
    3. extractor = PDFPageExtractor(. K, C% I" z1 E; [8 Y+ _  s4 J4 g
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      7 ^* }, d" ^6 `5 ]2 `% W8 n; Q7 u: b5 Z
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      * Q' b- k) k+ n. u
    6. ), j/ L( i- T/ F# G! g
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      / ]/ C: o- q( a
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):+ [7 l: P4 N+ B2 Z( @, h$ `
    9.     md.write(block)
    复制代码
    / W+ i' l6 ^& I. m) Z
    ! ]  ~) J, {! f  a7 U' \- Q
    要修改的内容:* c$ X; ]: ]* y3 @  l
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ( p5 @2 x/ [5 r/ y2 N( Y- \- t4.2 markdown_path:输出的 markdown 路径文件名
    4 K$ j. ~& }' J8 t: @( v+ S4.3 /path/to/pdf/file: 输入的源PDF路径文件名1 X8 o  j. T+ J
    - [7 O8 n% w4 Q$ l2 I
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 & @/ I: b5 T2 [5 j% W6 Y" a- c! P
    $ e$ r% J9 d! X
    目前为止PDF转纯文字的最佳办法。
    6 y% d5 W% k1 n% g  f先写个小程序,把PDF按章节切成小的PDF。
    ; @& g* g9 t# F7 M; v然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    + s8 z# Z% M$ k8 w6 n/ O  \效果非常好。6 {4 e) p) E% Y3 o1 M% V
    ' g0 N( \% l  R8 n; g3 j
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    2 Y1 x" C/ N9 }! `, X# X* ~) D5 a- s) j! F1 @. A  u! S5 [
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    : |: r  z! y. b  z3 X7 c而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    2 M7 h  O% q! T我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。  m- E' f7 N  y- y0 |" ?; H
    0 }) N6 T; U' [" C
    API到目前为止,差强人意,不如网页版本修得干净。' g/ U0 r% F% Y0 s

    # U0 O8 A" W' @& Z. G, tdeepseek可以同时开四个。4 Q" n! R% y/ c7 L# m$ y

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 0 J5 }+ Z& J- R8 B+ r  E; h

    5 y6 g& p8 [8 ^& F' x# l9 h: f# M让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:269 P! v& x. K9 d3 b  [% u: Q0 y2 x
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    7 w7 }& {4 Q! @" [& ~细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    8 ~& N$ Z& [) ~6 h细说一下,听上去很不错,多谢。

    / h% W3 ?3 T) `+ e- f1 a# x直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 x" {1 A( X% f3 E% }5 T

    5 k5 ]! N; R6 V; _已经搞定.
    ; [2 m# ^" l$ Y. g7 J, @+ l5 O  a/ r1 b9 V1 E
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。  T5 g7 X: e' ^3 v& ]! ~5 f# X
    * k( @1 _4 s9 x$ M' u8 ^- o6 V  J
    1, python + pypdf 按章节拆分小的PDF) o5 W$ W5 X9 }2 j% M! j( U7 `
    # `1 w9 |1 X6 a
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 e$ c4 Y! E. k7 U- N- y. N

    3 @5 g. l1 P5 U  v/ L得到text file
    ! Q, t2 Z% v& {2 [# L7 O4 P. p9 i8 Z' T# \
    3, python 读取整个outputfile,丢给deepseek 矫正。
    5 H6 J+ E% P3 `, c
    ( K" P- D- K9 X* q- e; ?( @  h模型是 deepseek-chat: V/ r" v( r2 J; _& Z" Y, r
    3 e5 ]( h2 W$ S2 {
    max_tokens 最大是 8192,别的不用改。+ M$ T$ x. a  f$ \2 P2 t. X& Z$ q
    " Q9 j# b; A) t# ]: i" X
    参考:
    . L$ j2 @4 Z# p8 ]/ r- ihttps://api-docs.deepseek.com/api/create-chat-completion* m" k' J! G( m' V

    0 r3 P- k- X0 S( L4,费用:( z7 u8 m# g$ Q
    1 B$ G5 J! `: g& S0 E' Z
    实测:
    # `, J. l/ X: l, o
    9 N% E: R( w6 }2 y' t  k296K 字母,用了 9 美分。7 ^7 @# }7 j$ V

    " d* G3 \4 J2 x6 L6 U英文字母 到 token 用量大约 1/39 u" T3 q3 k6 W9 U  ?- K

    & \. O" g4 M- j% x/ Ttokens: total, 11782 completion,  3729 prompt,  8053 | s:  328998 G" n% ?1 R+ K) L
      h0 P$ P! z; R% }
    32899 个字母花费 11782 tokens,包含输入输出的 tokens: R; U; {3 m% D9 N' F) Q# @
    3 n+ I6 J7 |4 d" W- Y8 m) ^
    价钱,非常非常便宜了。
    " s6 r; F* U0 C, y" ~; e' F$ n# C
    % D( U% l5 p/ d2 [参考如下可以计算,懒得算了。
    ' }/ Y5 Z% y. G) L  _* b5 f: @) R6 R2 \) P$ Q2 u" u+ ~
    https://api-docs.deepseek.com/quick_start/pricing! @& I( G0 \- N2 G# X" K

    * Y1 n, i( d. U, a1 m1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14. x, q) z7 O+ T& R- s, f  ?9 K
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.552 W, s3 t& }6 d7 \+ W) [) ^
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ! _+ q' ?9 V9 r, d% D& z' \$ D2 [6 ]! F
    5, Balance1 J. {4 ]; G  L) n$ Q3 M
    , s3 x) \$ P, r
    可以在程序里调用,知道每次运行结束后,balance还剩多少。5 g9 _+ M6 Z. t$ j' c
    参考:7 ^% a  w+ ]% M1 j- J5 h* i/ f
    https://api-docs.deepseek.com/api/get-user-balance
    : a8 p$ a& k% z! C8 D" Y2 g8 l! i2 M6 S6 h. @/ q
    6, Models
    # ~8 N' e& w: c% E  s; `
    ) F9 G- s: S, B7 a' W9 N' P- D( D目前就两个
    & ?8 ?7 a7 P6 z& x/ y- f2 f3 K8 v# }" J# deepseek-chat
    2 f" [/ S. K# |. C# I& O( y# m4 }# deepseek-reasoner' p/ y2 ~) D2 T& o, \0 d* t. K+ B

    2 x; X' q5 W' s- y参考:6 o; [1 R- @, y* W" E! L1 {
    https://api-docs.deepseek.com/api/list-models5 ]0 x4 g2 `: S9 y

    ) u: x1 e: I* u! H. u
    1 y. k9 ?0 t/ T4 g/ ~* H7 M/ P7, 问题
    # K4 B0 ~: I; V! [
    3 B# P+ b0 y7 ?  I) \" e$ [deepseek 会将前后两段合成一段。; |% L" U  y2 _/ _/ L" m) R
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    3 @  x% c6 O' F; |: ~7 Q  I
    ) G7 o0 D% F* T: k8, 钱说了算。
    - w9 f: \$ L8 v$ y7 X
    ' S- ], f, T# R1 adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 i- Q2 d1 k; `+ s) x5 k4 I
    但是API就不会出现这种情况,毕竟我们给钱了。
    & y6 H( J; @# A" s. z- ?9 A$ hchatgpt也是这样的。
    + H. e1 T3 A9 z
    6 F+ t- Z2 G% h% t/ b& J' D
    ( f% k! |( P+ a# x4 h7 R; q0 N% H! n

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-19 11:25 , Processed in 0.066774 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表