设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3077|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
3 ]  s+ W# {; F! V( }, _+ W1 D) l5 g, K0 I4 k
把PDF上传,然后让他抓取文字,并修改可能的错误。
! u. q9 p6 M$ J8 i3 l3 J8 Z然后deepseek完美的完成了任务。
& J. a, T3 i9 J4 z段落清楚,列清楚,页眉页脚全部去掉。
! \* U4 f; k  B" k/ t# w" G我要疯掉了!1 l4 M- `2 {' V
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!* a2 o: ]/ o, K7 x6 X
====
# }3 \$ Y* C7 u7 \. ~中文也很完美。
# m3 [- L, q! v经验值,每次十页比较稳定。
9 H' Z  e. O; j7 K5 t( J9 l& c. d现在我这里API还不能用,等恢复了,全自动了。' N6 i2 X1 h* \* V3 c
====
3 V  }* I3 N8 X; G' Q# Q7 I. a3 u, [第二次疯掉了!0 X3 n. }! }8 }+ i
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。' W4 O5 j9 |5 `% k2 `
====6 G. l/ ~" O: P- a; r" ^7 ^! a; c7 M
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
- G* x$ [/ G& Q  ^但是任务多了后,每次翻译的页面数是减少的。% e( J/ l7 D0 e7 B2 ?. f. S
好吧,我五体投地,继续探索。
  B% `! w9 Y+ r* c====
3 m: F# _& S3 u$ [6 _- O/ u5 }- i为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。6 t7 W" O( P( o2 G* b2 q
====! o5 ~2 p8 G. S$ ^* g
好吧,有些东西是不给翻译的,哈哈。
" ?  t& F1 x5 n) b6 y: c+ b# v2 p7 X( a1 W* n# v# i" [' X
Sorry, that's beyond my current scope. Let’s talk about something else.' J. b, C# j8 E$ o3 R6 O7 l5 W: Y
====9 n: @! y. j5 a& Z" e3 H
然后我的英文命令也让deepseek 帮我修改,呵呵。1 W" M6 ~7 L& [1 Y
====1 f# x5 R, G( U* |- A' |5 O' a
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
, g1 {* D( o8 U1 w( M6 v* N0 R/ T====
) U  P! o8 n2 Z7 E! H时间段的话,北京时间的下午和晚上用比较好。. i  U( L  L/ U
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
/ }- M  e0 D* ?# S5 n. K====6 i+ A0 u; F5 z- o$ Z
用千问吧,非常稳定,非常强大。
3 Y$ K) ?- |3 m; o6 q( lhttps://chat.qwenlm.ai/
3 U1 s, r" D! m5 L( F& l====
' m. v% [) F8 I" KDeepseek,API 看上去可用了,但是不给充钱。# y( x$ {; R! k" V  D% ]8 c
* X$ h; [' }' B; h& G

6 [! u9 |4 ^) _* H; k6 h! ?/ [8 O% e% D+ f& x7 R

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3787 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    1 ~- C. X& q- f3 _这功能很赞呀

    $ g/ {4 [8 X7 j' E- X  j简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:132 ?+ \; K9 d! g% y% F
    有没有上传整本书试试

    * O: o& Z! Z2 Z目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3787 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 ) K6 m. I+ W4 e: `! v
    0 [7 E/ l5 ^! p; y! H1 ?
    以后让deepseek 读出土的竹简9 V+ c- j1 N% h% K# g( U

    : p$ [1 h8 m$ S5 F" O8 ~9 ?. k还有把古文翻译成现代白话' k0 J) ?; I9 m5 M: }
    ( p# e9 s# p" D
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 2947 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    $ E/ {) X( F0 z+ ~$ l) v: Y6 U% \7 K5 [6 T  t- n6 I: N( ~
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    # Y* z5 i6 ]- v8 g# H3 e请教是如何实现的?" t8 k. ~  b& D! _9 O

    6 Y4 h) y9 O2 b7 t我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / @4 y9 w7 p! M3 C# y( l

    $ }+ P6 E. W( o* p我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    8 e* g! D# M: L* c( X! C) ~4 f文字之类的没问题。估计deepseek现在暂时只保证主要功能。/ @$ h" u/ w0 q. |6 W6 V: D0 d
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    2 _0 [. f. r- R4 U% b

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:239 @/ K) c$ [: \* ^
    请教是如何实现的?
    " G# k. f9 f9 f! W7 x3 Z$ z9 `4 G1 F
    + z( W, @5 j9 G1 p& B8 h我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ) G! j# O1 l6 Z/ e
    https://chat.qwenlm.ai/
    % U5 a  j$ H) k) G试一下千问,估计美国人没有攻击他,所以资源敞开用。& P- ]! k8 R# I0 [5 ~' z1 V0 v0 v
    很稳定,质量不错,好像最多一次处理15页。
    # Q; w3 ]" l; w* k# \我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3059 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ( d# _2 B3 S6 \处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    + _9 [* t$ ?! O( F8 {6 i# ]这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。5 D1 e3 _& A" b" `

    ) q( K/ Z) `/ m& Ahttps://github.com/oomol-lab/pdf-craft/ e7 G0 r6 l  J. @5 ^/ d1 d, d
    9 @( l7 m1 z& y. u! j3 v6 ~+ d
    1. 这个工具要求装 python3.10
    7 Q, Q. N$ _/ {0 O9 m1 e1 \2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    3 b& E; d) b  z3. pip install pdf-craft: Y2 q3 }* D) ]" Q- R
    4. 把下面的内容写到一个文件里,例如 a.py/ K& ]/ R( ^! H3 @
    % o- Q' o8 K, W$ j9 ^# B# R7 D1 h
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter5 y" g0 [' ^9 C* m
    2. 6 d. V# y4 D  o
    3. extractor = PDFPageExtractor(- x+ a  \5 p; D$ _& j: s) Y
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ) i1 {/ L( v/ K7 g0 O; p
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      5 {: v+ T6 h7 l( S# E
    6. )
      . G: F& _5 A4 _8 V
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      6 o! Q( s) D6 t- V3 Z; u9 w
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):9 ^7 h( }4 O3 Q2 F" |& W) ]
    9.     md.write(block)
    复制代码

    5 N6 k& o: s; [* E$ ?5 r, O
    # w* }* C" y% Y# O/ f要修改的内容:; c" |5 I+ i! f8 C
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型9 D& Z$ x. g7 J: N) ~% M, w
    4.2 markdown_path:输出的 markdown 路径文件名
    2 P. B0 ?) S4 f; \/ R4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ! I5 ?5 w7 X$ n7 r7 F1 B
    " `: [- ?  l; [, U* h1 D5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 * N. i$ j1 m& p1 f5 c; h

    ' x3 K) b  H0 k3 M4 z目前为止PDF转纯文字的最佳办法。* W; E0 L6 O8 I- {: t+ p4 A) W/ S
    先写个小程序,把PDF按章节切成小的PDF。
    0 u* \4 [* s1 S8 R然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    + M" d+ d- v9 W' R# z) u# S效果非常好。. R0 T/ g2 X& k, O

    5 a" j. S: ~) s. a. B% U7 Odeepseek,qwen,chatgpt 三个,deepseek是最好的。
    ; U! H. z* [2 z% g
    # `7 a# ]! m  S8 B; fdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    6 u1 T+ j# r. N$ K0 F3 J! u7 S- _而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    6 h. D' K% C% b& T* b& e0 H  ]; a我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
      H/ }0 c6 e1 t
    $ K( k& c/ b' L  a  a2 a/ G0 p& E8 B+ {API到目前为止,差强人意,不如网页版本修得干净。2 k! ]) [# W5 K- J4 M& q, [2 M* M- A
    1 D; q. D$ I- ]9 y1 C
    deepseek可以同时开四个。4 q( O! V4 R6 v

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    % H- W2 W+ U* a! E
    4 a* x. q! m3 S9 o! k让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ' q+ L9 b4 D2 x( F( v3 X" ~让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    & @' r! }7 w% G+ T: v% T8 t8 M
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    + i$ S; d8 q5 ^+ Y; d/ c/ l8 W# J' p细说一下,听上去很不错,多谢。

    3 R- O% }; o* }3 I直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; F9 v# {. J6 q8 \5 l- r
    5 l' b, c- y- P
    已经搞定.
    5 u+ Z, ^/ s9 w( y/ L3 E# Z* P: F2 C5 f0 p! H- d  w: {0 {: H) v
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    2 ?; [, v6 d2 R, {% q  F' N* q* f% ?7 E
    1, python + pypdf 按章节拆分小的PDF
      J( F: k- J0 _1 G
    7 g; C- F* B  q2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    % A9 y! D3 s  ~8 u1 V5 C1 e: F/ g) w/ K% V$ g& l) u' J
    得到text file  a! ?9 S( R+ k; J
    9 D6 |2 A5 Q; x* i# o- ~
    3, python 读取整个outputfile,丢给deepseek 矫正。
    5 T6 p( v6 A( P. M* K' s3 v2 q
    * C4 n$ L- T' L1 Q模型是 deepseek-chat
    3 ?$ _8 p4 D& E0 }* A+ b8 k- n! m; b! ]# q5 N+ k2 b
    max_tokens 最大是 8192,别的不用改。7 Y5 w2 Q; q* a0 J
    ( e: ~6 E) j6 ~8 {0 V( E2 z
    参考:' T; P) A, c. }8 c7 ^: B
    https://api-docs.deepseek.com/api/create-chat-completion4 Z" s4 g  d3 N" x$ e& C

    0 t8 s1 {* J7 ]; y: n) i* U& i' T8 K4,费用:
    . e4 U. W3 i7 J1 {; |3 t) Y! N7 ?+ }+ V1 ^
    实测:! g3 y5 g' I( i( v7 j& m+ f

      L, p" K. F! j% m3 _+ C, d7 l1 ]296K 字母,用了 9 美分。. K9 T2 @0 O( ]# w" n( f  q9 n
    8 z" }3 J5 V% ]5 A! c9 V& V1 t' w5 \
    英文字母 到 token 用量大约 1/3
    % {! u: K2 L* }  X0 _
    2 g' Q" b% w, B" y2 [1 ]3 }8 X$ f* mtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    7 V; J  |2 O3 _' o+ h2 p& \" \- p  D1 K6 h5 D
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    : D. r, i9 o6 ?% P. T' M* d% t+ e" B1 w# Z2 x2 y
    价钱,非常非常便宜了。# w, S. Y$ D$ Q2 N3 P5 U
    , X5 j5 ]( c. t; O( L/ S; `
    参考如下可以计算,懒得算了。8 A9 m. m- c! ^; K: H

    ( z; u  p- `2 K* t" R& bhttps://api-docs.deepseek.com/quick_start/pricing
    2 }, h6 g- W9 Q+ J" z
    ( x- L# _5 j6 x. o1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    4 m9 q+ O% l# S4 w  m8 W/ b# J1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.555 Q$ j7 E3 p  |4 o5 S3 E. ^( i
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    1 f2 ]5 [% n. O5 I1 V% S
    : D) G, T% M' p9 j5, Balance
    ) h6 S6 Z2 R! o) j" ]8 x+ P
    ( v7 b+ K: q6 p+ }6 ~; B3 S: v可以在程序里调用,知道每次运行结束后,balance还剩多少。& @/ o, q2 R0 v& @, F
    参考:
    + a8 V) R+ W. q7 {6 R, D, }3 c( z$ Chttps://api-docs.deepseek.com/api/get-user-balance
    4 W( a( \6 N" C  P3 Q! S' W# g5 [) ^% S; {% t8 H& I
    6, Models
    / h, v# B6 x' T# E0 k& W7 h: d( ^2 l* N6 a) f4 J
    目前就两个( u( Q( G( z# m  O7 L8 m6 J
    # deepseek-chat
    % t9 C/ s" i1 I# deepseek-reasoner' |/ a3 f4 k. K
    * h' i! {/ p0 o: b5 X% E
    参考:
    5 }, D2 H! L4 V4 I! Fhttps://api-docs.deepseek.com/api/list-models9 h8 @) U8 I' c* z- o

    " `2 ?7 g/ g) m$ `4 e
    3 A& w$ E  L  i' t1 h! n3 }/ n$ f7, 问题
    " C% l! n' {! @: b  ^* X, z6 ]$ ^  v3 f" c) i. L* h3 m" |
    deepseek 会将前后两段合成一段。
    5 y2 I( J) y9 T  ~- t特别是那种大量的对话的段落,deepseek会给你合成一大段。
    & E) m& ]& ^* B; W* l2 f2 c5 Q+ p+ _7 O8 n' l, b3 U& T
    8, 钱说了算。
    ; I& M  s1 W9 y
    , I" |' E$ t. ^0 L: |+ ideepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 v5 ?$ _+ d7 t3 u8 k% c  G0 }, D2 V
    但是API就不会出现这种情况,毕竟我们给钱了。
    8 a% z  W/ q4 Ochatgpt也是这样的。
    $ A9 y. P$ Z3 ]* N/ K" Z. i( }+ _; ^2 A9 E0 _& c9 s
    * z8 k; `# p+ {5 c2 ?

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-17 10:14 , Processed in 0.089830 second(s), 28 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表