设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2512|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 - D  t# d8 Z7 ]+ y* A2 u/ A
# g7 N* n. E7 a5 `) O
把PDF上传,然后让他抓取文字,并修改可能的错误。8 t1 l$ k' z& _5 P% S6 l6 M
然后deepseek完美的完成了任务。
" e: m* |* t: h  `8 J# B. K. _/ m段落清楚,列清楚,页眉页脚全部去掉。
9 w. r/ j. y8 |# e4 k' x& j我要疯掉了!
1 }$ f/ w3 V. U$ R/ t赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
: ?/ |% {9 l' V( K4 X2 ~====
( l1 v0 F( [9 r' s中文也很完美。( e# X1 S+ t" @% Q
经验值,每次十页比较稳定。% m$ j7 J; F$ ^( L/ J  ~
现在我这里API还不能用,等恢复了,全自动了。1 ?  [" w. l$ ]
====) M( K2 ^. g4 ^  y5 F
第二次疯掉了!
0 m  G) R: F" v+ z4 ^1 @我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。6 v4 j5 \* X" k9 @3 T
====
5 K6 @/ ^: ~: u6 N$ B现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。# L: v6 J1 j* a6 e
但是任务多了后,每次翻译的页面数是减少的。& {+ s) @1 }" r
好吧,我五体投地,继续探索。
- `( ^+ a# ?( t====
# F7 d/ c9 O4 I9 p为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
+ p, v( [1 R- w% |, i====; |' N& Y5 m/ m
好吧,有些东西是不给翻译的,哈哈。
. l; K1 w% n! ~7 i% u
: w9 O& d% b3 a) D0 tSorry, that's beyond my current scope. Let’s talk about something else.
  @0 A3 n6 P+ p* B+ i  D0 e====
. A3 X" d. W% e! n5 d  @/ p然后我的英文命令也让deepseek 帮我修改,呵呵。
1 u2 d- l/ d" A" s: N& ~- ^====
2 ~$ K6 p6 J9 L$ v; k4 s日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
8 m' E9 C; t8 N6 X9 V====
* M9 T( r; d/ U  M2 G* f9 W$ H% A时间段的话,北京时间的下午和晚上用比较好。, {* I8 F2 n' v) O
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。- q" a& `, P3 D& w
====* w6 W( [, Z5 h  K+ I, F5 n
用千问吧,非常稳定,非常强大。, p8 z( q! m% N  S: G
https://chat.qwenlm.ai/% m+ U- j, J: I- c: J4 y7 r8 q9 t6 g
====
4 j$ n% }" {2 j: W( @8 c+ `Deepseek,API 看上去可用了,但是不给充钱。
' A1 P+ P/ g' h& Q9 z1 y: ~7 M$ G- X4 V1 m" B7 X& v% C; c5 N( W! X
: |9 x: }) F7 t" }

: ?. [$ F& G, `6 F

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    9 T* `7 [: Z; O( c$ K: }这功能很赞呀
    0 O, |5 W" b: E( K' D0 g% M
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13* X+ x* {+ }6 M- k
    有没有上传整本书试试
    5 Z' B  K' b( s( `3 h. D; g' ?
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    4 I, \+ m* k7 R7 P* \# _/ q3 {) `5 ~3 y3 |+ \/ l) S6 ~7 g# _
    以后让deepseek 读出土的竹简
    / i9 M) V$ x! ~% k* R+ p- V
    ; z9 x0 I, d' y# b还有把古文翻译成现代白话# _9 T* q7 S5 x% Z5 k4 }
    . b0 F: g& u$ @0 g: v, `4 S
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    14 小时前
  • 签到天数: 2826 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?" R5 n8 P) W2 Y+ m- m

    1 s9 v* U  h/ Y' Z我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    4 Z4 z9 d2 M8 C请教是如何实现的?3 |, U) O( i7 t( s4 Y
    # Y4 W( Z. i7 @- r- X
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 z6 D# q, g3 N9 y  N

    ; R- Q' T0 ~' _+ [5 r% i- n我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。% g" Q3 V4 U/ |& K
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    % h. t; A0 l0 V美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。1 M% D1 G2 w; O6 s: g

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23( f6 x; g5 ~7 o6 n: q- q2 U; A: x
    请教是如何实现的?5 n; ?" z) M; m" p# `1 x

    ) q8 Y/ y' g/ S我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    + A' F# Q% W$ u
    https://chat.qwenlm.ai/! {4 i7 ^( i4 `: \
    试一下千问,估计美国人没有攻击他,所以资源敞开用。/ b* E2 Z& \: z& S; ~6 o+ h
    很稳定,质量不错,好像最多一次处理15页。. X+ W7 Z. I4 _% b) d
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 2940 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    9 Q; F2 O) p3 P! A4 ?处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    * x0 H) e: n0 {- H' i# U  c这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。( g" y" z4 b; E3 c4 a
    ; p2 I5 l) m/ E8 Y2 a% |* e2 ]# e
    https://github.com/oomol-lab/pdf-craft
    ; n% J, g: @) E- |! [% L& u
    7 [/ N6 {0 N5 K+ f1. 这个工具要求装 python3.10' P* I8 ?/ x' W
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    $ N) W. _# }( x) g4 U0 \4 m3. pip install pdf-craft: c) s4 S0 O  T. D
    4. 把下面的内容写到一个文件里,例如 a.py
    8 i, X" _, R  V1 S8 E& g4 ^4 j1 ?( @, j
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      4 V' s- k$ J5 \) I  Q

    2. 4 m. y$ W- m% D, u6 v
    3. extractor = PDFPageExtractor(& q, l/ V5 `5 g: E+ F
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.+ f: d7 Z4 J$ o3 |& H% {2 e. p. @
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed2 ]/ U6 K9 A# T; D: k6 Y* \
    6. )
      : W7 J" d1 j# R! i3 |
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      * F  y# }* h7 [0 I2 o3 Z- n  m
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      7 Y- B( w0 c2 x) i
    9.     md.write(block)
    复制代码

    8 f# Q/ ~2 h- K1 f8 c! |& w$ P5 t7 O6 F: Y
    要修改的内容:
    5 Z0 C. B/ X% R, E4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    # ~3 L% V9 K% [4.2 markdown_path:输出的 markdown 路径文件名
    # W) Z- n; c/ U  A9 _$ f4.3 /path/to/pdf/file: 输入的源PDF路径文件名; M4 k: P' B& y: O" Y
    % V, F" i4 F. n) b% z
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 4 {  @/ r) N) Y/ l
      b. P1 [# G: d( m) Z! m6 ^
    目前为止PDF转纯文字的最佳办法。
    3 K  ^- j" w' N$ ^7 Y% j# N先写个小程序,把PDF按章节切成小的PDF。
    + v1 d6 V9 n# u) h# Z- G: Q* s然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    / h/ r$ K# }. R/ W效果非常好。
    $ O  G7 t7 C, j) L' Z, [* T# D7 }
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    9 j* G) L' B* [2 k" z0 F9 x, H  ^
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。/ i: O# [6 H( i: C& N. N
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。3 U/ R: `/ w; H5 z
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。* {( M! |8 K  _5 G
    / w* y2 @2 v5 U' _1 e- b; ^
    API到目前为止,差强人意,不如网页版本修得干净。2 w) [2 _: E; ~$ }* ?/ k; Q. n3 d
    $ k$ g' N' Z+ B' Q% l. B
    deepseek可以同时开四个。
    , Y7 S3 U; s4 m  p& T* d

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 % t' J4 t( v1 w$ H: _! ]! M

    9 }8 [* ^" g5 K6 h. j让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    * j: ^; j% P" q3 R5 J" B: N8 n) T9 X5 Z; R让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    8 l+ Z6 I- `) t7 {
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    : l# N9 `& {  R' g$ m0 H7 ~/ O/ j细说一下,听上去很不错,多谢。
    6 R5 {, D; q# [% i* O) i  a
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    " G0 m+ W- F" c, w8 c
    # m* X; ?9 y! }已经搞定.9 q- D0 ^4 i9 Z" I0 I  j
    9 u' `: v1 n: A3 {, `4 o. t
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。' C- x9 d$ j4 Q" F, e

    % S" d7 s: }; G1 l1 C% s2 a1, python + pypdf 按章节拆分小的PDF
    6 o! s9 f2 t5 Z5 f' r8 o2 a/ ~5 }" Q. p3 F( Z) `, H! `
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile2 V$ c& _7 q* z# [" X

    . x% E/ g0 ]$ R1 Z, |2 K: O得到text file- I5 m/ C' H( M! H! C/ S2 F$ N& ^

      y# f1 X0 K1 ^2 J! @3, python 读取整个outputfile,丢给deepseek 矫正。
    * C* s! N/ \/ l8 J1 G; s. H, e& F) G+ I4 l6 @  U  r
    模型是 deepseek-chat
    ( j& l- }% Y: ]9 F7 L
    - F3 j- t. N2 g0 C% Z8 W0 N/ zmax_tokens 最大是 8192,别的不用改。6 ^9 U" C6 ]0 ^% e2 a

    & z$ X: |' U' f) h: S参考:
    . D* K1 v+ c6 X1 d2 Ghttps://api-docs.deepseek.com/api/create-chat-completion
    . ~1 H! g6 e& j/ @4 A% ~
    7 X% g/ p/ v6 N6 e4,费用:
    ' U) B2 d4 k0 P+ T$ \
    ; Y1 ~. _( ~' k实测:! l; ?6 H& k- c

    , }* d  r) d4 i! h4 x7 {" E$ e296K 字母,用了 9 美分。
    % N& u9 w4 v' \! \7 G' _/ Q3 ?7 y# P' e8 }  L! \' S! K
    英文字母 到 token 用量大约 1/3
    # k8 o" p3 t  W1 A
    5 I) }$ b5 g% J* o, B( I3 L6 ptokens: total, 11782 completion,  3729 prompt,  8053 | s:  328995 j" d: m8 }; U6 n7 E6 S# y
    , j: D- |' Q$ I6 b! X: G
    32899 个字母花费 11782 tokens,包含输入输出的 tokens5 G: Z7 D1 o* p6 C1 D
    . W9 b3 `5 B" }/ P
    价钱,非常非常便宜了。% M7 G- I& d& a( |

    - w! `9 p) D  J参考如下可以计算,懒得算了。1 v# ]* q- _4 j" q3 Q; K& u5 j6 {# s

      W. j5 \( Z& i& I2 H9 r2 F0 X( Vhttps://api-docs.deepseek.com/quick_start/pricing6 u" O/ |" o9 e' V. x

      e$ V* a+ K2 e1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    - I. l8 V# |" J; s# T- d. _1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ! v- Z6 }2 J7 C0 T% u% s3 I9 c, ~1M TOKENS OUTPUT(5)                                              $1.10                $2.19" e% x2 X! t) x8 n

    2 @! n: \% c8 o0 C6 l5, Balance6 N# O( J! C4 S# S# b. [4 P
    ( h0 Z  S( L! B4 A
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    5 N) W7 R* Q# e% O$ X& c+ U参考:0 ?9 J! B$ \2 l( B" N! X5 F% h2 r
    https://api-docs.deepseek.com/api/get-user-balance
    - c2 r7 w' y1 m: D- T* \
    % y: m  a, ?& w+ }0 b5 P, B, J6, Models
    : C2 l- S; r, R1 }8 L0 b6 Y  e- s  M+ q4 k/ L; [
    目前就两个1 w0 ?% F2 D- j8 c
    # deepseek-chat
    $ L, \, J# ^  p& `2 K  ?3 }# deepseek-reasoner
    - C# Y0 \# ?: D/ U" Z9 }( |
    " H- J5 J  C5 L+ L& s3 m- c参考:# a' J2 Q- i$ z. ~  h
    https://api-docs.deepseek.com/api/list-models: T3 I. i( f( ?" ?! v
    ( j& j" [) `& Q' P/ D, B

    + c5 r6 M. \- ]7 d. ?1 Z* u7, 问题* G$ H7 h5 i$ u% ^/ c( a
    ) g7 A, D8 z6 I  P/ p4 y
    deepseek 会将前后两段合成一段。3 b9 V6 X* g+ }6 @: d
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    * r; a: }" t3 R9 O
    . J  a$ I) q# f: y8 V8, 钱说了算。
      D* Z8 v4 a0 x! f5 f
    ( z$ u$ G( S) }! M' V8 P" adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 S! c2 m) N+ [9 F5 Y
    但是API就不会出现这种情况,毕竟我们给钱了。- \1 m& B% U! A4 X* g5 U% z) h) T
    chatgpt也是这样的。
    0 c6 F+ x+ y% r
    ; w3 N- J% ?7 a! |# @& t. `% b7 H: ]+ ?$ @" L

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-13 14:46 , Processed in 0.050339 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表