设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2859|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
  R" m/ X4 \* p4 h8 [' M: _1 B  S* T) }' v  d
把PDF上传,然后让他抓取文字,并修改可能的错误。
0 P( q. s0 O0 P" W1 e) o. s* n2 O- p然后deepseek完美的完成了任务。
" Q0 T7 z/ z, X  B/ ]2 e% N段落清楚,列清楚,页眉页脚全部去掉。
$ @0 Q! u5 h/ A: _" e/ |- D! A3 e我要疯掉了!
- q! Z, ]7 k+ C# N1 s) ]赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
% D; V* w9 C, G: k  p====" i6 G) Q' K* P6 B' o
中文也很完美。
% T2 ~% O4 Q, Y/ [. g1 `/ L% D经验值,每次十页比较稳定。# q& X9 j1 Z# M- a) H* n
现在我这里API还不能用,等恢复了,全自动了。
2 w" @9 B7 K4 y7 P0 d" V====' s7 x$ _% ^( q+ V* W# Q/ R
第二次疯掉了!
7 y+ j5 s. a$ O$ `- p) ]7 M2 {' Z我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。7 I6 L8 U, m. R
====
: {3 V  R0 m: L8 X现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
" W; w: S1 R4 h* s3 o1 L但是任务多了后,每次翻译的页面数是减少的。" }) n, Q. l) P$ ?
好吧,我五体投地,继续探索。% Y" L& g3 ^0 R9 [( _% n, h, g
====
  r3 o+ N! P# A& ]# ]为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。  O2 _( a% l) L, L! a% t" Y0 d
====
7 j  E) f5 j) w; p* M/ X好吧,有些东西是不给翻译的,哈哈。
1 x; r+ I- h/ v! o2 a* w  s! A
1 X+ c/ E- w* [# v) K# ]1 F: ISorry, that's beyond my current scope. Let’s talk about something else.
  l; _- `, }* u/ n( {: h====
9 q$ n7 S/ e3 M# O4 H5 @2 n0 n' Q然后我的英文命令也让deepseek 帮我修改,呵呵。
, H# l# K3 q8 C3 ]: z0 r$ u====
/ l8 V3 {9 i$ X5 d- l日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
% C- r/ J+ ?2 o) s6 H0 V0 I$ I====
4 @. D. [. ~8 O( t, J时间段的话,北京时间的下午和晚上用比较好。
$ l7 {& m" x) S% z) y+ V2 E后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
8 ~# ]& Q& F7 f; q, e* o0 _====
( P" y* H/ V/ p4 Q+ t用千问吧,非常稳定,非常强大。/ c  |) o6 N2 E2 N4 z1 r4 b$ w+ {
https://chat.qwenlm.ai/
+ s& d0 I7 w4 }4 ?. F) `( [. N====) m/ V5 M/ {- ?, J  i( k
Deepseek,API 看上去可用了,但是不给充钱。$ L: G$ \, ?3 u- {

; _' Q" `4 z6 S8 y: b$ W- J7 h& }
! h, T0 H3 m; ~) ?  {3 z7 H! }5 Z" s2 p8 m( F+ o

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3746 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53  R7 f( K# z" X8 Q+ d, Y
    这功能很赞呀

    7 D* d1 F# r7 E" i; h  o; O简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:134 m' P/ {2 t5 J' n: Q- ^1 z9 C& ^
    有没有上传整本书试试
      X3 ~3 s2 N& }: q
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3746 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑   L7 U. E5 N5 l
    : E% k3 j: `& k( ^8 ~; \" Y
    以后让deepseek 读出土的竹简
    0 O9 s% u* ^' ^/ z2 S) ^0 Z% T# P5 B' y
    还有把古文翻译成现代白话8 z3 W& j9 G  A. i- y( X1 c; N' @
      Z$ R& x2 N) R/ u7 A
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    6 小时前
  • 签到天数: 2907 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?& p, \! V% O8 ?; Q/ w
    ! ]0 S/ ~4 k  a# d' |
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    . R% }( L* w; ~# O. o请教是如何实现的?
    4 O6 {2 C6 ?9 _, d
    * L# o) j5 j& ?* A我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    7 g/ L$ v0 Z% W  P

    + w8 b+ q4 O* U2 R* m2 T0 \6 O我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。/ \: M' r. v9 H, `! F% m# L6 L
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    6 T, q( u& X: |; j8 q, J$ b5 K4 I美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ; ]; e+ c1 O+ d5 z# A, E

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, q. N4 T" I+ k5 `2 ?
    请教是如何实现的?
    9 Q2 p, v) R9 K5 Z& A1 C$ N& t# l9 l' B8 T* P8 z( n' D1 t
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    % ?. w" V! ?4 k) I1 q# \
    https://chat.qwenlm.ai/" ^3 h7 q1 c; o4 p2 }0 w6 a: v' N
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    5 U9 I$ a& C% U6 W, W很稳定,质量不错,好像最多一次处理15页。
    & s- q8 z0 u6 q' [/ J7 R3 S2 A  k我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3019 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。3 P2 ]9 g8 {5 X* o
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    6 K+ W. U  D3 j- u5 O这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    & u8 ?' R& n" \' d! U5 e
    " G! w2 |* j5 X- s6 Z+ a" ^https://github.com/oomol-lab/pdf-craft6 t8 [) m% k2 p3 x
    1 X* j( F) u3 A; \5 X6 a
    1. 这个工具要求装 python3.10
    % [; Y6 i* q- H' n$ s" ]2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    # j5 p* m& S) I- T3. pip install pdf-craft2 C: ?& p& p* t8 @2 T0 Z- X5 D' f; A7 |
    4. 把下面的内容写到一个文件里,例如 a.py
    - R  R- C% G5 v% L4 ^# S, w  T9 C0 h% M
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      6 \6 R$ l" T" D5 ^% f, i

    2. ! U9 k+ u  O; v7 S$ V9 e8 ]
    3. extractor = PDFPageExtractor(
        V  _" w4 x  c( e+ Y  P7 }1 p
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.( ^5 ]0 ~  ]4 q: I3 O7 [5 I
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed9 a! X+ g3 g$ X& f
    6. )
        q7 D3 b0 U0 ?6 `  }9 D% S& A
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:* V, x) H& P5 c* e6 S+ d: e2 z: z/ ?
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      2 h" H1 D" q& x8 K0 D4 A9 I
    9.     md.write(block)
    复制代码

    8 i  p) G: ?) l) W) q( h# v/ p+ q4 d3 e3 B
    要修改的内容:7 Y4 e+ f, e, G7 G, r; ^- |
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型  r0 i0 j% M: k" @- \
    4.2 markdown_path:输出的 markdown 路径文件名/ e- A  Y# c- {
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名0 d& [3 r$ D, g" e, g
    0 e. n+ i& n$ l/ W
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    8 h. E% D, @8 k4 T
    5 \" G. L! H/ P7 ]. ?# Z. @) J0 w目前为止PDF转纯文字的最佳办法。
    / I* d: g9 x# a0 T/ l先写个小程序,把PDF按章节切成小的PDF。
    - y5 b% B/ C1 j2 s; u然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    0 }4 C' f2 k5 Y! X( f8 p8 n效果非常好。
    1 D* e' s' S# g" x8 L! b0 o# ~/ G, ~: w2 y3 F7 k# N
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    % H1 ^/ x( ^1 A( |" L* i3 x! Q6 g/ r$ b
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。7 l9 Z/ c3 N! ?7 T& [% N
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。+ J0 |, s- I* l5 d3 i8 S
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ) ]0 e% |& v. {* u7 ]; p( V4 r* e/ K9 h/ k
    API到目前为止,差强人意,不如网页版本修得干净。
    # J! b8 [( [, {: f: V8 Z; H1 L0 b
    deepseek可以同时开四个。& P/ {: o: t  Z$ ~* W, g

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    & L8 L1 h. z' S
    0 y% c* ~: m8 L0 f( q3 k让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:260 F0 E+ P, D" ~3 e9 `
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    & }1 z# e4 h6 |3 b: _
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:331 P8 }% P2 l  f8 w- ^1 b; _
    细说一下,听上去很不错,多谢。
    8 {/ V: e. ?9 V
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 . g4 t  W8 R( u; I/ O" H) T
    ; g$ ~# A! f4 w
    已经搞定.
    ( u- i) ~  w' r/ y/ U  U8 V$ D5 l$ K
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    6 S- Y3 q1 ~- U5 |+ m
    - M. h# @* T9 [8 |: v. ^5 d6 H9 Y1, python + pypdf 按章节拆分小的PDF
    9 Q4 H7 I: S3 i2 p+ w3 x1 r1 {2 q8 |+ ?; x% L2 s- ~
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ! E, ?- S( h. r5 y/ t$ ~
    5 \4 a. T0 a3 o8 j6 \% z' Z3 x+ G得到text file
    / A+ e6 e. r3 B) y! \1 X- l- ~1 \7 p* G6 t7 P# n! q" o, Q
    3, python 读取整个outputfile,丢给deepseek 矫正。& F- ~& b; I! o  q  _/ Q" {9 q- I
    - o0 `3 s; Q+ O6 R# ^
    模型是 deepseek-chat
    * _" N  D2 Q3 b8 J) t( u6 h
    7 b" V( u  W  }! pmax_tokens 最大是 8192,别的不用改。! o9 z6 i2 ]$ }5 B& q5 C9 y$ V

    1 q5 o/ y. y* j6 A. D; q$ Y. k/ N参考:
    / r9 f* R5 Z$ x! B5 r) |' I- f) o, dhttps://api-docs.deepseek.com/api/create-chat-completion
    1 U* n2 @2 }4 k; X7 |7 X% C& j% [' F0 p
    4,费用:& ]7 o/ \5 m% v% i

    & x! q5 [# c" J/ g& Q% t8 ?% f实测:& g" j# H, h, q; ?9 F* J! s
      ~1 [5 @) |5 }5 b* ~( {
    296K 字母,用了 9 美分。
    / a6 e) q$ f: k: }# T
    5 ^  V7 p; b4 I: {英文字母 到 token 用量大约 1/3
    0 ^; W9 L2 V6 _* D% w! a
    : S) v+ V) Y% A' R. vtokens: total, 11782 completion,  3729 prompt,  8053 | s:  328996 d' ]: A; O) v& D6 m6 H' z  i
    1 s2 t! ~( J  G: Z
    32899 个字母花费 11782 tokens,包含输入输出的 tokens+ e* y- o5 y4 {0 i5 X
    3 J6 p! M7 Z) J; J" t. W3 O
    价钱,非常非常便宜了。
    5 L4 ^) }  o6 d( o% l1 n2 {7 ?7 O3 N/ C; E; T7 e
    参考如下可以计算,懒得算了。
    : `9 k* g- D+ }5 _7 T" @
    " M4 V6 j5 Q. p# }* h, U, ?; zhttps://api-docs.deepseek.com/quick_start/pricing
    $ \5 R3 Z, D& k4 w6 s, @* C) Y% e3 c( V1 A
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    . H" G5 w1 S5 I& }+ t. @2 h1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55, ?8 P6 Q. n- {3 R
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19/ T# W: `  y! T+ b  u  R1 L
      s  B: c; s+ h
    5, Balance
    ) {, V9 M+ E/ _  \; `/ h9 E* A: I$ k! ^% ?1 N2 h5 q
    可以在程序里调用,知道每次运行结束后,balance还剩多少。# ]$ B3 v) U/ G6 z, |" m
    参考:
    7 R. u8 H2 @) R: ahttps://api-docs.deepseek.com/api/get-user-balance
    & [! Q0 A* [- P) U; G1 c5 d, X) Q* p+ h$ z  ~
    6, Models8 b! W7 s& z4 u# j
    $ f- `2 x2 \% L2 |  D1 h+ K
    目前就两个
    0 d1 w6 R2 m# z# deepseek-chat
    / `- J. e8 [4 W* d; @3 y# deepseek-reasoner
    , k: N7 z8 n4 H; g- F7 M2 ]3 Y' H% L! {/ g9 i
    参考:# Q* Q- O7 r8 d# Q, v" @5 c
    https://api-docs.deepseek.com/api/list-models
    4 m* K  w; V7 T9 w! E" \3 t; J+ i& B9 J) W
    0 ~. m. C9 t6 W9 H! T% v+ x
    7, 问题
    * L" w" ^: S2 w2 s" ]* B
    / x7 t7 `1 a+ `. ~0 Zdeepseek 会将前后两段合成一段。( D, w- p' |: |1 ?; Z8 I
    特别是那种大量的对话的段落,deepseek会给你合成一大段。& |; @3 T' I' \4 i' \% q& k

    1 B* z, r* e6 e* E" x$ ]1 T. `8, 钱说了算。' @- D, k  ^) I

    ! j( z1 R) c) g/ ^+ F7 Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ( B/ }/ X5 j* g" b8 |7 u但是API就不会出现这种情况,毕竟我们给钱了。
    4 K2 p, f/ H) {1 P0 `! A+ y. F% p5 mchatgpt也是这样的。! {4 L) w1 Z. d5 |: L/ r1 r3 W
    " V2 |/ W; T- t  c
    6 n# N, w( ^. Y& Y% ?8 k

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-6 06:55 , Processed in 0.080112 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表