设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2229|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
0 K4 N* s& O- N# ~& {
( M2 b- b  U, F( n* |( J把PDF上传,然后让他抓取文字,并修改可能的错误。' l. o- B# N& X. I: Y
然后deepseek完美的完成了任务。
; G* q( F( q. B9 }1 |; ^7 i/ a段落清楚,列清楚,页眉页脚全部去掉。
  {: X2 R; S8 d+ F我要疯掉了!7 }; [5 o5 l. p/ p4 W' Q
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
4 z# u; x  t; x% P; i====
$ j& C  J0 {5 W$ F* s中文也很完美。0 v+ U; v, k! `( g* O) ~& f
经验值,每次十页比较稳定。
4 |- g, o, W* g+ H% d) I现在我这里API还不能用,等恢复了,全自动了。
7 X) L4 S& i  G: f. ?8 [. P====
& b2 }1 Q8 g$ p0 @# C5 x8 q6 Y5 y第二次疯掉了!
% k/ l. r( F8 ~, j! d5 S我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
( q$ s. x8 x/ N& O====
3 q: S  r/ ?- Q% e2 E现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
* H- v% R+ M9 I/ B" P$ j- u但是任务多了后,每次翻译的页面数是减少的。
- b% |: X+ R( Y4 A! T' N6 S好吧,我五体投地,继续探索。" ?5 N3 {; `. L# P0 Y( e# C* D
====
2 I1 x. X5 y1 s7 c, V4 l0 u5 K: o6 ]为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。( a8 e: D# ?  T, f/ U
====9 ?6 D+ Y  A0 ]
好吧,有些东西是不给翻译的,哈哈。" [0 d2 a- u! k5 K. K/ k* {. Q
& @- I" i2 n+ p
Sorry, that's beyond my current scope. Let’s talk about something else.
* R5 s  O; M# L====# b- w. v- K* }( I8 B- L
然后我的英文命令也让deepseek 帮我修改,呵呵。0 R' E* r" k0 U2 u( F3 L  o
====/ [9 R: P; ~4 H. \0 ~# S
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
2 L; t' j' d7 Q/ w( D' e====
+ s$ V4 @/ @& c1 w时间段的话,北京时间的下午和晚上用比较好。$ T5 J6 n2 X0 Q4 Q/ Z( D
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。7 p# V7 c" W! m
====6 x3 e  @" h; i& l( W. P
用千问吧,非常稳定,非常强大。8 j+ ~+ h; J9 w! |- q
https://chat.qwenlm.ai/
: f' x" h( E1 |3 p% a* @8 y====# K' c. Y* j, I) O& R
Deepseek,API 看上去可用了,但是不给充钱。% g" R$ K8 K' x- ^

* Y6 y/ O- _2 }1 l! ^8 I! Z" \: C$ ]  x, Z% e: v1 f5 ]8 M; Y+ C

& w4 S# [4 w, J$ t& _1 f

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3603 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ' k  V# u7 u4 E2 l这功能很赞呀

      X" w4 }3 W' x. A' P% T简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13$ Y% U  p0 g( J* h' {4 Y: Y+ _) b, u4 k
    有没有上传整本书试试

    6 C% i% I% [. {) @目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3603 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 7 U2 m2 s+ D( a9 A- O# T6 o( C
    ! n7 t0 b, Q- I
    以后让deepseek 读出土的竹简' G: G+ @4 \) ~4 Z4 q
    - i( C$ b, z# k' {0 a
    还有把古文翻译成现代白话" i7 b% o% v% R) F! S" `* ]) Y

    * N- H! B9 G5 H/ y6 b9 x! K以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    3 小时前
  • 签到天数: 2766 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    , u. |8 l" a1 V6 h  J8 Y  R% B# B  @! F/ u
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:233 T2 p2 q1 O3 E* D  @- `4 C
    请教是如何实现的?
    ) Z+ h. a3 O8 {8 J) S/ X8 F+ t' _- I2 X' g( }
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    3 m$ \# [' T8 J$ p8 o5 ^0 a

    % l  d& V9 c9 S+ z3 R' S我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    5 N) e0 M/ i; }  M  {文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    3 X1 o. a$ H% V/ u美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。) {' c6 Y" A2 h* O6 Z! `

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23/ G, N7 e2 ^; j/ L
    请教是如何实现的?; C1 g3 G5 I1 T0 U

    , p& K% F! ^* ^2 B/ n  w8 _4 ]2 @我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ) L) U* Z9 a( O! n  r6 r" p
    https://chat.qwenlm.ai/* n6 O% N4 k2 n
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    9 a% x$ t' t6 j很稳定,质量不错,好像最多一次处理15页。
    8 _+ w$ f) W' f/ C我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 2883 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    " S- a7 E% \' }* a+ }  |8 ?% C处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。: P# Z3 V! ^! ?% l. l' g! x
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
      V. u! O! M4 y, s" y
    ' f1 h" V( M, [: T3 `: Shttps://github.com/oomol-lab/pdf-craft
    1 Q* @  k8 T# l1 _4 y6 p+ g: K
    ! ?% S! x# q+ c( M$ {1. 这个工具要求装 python3.10
    6 y8 h  p/ N' O) M  v) t2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    1 i# z8 ^% Z5 \3. pip install pdf-craft0 n# h, K! G/ ]
    4. 把下面的内容写到一个文件里,例如 a.py
    ; h) r% _: B: ]- I$ p* X4 K  }5 a" |$ _* q7 [7 K% O- P0 X7 _
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      - O  D, v5 T- g8 M

    2. 5 L, j' E* w; F. @  ]
    3. extractor = PDFPageExtractor(
        S/ c( }7 y! ?8 r+ b
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      , E/ [+ I* U$ i! m  P
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed8 G* ~) n( b- I5 y! R% I) U
    6. )
      & Q# z; C* ]# z& g
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      9 {# X+ l* o% B' z6 F
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):% e0 ]6 B$ A' \. u' l
    9.     md.write(block)
    复制代码

    ; N6 h1 q+ R1 U; C/ r( ?! P' ]
    9 n0 }# z2 n  B要修改的内容:
    3 C; \5 c" V) Q4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    & L  x( I; Y( O% r& y4 U4.2 markdown_path:输出的 markdown 路径文件名
    6 f5 M+ |4 X# j0 t* l; a" K4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    3 y# r, S% ^* [6 a
    * {3 h2 a. r* q! t5 j' q5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    . s+ A* q6 T" n, t9 Y7 |  [7 F
    ! R  k& I$ E5 x2 P4 T% y2 |目前为止PDF转纯文字的最佳办法。$ J2 R7 I  n$ L2 o3 ?5 W
    先写个小程序,把PDF按章节切成小的PDF。! ~2 C# B) U' o* B1 m
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    - R" i: O/ E# _1 i3 A- h效果非常好。. |' s$ L2 y% x- V
    9 J% u# L% k6 h7 b8 F4 Z% j; t" U
    deepseek,qwen,chatgpt 三个,deepseek是最好的。. Y1 q3 X( |1 Z9 {' H

    0 r9 b' ~! ~' D7 c2 }1 T; Qdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。  ^: b5 g  H1 G# ~5 p
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    : @; J+ v- M5 S9 `" m% [4 N+ P. @我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。7 _- d. p4 F& ^7 N$ o+ _

    8 b3 P% o/ p3 q6 Z" n. FAPI到目前为止,差强人意,不如网页版本修得干净。
    / q, E6 p+ E4 K# |4 O4 _9 F! {+ B0 ]/ \+ ^; D, G
    deepseek可以同时开四个。/ n; o! M# C" h4 o! J( B; \

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    # |- j2 k3 T. M* N) K
    7 n6 ~2 r& G  y, ~( ^4 J. X) R- h让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    + g2 D* V2 c* t3 b. T6 f1 u让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ' Y0 g) z+ [, f+ z7 i细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33- |5 a, d( D1 [. I8 H& U
    细说一下,听上去很不错,多谢。
    * m9 u) k" A8 I6 h' x/ N& t9 `
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    % p6 r" i5 f% b8 D/ u
    ; l! P9 V! X/ {已经搞定." s6 g, O4 y' B- R4 J! C0 `+ I

    * E3 |: C2 u7 L$ H( a1 V+ L( f# J首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。+ N) `0 u) t% ?+ S6 {1 q9 x9 L

    ( L# R) L6 V$ a1, python + pypdf 按章节拆分小的PDF1 d, b* P1 h" v  n/ }
    / d7 k+ W, y9 l- G
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    : s( H1 I! s6 B7 j4 s$ E0 T+ T( k' V! r
    得到text file3 S, I5 H& \8 L/ N1 l

    ! P5 Z& k9 U! M2 d- U3, python 读取整个outputfile,丢给deepseek 矫正。6 e$ H6 G7 n1 _- |5 j8 M; u

    0 b( I* h; S0 n7 R% S0 j" E* j# r$ I模型是 deepseek-chat' X0 t( X: S" p. S
    , {  Q/ y' B3 p8 ^% D3 d
    max_tokens 最大是 8192,别的不用改。, t. S5 G4 x- Y6 s

    4 h4 {% D5 K2 ?/ w3 p参考:
    # `1 d5 l! s/ O/ s5 V7 A: Ohttps://api-docs.deepseek.com/api/create-chat-completion3 R, f/ A( R( m/ |! C5 ?

    % V5 S2 D0 Z6 e( _4,费用:4 K2 d1 s  Q# s1 p  ]% |9 w

    + e4 z1 L' m7 B$ P# b3 z实测:
    0 @' i, j4 l8 p. ?  k: l. d, x6 D- B2 _# i
    296K 字母,用了 9 美分。
    ' v& A$ R6 O6 e8 e2 F
    2 a, e# Y# u/ h/ E8 p- b英文字母 到 token 用量大约 1/3
    3 d2 I4 K& ?& V" j% c) Y8 R
    5 b7 t$ d* ?& f3 Ntokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    . O( A' Z4 d/ G, M4 Y. ^9 q; s. g$ W  D6 d
    32899 个字母花费 11782 tokens,包含输入输出的 tokens& X3 P# \  D3 E; T; d& J

    # x6 m8 c/ }$ n# C价钱,非常非常便宜了。2 r4 [* i3 G. V7 L' x# n; m2 d! {: [
    5 \0 A( Q9 D, w! D/ C9 W: C( _
    参考如下可以计算,懒得算了。
    , I7 ~+ k! [+ H, B
    ! e/ R# c6 n4 e- X: yhttps://api-docs.deepseek.com/quick_start/pricing8 h1 m' a1 s. d$ s$ E

    2 B. i, x/ h8 K1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    9 \7 A. s, f1 i' `1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    7 p9 t8 w  x$ J0 G1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ; f" \3 o4 k4 U4 n$ h8 d
    * i) D3 P6 z  I* o; y" f+ {5, Balance" {2 z3 x9 Q$ {/ d3 r
    1 M% B1 V2 m0 v/ X4 H& J4 M8 W0 R
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    0 E. ?0 H4 D3 q( P* t1 r参考:
    , s  ], [% p4 n$ A/ ]https://api-docs.deepseek.com/api/get-user-balance! \  a6 @# Q* q1 Z* r
    3 o5 I5 j+ k: J  D) T0 u3 `
    6, Models. ?( b, K3 a% @& [' a
    $ {2 L$ j' b; w
    目前就两个) v# q6 w" |$ I) \! S& Q
    # deepseek-chat0 X- y/ d: p7 G. @3 S: c
    # deepseek-reasoner* r4 u0 J# o# k0 L+ `

    ( E) K' \2 h& R* g' c# T; |参考:, g# L% p  U& X: g! c3 D
    https://api-docs.deepseek.com/api/list-models9 G- o/ o. ~+ v+ h3 B& {  n2 o2 G+ v

    9 \: J  V8 I! ?. ~0 B9 M) Z5 k# r- i. L, k7 r' a
    7, 问题. c5 \0 @6 b+ ]) m$ x  d5 [
    : S7 T+ @1 U/ M/ b
    deepseek 会将前后两段合成一段。3 H  ^: w0 T: B  L3 z4 o
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    : o0 b# x7 h7 E$ `  b( j; ~0 g6 d0 z, I0 s
    8, 钱说了算。
    , E* x* X' {. p0 |' f9 w2 o: c  h+ T' s
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ! W" E, i( Q: s( E2 X& _4 W3 v; I) b但是API就不会出现这种情况,毕竟我们给钱了。2 j+ [" J( D& r0 G8 O& y! t
    chatgpt也是这样的。% B; }- y) g0 g# S! S' C
    2 _8 d3 ^/ w( G7 o" O* ^* s

    8 \, d) S% {( I! \

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-12 03:38 , Processed in 0.043255 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表