设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2137|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
) [% a3 E7 {1 b/ p0 Y* J* e; U
5 U( ]& \7 b! e" T/ k把PDF上传,然后让他抓取文字,并修改可能的错误。8 }% H6 @" I2 I0 S* E- }
然后deepseek完美的完成了任务。
- v% |1 ]- z6 Z0 l4 V段落清楚,列清楚,页眉页脚全部去掉。8 ^  H7 u3 l6 z0 s! d+ g% g
我要疯掉了!
$ P) J" b7 }% [! w$ X! `5 p赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!2 I3 X" J) h/ Q. T
====; ~- `" n8 o* C
中文也很完美。
: d9 |4 ?% |9 N3 Y  y经验值,每次十页比较稳定。
, y. b! ]: z, L' B现在我这里API还不能用,等恢复了,全自动了。
3 ?9 w5 w; w/ Q3 R. V& Z4 h====
+ Z* d/ ^( I0 }$ `  @第二次疯掉了!
- [+ y; t' J/ u- s/ X我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
8 I( U: X2 M( i; |# r- h====+ d1 i! V9 Q# p5 Q$ O, j; ^
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。/ P, p) P  l3 x6 t
但是任务多了后,每次翻译的页面数是减少的。
( Y$ s! M0 \: c! M# U好吧,我五体投地,继续探索。
/ T5 l5 i. }* q0 D9 ]1 Y& \====7 ~8 Q4 d/ N3 _: Q
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
4 `3 {8 Y1 d; ]* Y; V# e* F====
& i( ]7 z% ~/ _9 B* z$ \3 \& Q好吧,有些东西是不给翻译的,哈哈。% p2 K; F0 D, p
% }9 ?% j9 K9 k5 w4 O1 a& N" X1 K
Sorry, that's beyond my current scope. Let’s talk about something else.4 O8 X/ h3 t( Z( o* X: L0 m* B
====
) n+ o3 `8 Z! Q) g. q然后我的英文命令也让deepseek 帮我修改,呵呵。
  C- K% @- p. K9 T4 Q2 i====0 n+ m8 a0 l; ]0 b# ^
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。" K4 k8 ?9 x: E; v$ d; X' ]; {
====
8 b1 O: e( F0 W. R/ E时间段的话,北京时间的下午和晚上用比较好。* n+ G. G2 k) N3 b
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。  @8 e2 M& l" j
====
+ P! B0 l; f5 x1 O用千问吧,非常稳定,非常强大。2 J$ y! F' J' v# ~
https://chat.qwenlm.ai/
+ x$ G& `' U, C& N2 t+ B0 o& I4 w2 H====1 o8 q$ J! S8 G4 _' T
Deepseek,API 看上去可用了,但是不给充钱。) A2 l+ t/ C* Q1 P5 W+ H

6 }9 J: j9 |% u1 S3 _0 n
3 E; h/ J( x4 \- [; G
% F- [- l* _: _; c3 `

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3583 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    / O9 W/ T  Q% u8 y  b; M3 z: C7 w这功能很赞呀
    4 N7 L# d6 L  `9 B
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    - ^# c) y* H( z) j* Z2 ]6 K1 ?9 G7 e有没有上传整本书试试
    8 P. ?6 h4 }. n
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3583 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    $ w9 E/ a7 V$ q! g) y2 }/ I4 ]$ H* |( q1 U0 B, L, ~1 z! }( U
    以后让deepseek 读出土的竹简
    ! I% {' ~2 d$ Z/ T8 v1 Y4 e/ @$ y4 y
    + y2 R2 B* }  y( x8 {' s还有把古文翻译成现代白话* c& n+ A0 g* V: ^- @8 Q& q) j/ i

    $ I! V) O3 N: p* D) {9 {以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    3 小时前
  • 签到天数: 2751 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    & k- c% W! Q3 l; {" h3 {, o
    ( F. k7 N' M! |: T9 {! S我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23: N, `/ S/ R, T, G8 R
    请教是如何实现的?
    ) k- W" T( f6 X, U; m, R$ O
    9 H( }" m+ N7 G" w3 e7 V我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ' \4 u! ~0 d# c/ i- E" s0 E
    * K' L" x3 F# e; E0 |7 Q/ ]
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ; b( S3 s, Z- t, J! Q文字之类的没问题。估计deepseek现在暂时只保证主要功能。: R9 P# Y6 y, O+ C) g
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。4 x9 x" k5 I7 _+ l4 |% D

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    * a5 ]. N' g5 t+ ?) v) ?6 H5 }7 D请教是如何实现的?
    ( k6 U9 X0 g& Z' `# [: o
    ; ~9 {6 O; k8 p4 `' D, [) j我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

      B0 c! n9 [  H; N4 k4 phttps://chat.qwenlm.ai/9 h* `0 T! l: y  Z% \; o3 L' p
    试一下千问,估计美国人没有攻击他,所以资源敞开用。0 X+ C3 c* l. b/ v
    很稳定,质量不错,好像最多一次处理15页。
    3 c0 M7 o) f5 |* b9 E" Q9 v我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 2864 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。: i( w1 v- H" w0 e3 K& {4 K: f
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。( ?) F* m# g; a
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    # c9 y" V" l, S6 C
    & L0 d4 L# g  ^! Jhttps://github.com/oomol-lab/pdf-craft: r+ n& ~9 R% O" w) x
    " M9 ^, H9 g+ I( v+ k- B: @' r9 T
    1. 这个工具要求装 python3.10' e  l' Y/ s/ h5 Z0 g# H* X
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    5 z7 W: f; Y. S( P3. pip install pdf-craft
    " v# _% G+ s  P4. 把下面的内容写到一个文件里,例如 a.py4 s" [2 H- K# X+ |: p  c$ }& y

    8 Y; P8 c6 h- R& k
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      - I* ?3 T8 g( B
    2. * }/ l2 y; @: G1 e- e/ O* L
    3. extractor = PDFPageExtractor(
      5 v5 N5 U* `0 D; g: C
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      8 b% E+ C! Q3 f, S- y. L
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed' e0 J" s6 D, W7 A
    6. )  I$ [% E( A3 c, ~* |' s( N
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      + W2 T  m6 T: \
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      * Q  o3 M) X% ^% s1 ]; u' I: d7 U
    9.     md.write(block)
    复制代码

    3 ~7 E+ `- W4 R% E9 S
    7 P: _+ t( R6 Y8 R6 V要修改的内容:
    % F- e! N! P2 D# i4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型+ C/ t% m5 D8 I# l
    4.2 markdown_path:输出的 markdown 路径文件名9 V& B) @3 _, B: d$ v
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名: ~- G. s3 p# @# w2 ]+ y
    & |, A6 Y( J8 {5 s- c) u
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    $ J( S' a0 M( n1 }' S' k
    " r7 _6 O9 H* p目前为止PDF转纯文字的最佳办法。+ f" y2 Y0 T: _; x! A6 y
    先写个小程序,把PDF按章节切成小的PDF。
    . {* s1 s- ~+ m5 L* ~然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ( z9 h* H. a: \4 C5 c效果非常好。
    * y1 K+ i( g& K: N' N
    8 c& `- Q" H% M1 T$ qdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    & \- ~% K! b$ `1 n! _0 A
    & s$ F3 q4 z) N6 x7 J2 R' b# xdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ; f4 g1 b- G: p( Q5 ^. N8 h而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。' [% D& c8 t7 j# a5 s& U7 c
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。9 |4 a/ q+ Z+ l, i  f, c

    $ k# b: f: b; _: V0 wAPI到目前为止,差强人意,不如网页版本修得干净。  W7 ~' c1 u, X' W0 y( z

    4 c( u; S4 n# r0 Kdeepseek可以同时开四个。
    : @' L7 l5 ?& Y# j* f/ z

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    # D, m" x  ?* y% z6 \! X3 w# m+ O
    7 I, ^9 O3 y4 m: A- `0 q/ e让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    . T7 v" Y$ r( r/ T/ a让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
      v- G$ w& I; _* C3 P7 Q* N
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33& D( [5 T6 }- f3 E. e
    细说一下,听上去很不错,多谢。
    3 L1 I$ Z# ^" j1 l
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ) e' p: n' T% a4 p
    ' {1 O! M& B  s- }  I已经搞定.+ j, O) H. X  P$ I* F3 D' [& C
    1 V/ P5 h; i' F$ D- k$ M
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    + d" r  E; Q; d6 `' O; j& W
    9 x: I# S, n. b9 }; x: U1, python + pypdf 按章节拆分小的PDF
    1 G: ]! T- `- f+ a& p4 x; K0 P4 @8 s2 V* J# i' \4 e+ L
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; v5 k1 [, }+ `5 C# Q3 P

    2 x2 Z  s& [6 x3 B8 `, q: q得到text file
    7 ]5 W  z  K0 n: ]. v' a6 T. ~* l% C3 T
    3, python 读取整个outputfile,丢给deepseek 矫正。3 E8 d' ^! J/ W. b% r
    " `4 I" \  h$ S3 K  Z3 D( q1 O1 r
    模型是 deepseek-chat
    - d1 y+ }5 }' H8 S* q$ Q5 C8 t) H8 `3 B
    max_tokens 最大是 8192,别的不用改。
    ( `5 J& ?% Z7 d2 b7 Q; W; M/ J0 L) S" q( V$ Q8 x
    参考:
    5 N8 I9 W4 m# }- \- c- D' ohttps://api-docs.deepseek.com/api/create-chat-completion
    " z9 G, }4 P: s& N1 d- @
    6 V+ V) C3 t% l: _4,费用:
    8 ^6 L7 v" `( \: S; l0 S" g) \/ b" |+ m/ I8 O
    实测:5 e7 V' k) `- H( Q' S

    9 j$ [8 ]  ]9 f! k296K 字母,用了 9 美分。
    2 I  m/ _) q! l2 M7 F2 [& A
    1 n: Y) ]0 W! t1 d英文字母 到 token 用量大约 1/3
    ' W( m, [. i  T" S
    % Q5 H/ z, c' ?  ~4 ~tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899( i2 H9 ^9 t; p5 [1 Q7 |- F7 {  k$ \
    ! `' ?7 O4 {+ E4 b
    32899 个字母花费 11782 tokens,包含输入输出的 tokens# k1 y+ j2 ]; }7 s
    " t) y8 F9 @2 M- v2 z; @; A
    价钱,非常非常便宜了。
    - D$ g" X3 l: \3 u: q
    0 Y' J" t* |3 ], m6 n, o参考如下可以计算,懒得算了。2 A: l" Q# Z3 ^0 L

    2 i8 q- n' C0 r2 m# yhttps://api-docs.deepseek.com/quick_start/pricing
    ) X' M$ D5 |% T" M" O8 X; k, P& ^, Q2 S4 Q; ^; A2 x3 m
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.146 S' q0 J5 O9 b7 v7 }3 b/ b8 E
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ; |( w% a' b4 \8 P1M TOKENS OUTPUT(5)                                              $1.10                $2.193 M) ?; k- l: P, f% h! S7 |

    / y' e5 t: B, K% O! V7 }. S9 r5, Balance; z. h0 l0 H! @; B) z1 i

    ; p/ Y2 L* r: X% |0 {" i) N! ~可以在程序里调用,知道每次运行结束后,balance还剩多少。
    / Q9 v  c) U5 |参考:
    0 o/ x" Z; b# R2 Y1 G* Rhttps://api-docs.deepseek.com/api/get-user-balance
    3 p( Q1 I4 u( J9 P$ `, x
    9 \  I1 Z- P4 Q9 x3 `6, Models! L+ K; @* y0 Y% s) ^- Z
    + k! F. D4 k; ^
    目前就两个; p# u2 Z9 l! q* B) R# W; G0 M8 [
    # deepseek-chat2 p& _% r" _# j, E1 `( n- _
    # deepseek-reasoner, m, M- t6 m9 L: R8 I  L# _
    8 y9 ~5 G3 l6 m/ a$ ?; A- ?# I
    参考:
    ! C" s2 x0 Q0 u4 w  D! ~0 L# X3 I6 r& Y- xhttps://api-docs.deepseek.com/api/list-models2 M* S  u4 `1 H: Z6 j. K5 {
    1 n7 |5 d; c5 b, i, }
    - ], W0 q) K' a  D! ^5 X
    7, 问题
    5 _) v3 J5 ^) i3 I) p
    / ]" w! q6 c$ C& i! ?! r# v2 ^deepseek 会将前后两段合成一段。
    7 R6 Y4 Q; O  E特别是那种大量的对话的段落,deepseek会给你合成一大段。+ V# I- L9 D, B3 s
    ) D$ r+ _7 q% [
    8, 钱说了算。4 k# Q; s3 M4 t( \6 ~
    6 ?9 n# a* a' f' U6 J: j) T; N
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 o8 J5 P, @3 a# Z" u; x; E0 }
    但是API就不会出现这种情况,毕竟我们给钱了。' Z% F2 g/ R8 u* a3 {8 s
    chatgpt也是这样的。
    ( i* ^4 U! X7 {+ S
    ' F2 {; L9 K) ^8 n7 ?; N6 f  Y. B# }4 j+ L. D+ C/ p4 k  d) `

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-22 09:39 , Processed in 0.064288 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表