设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2057|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
1 x8 w: s& @- {% O& M9 ]6 ^. N' L+ [4 l$ e' i* L% @! E# ?
把PDF上传,然后让他抓取文字,并修改可能的错误。+ m& [5 o+ b8 r9 I6 ?. g3 y
然后deepseek完美的完成了任务。6 f4 R* A, w/ h7 f5 n
段落清楚,列清楚,页眉页脚全部去掉。$ q" a7 b4 j! U; w1 I9 m
我要疯掉了!
4 W* Z# n4 b1 R. y" S赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
! @# ~3 X! L: M% S====% O3 E+ s! U; B
中文也很完美。# ?9 w. B- Q& c* e  t8 t8 {
经验值,每次十页比较稳定。
0 m. B' E: P9 c$ \/ h现在我这里API还不能用,等恢复了,全自动了。* N: d0 g; i/ n) s
====
% ?6 Q3 X' e& ]第二次疯掉了!
+ N; c* u6 `5 u我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
7 Z+ ?, r2 K! ?/ \$ D" Q====8 V9 `- `# F. g1 {. Z5 a$ n$ R
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
# z; F' `8 \$ I+ y但是任务多了后,每次翻译的页面数是减少的。
4 J6 U* b* G* K; |好吧,我五体投地,继续探索。
8 M* w% o: }, ]: c7 q) y====
- t8 [& r  F) j3 A为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
1 [! S, Q2 c0 p* D0 l8 @====: E# c( Y. k  s
好吧,有些东西是不给翻译的,哈哈。
1 f/ e7 I2 F% X. m- m+ \: ]* V' o- l+ Z' {
Sorry, that's beyond my current scope. Let’s talk about something else.4 M- D$ Y) ]) n
====
5 e3 r* y( c$ c/ f9 |, P然后我的英文命令也让deepseek 帮我修改,呵呵。
+ c' }- q, n% g7 {3 _====
" q! V: @! p" j& U3 V# ]  m日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。# v8 [! z" \6 [( y; A" @9 l! E
====8 I! t0 X7 p/ E* E7 m8 ~& D! h: P- V
时间段的话,北京时间的下午和晚上用比较好。( ]) d) l3 f, s; t! N/ w, L! e
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
) @. _, U9 ?2 b====
" ^' e3 p: g1 E2 E( n. {用千问吧,非常稳定,非常强大。
- k. {& `4 M  V1 B) m; d, D8 ?https://chat.qwenlm.ai/
% S: N- q: D& ?% ]1 y% h* b9 |====
/ E# B# C$ j5 VDeepseek,API 看上去可用了,但是不给充钱。
  P, E* y1 g  O( f; u! q. t) b7 t+ H& y( \* Y
7 ]' W- l7 X9 `) \$ f' [$ I. W

0 t: ]1 j9 M$ S2 X5 u( a& Z

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    2025-9-20 00:03
  • 签到天数: 3579 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53  s5 U2 t( \/ \) Q" z6 I, b
    这功能很赞呀

    2 Q: P" p1 J: f1 V1 j' _1 c' ^简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    ! D/ x  ~. ?+ _有没有上传整本书试试
    9 Z9 |. E$ ]1 [. T8 U
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-9-20 00:03
  • 签到天数: 3579 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 1 {" H+ {5 _2 j

    6 P$ ?3 f; P7 |以后让deepseek 读出土的竹简. c% J' |* h* J. e9 a6 T% O

    ' q8 C1 W) O% O# y" ~) |还有把古文翻译成现代白话
    8 v/ N1 T. d2 G6 S4 ?: M" t! }& ~" \" o8 k
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    前天 04:05
  • 签到天数: 2735 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?# z6 K! H& @4 |' O
    4 i5 ^+ z" h7 @  j
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    9 |" {+ P5 y7 h9 R' v) D- G% R请教是如何实现的?
    % S0 k1 \: `- j+ ]1 A9 O+ B( H; g8 k
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    3 |0 U7 [4 d+ i3 ]

    0 u3 F3 p2 e: U( C; O1 E我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    . u; P, F7 u& d2 W0 D: Q6 J4 T3 v" m文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    # c' R# G6 I7 ?' s, K2 l9 `美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    : m) R, Y! [$ Q

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23* c7 }6 c) h2 w8 U5 l* }8 C
    请教是如何实现的?
    6 B  s# l2 \2 f) B8 F0 K& B: f  O7 U- p
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    7 u& I, x8 b" t" e+ `) jhttps://chat.qwenlm.ai/
    - S5 f; z3 R, }: V" [试一下千问,估计美国人没有攻击他,所以资源敞开用。
    - L% }. Q  P* ^; j+ G8 h0 k很稳定,质量不错,好像最多一次处理15页。
    . }. g% `0 ?! @; X我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-9-20 01:30
  • 签到天数: 2861 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。: c' Y, S8 h/ l1 ?% o
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。: b& [# K4 ], E3 i! K
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    9 Y4 [, \6 n& d+ y& K
    * D# ^# k2 r* X0 Y+ c3 h# X  `https://github.com/oomol-lab/pdf-craft
    ! S2 `& {: q7 L' X+ `0 x3 {! Y" s1 O
    1. 这个工具要求装 python3.10
    ) |1 I. h( ?5 G+ f6 T4 f9 ]! K2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    % V" I% R3 C% P1 S9 _* L, e3. pip install pdf-craft
    2 w, r0 D8 i5 ]  q2 D4 y1 I4. 把下面的内容写到一个文件里,例如 a.py
    * K7 |  Y% F1 S0 a' z9 a2 R: o, {0 l' w5 V% D! n4 s$ z
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      1 M$ h" X; P% C7 p% \9 J

    2. 5 u0 S* M9 Y- c: V: m
    3. extractor = PDFPageExtractor(1 R: l2 Y* h* U3 {3 ]2 l% {
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ) v" W: u$ w* c* V
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      , {2 ?9 v' s$ u8 g
    6. )
      $ p3 v. O% y# @: S
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      # |8 j: ~. n! O9 O7 x  b
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      4 N. Z6 E! Y% K, v/ s! c$ n0 s+ F( T
    9.     md.write(block)
    复制代码
    + b6 T' c4 C- \9 n* ~5 }. o5 A4 o% N

    4 }6 B4 c. N: s# }" ?! O. r( X1 t( u要修改的内容:
    , w# [9 j, H: M3 P6 C% ?4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型9 e1 U/ I4 n; i! j8 C, e: i
    4.2 markdown_path:输出的 markdown 路径文件名
      a8 c2 s" q9 u4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ) e) p: \' Q$ [2 p3 R% _
    : t1 X2 I6 o0 I  L6 J4 E5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 3 |7 f( ~2 B: s6 h

    ) f( C2 n" w- N$ o; o1 J; j目前为止PDF转纯文字的最佳办法。
    ; {9 P& |) t. J! H先写个小程序,把PDF按章节切成小的PDF。
    % ~; j0 G* `0 x; F' J4 D5 c然后,把PDF一个个传到deepseek,让她抓取,除错,输出。  k9 e) r+ J0 K7 I+ \
    效果非常好。
    , h& _$ j, m3 N3 O! Z% Q7 l) A0 m2 u: V
    deepseek,qwen,chatgpt 三个,deepseek是最好的。- b" H& a' _& Z, ?: j  X  T
    1 f: o: N; s, c+ R; H1 `
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ! d$ U% @2 i8 A5 v( [  n而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    3 T+ m$ {8 I/ V( A, j/ |" ]我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。6 q& A1 E4 e) x$ Q$ N
    ' x, R: s  x9 U0 \
    API到目前为止,差强人意,不如网页版本修得干净。
    : O* E- ?8 _- k
    $ J+ R  F# |* W0 y3 i# Vdeepseek可以同时开四个。# d8 }2 _; L5 V  {

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 1 \3 p' q# ^2 e: K1 M, x7 W( {

    8 _/ }7 Z  E2 T: Q% F0 K1 `' i+ m让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:260 L9 P/ d& c8 |1 j
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    # ~& i4 s7 f" a细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ) ~/ A  R$ o4 H细说一下,听上去很不错,多谢。
    & M. O) Q, x2 m9 `
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
      e7 V; _7 @3 K3 p% O9 p- ~
    6 ?1 z0 h: H" a. n9 C4 m已经搞定.+ T# ~) n2 B0 H" [3 |

    / {" u9 b. A9 q  t- K. d, f首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% L  E' L3 C+ K9 m) V
    : u( ]& R% K+ s& x
    1, python + pypdf 按章节拆分小的PDF
    ; c2 E) F! Z$ b) ]7 U' w
    " j) U' e/ s5 ^* O: T/ U2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile  D- k8 ~  J% u) q, A) B
    6 L- g9 Q  u2 R0 Q  |
    得到text file
    + R6 p  u1 U) s# n1 Z  @8 O* b0 P. X9 p7 w  T: c
    3, python 读取整个outputfile,丢给deepseek 矫正。5 W' u! A) k8 n

    8 y& n, {+ z* n$ E2 Z模型是 deepseek-chat
      q0 ~. J: J4 e! @$ ^% X" Q$ D* v$ J( [: y, L# J0 d
    max_tokens 最大是 8192,别的不用改。& O+ T# n0 E/ D5 ^' G
    3 k2 A1 W. q3 r4 H; k. K5 a4 m
    参考:- l/ {- u/ s7 |1 Q7 |
    https://api-docs.deepseek.com/api/create-chat-completion" D" @% X. H& D! |
    ( b  j6 W. M* v/ E
    4,费用:
    , N4 l0 y% N+ j2 H. t  K
    3 a* L$ ^! j% R( M实测:, m+ |% r8 ^2 u7 E* q% c! i) i2 B

    , ~$ I; j' v5 t296K 字母,用了 9 美分。- `( }* q/ Y: T! C3 |  G

    6 `5 k6 D( x) a# D8 k英文字母 到 token 用量大约 1/3' E5 `5 q. t1 H1 r

    ' q! K3 W5 R0 i& ttokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899, ?7 V: ]6 a0 ^1 n
    % s& Q  K1 \" Z
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    2 w0 d  Q% p) i2 d$ Z1 D
    & g& E/ T+ z1 N$ s价钱,非常非常便宜了。
    " {: `( v* Y0 g  K+ n( B9 S+ @# U5 r' _/ m! V
    参考如下可以计算,懒得算了。3 K1 g/ t1 Z8 k) T1 u" s

      E' p' [3 @  i( Zhttps://api-docs.deepseek.com/quick_start/pricing# u! [' F$ h, U' M+ i
    . e# R' k, d' u+ U) I
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    8 T; w/ }/ H$ R) V5 F1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55  l: Y* M* o4 J. w; |
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19$ a! `1 M/ M4 q: |2 z/ \. E
    7 @% @* H' L# C# C& T- R) E* q/ y
    5, Balance
    7 {1 @) h' y4 _* t
    ( x, V3 g) X: e1 N/ {" v+ q3 q可以在程序里调用,知道每次运行结束后,balance还剩多少。$ Z! j  L6 c- X( {2 P7 ?; @  `
    参考:' |7 N, p# A) B  b( B: @
    https://api-docs.deepseek.com/api/get-user-balance
    ) o+ ~+ t: i1 B0 }0 B8 L+ ?# X+ O) }" r8 U! H) x
    6, Models
    & I' }( o: l2 a: A6 h
    ! l  y4 H- O' G' K4 O; C目前就两个+ f, D0 D) U+ [6 V, _1 ~) X0 _' S
    # deepseek-chat
    1 L. T% r# W# v) ~# deepseek-reasoner- f5 ?0 k# H# s( Y

    % U, |1 g7 M4 w2 v9 k* E- v& z! h0 U4 U9 j6 N参考:: y) a7 c3 f: ]5 }/ e! s( M
    https://api-docs.deepseek.com/api/list-models
    ! E6 G' p! n8 g5 L0 \5 k' U9 g2 O
    9 U" d: T; f- R2 S' T' u
    7, 问题
    " J3 t' g% C$ O- ?1 T% L  Z: N5 e( l1 P- g9 c3 A+ C. q: t8 g
    deepseek 会将前后两段合成一段。' a! r+ `) v+ p% y2 o0 L# z
    特别是那种大量的对话的段落,deepseek会给你合成一大段。) `# b! Y6 P( [8 K9 g

    * X5 P+ Q$ A( ^3 c6 X8, 钱说了算。- L4 U+ _0 j+ ]/ z/ F
    ( M) q5 M9 R6 |0 H" f( h$ R
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。  f0 t7 \8 G4 c* S8 Y% ^" q
    但是API就不会出现这种情况,毕竟我们给钱了。4 F7 J! U. `/ A" k4 _: ~& G
    chatgpt也是这样的。
    % R5 p2 g0 v/ e' Y* Q. v, w5 Z/ z- N6 g; _8 s

    8 {$ x6 z" c- t# @9 ?

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-1 08:23 , Processed in 0.050100 second(s), 29 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表