设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 979|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
+ X+ d  ^0 i" O5 c  y* [# T' M4 _: I: ~
把PDF上传,然后让他抓取文字,并修改可能的错误。
' ?5 ?8 r# X8 q, L然后deepseek完美的完成了任务。1 u! Z7 r+ N% T! c# Q9 B+ p
段落清楚,列清楚,页眉页脚全部去掉。
; Z& O% o# y) H% Z8 N4 U我要疯掉了!# K! ]9 k- \) i) r
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!8 M" I0 O0 S' \8 n. R; |5 g
====! c1 Y7 t# p7 ^  T% a
中文也很完美。
! z, e" I9 T6 ?8 @6 i) k7 C) [8 M经验值,每次十页比较稳定。
: n  k# y1 C+ K4 A# ^& N现在我这里API还不能用,等恢复了,全自动了。4 j% `' \* W; I( k
====
" V9 d( J1 n# ^9 i. {5 X  ]第二次疯掉了!
, I( C& U. J" R8 W我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
3 [- ^. L) n! K. Z! S) a====
( H/ u  Q7 N' ]* Y! V4 B3 c' i$ X- F; t现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。  n! I% ]- A/ z9 X
但是任务多了后,每次翻译的页面数是减少的。- |1 a; ~( J2 u- l% n- A
好吧,我五体投地,继续探索。6 H% c+ Z; r# ]
====
- {5 u0 P7 n$ I1 X0 X) ^为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。$ I3 r6 B) [! @1 q" l9 }1 j
====2 K+ L! s& u+ U9 g; b& c2 ^
好吧,有些东西是不给翻译的,哈哈。
3 X% e. {& i& ~2 N0 v
' j" E3 O, ^' A5 ~" |+ c# f" zSorry, that's beyond my current scope. Let’s talk about something else.  U1 w3 r! d2 l4 k/ k, B* U
====- V, j9 m* B/ y9 ]' }7 g0 B* ^/ [/ _
然后我的英文命令也让deepseek 帮我修改,呵呵。; K, v5 \3 b+ S1 X  m6 y9 b: t
====, m5 B5 l8 F' l& b- G' `1 X
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。- c' U% K' D6 W9 S2 |
====
- F( D( ^' a5 H4 W) n( }; {5 U时间段的话,北京时间的下午和晚上用比较好。6 i" |2 e$ X# |8 P: X( ~5 O
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。! Z4 g  ^4 P5 T- U. v
====
: b5 |. l& N, q4 G' g+ h# \用千问吧,非常稳定,非常强大。
6 T- H, h0 J7 H7 E+ }, W) [: Xhttps://chat.qwenlm.ai/
5 f. e$ L  `4 y) |( o2 @1 Y; ^====! G- T6 B2 r- K5 n/ V7 e
Deepseek,API 看上去可用了,但是不给充钱。0 p/ n* L, x; ~& K% K, T1 M& }
7 o& z8 Q7 t5 U# q1 e( S' \' b1 x
4 t% c4 c. j" Q2 x. C4 E% i: R; l

# `6 @  ^9 F* I3 a6 H; ^

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3427 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    5 A6 c2 y$ m* c7 w- J这功能很赞呀

    " ^( I: y$ d( B+ O3 U- n. D简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    : r9 i1 m9 v8 ~/ q, |有没有上传整本书试试
    ! q# r1 {5 T$ Y4 I; }4 X  w
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3427 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ! }9 w9 H: L! v& ~+ {) a  c0 s0 t# b) v
    以后让deepseek 读出土的竹简6 K/ `3 f2 l6 Y, k# ?

    # T( t2 [5 ~( x" R2 @- E+ k0 m还有把古文翻译成现代白话& \, V5 Y( e* n

    ; o* d7 u1 D, ]8 C+ Z6 b* W以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:03
  • 签到天数: 2579 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?  \; H  L: ?) G+ E' K) b

    " e1 e5 l! j) d0 c我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    / b, ~: G% G& B1 [) B2 _+ E- X请教是如何实现的?+ h9 G( y) |6 E

    + m, S% g7 d6 t* B1 p# I我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / @9 y2 g# n% n2 U

    * [$ M# O6 Q1 H) g7 @我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    - S3 U5 M1 q. {' f& [2 g文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    - R% X+ X3 |5 J美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    . ?3 ~9 b1 K  A+ \

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:235 a  u; ?& z; d7 H; v% S# I8 S
    请教是如何实现的?
    # S" \. X  r/ ^9 F* d% v
    2 J! W7 M* X4 P+ R% i) t我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    / V7 v' u) H+ C7 ^" B* L! u/ whttps://chat.qwenlm.ai/
    ' Z( m, c% I3 X+ B2 L- n" M& d试一下千问,估计美国人没有攻击他,所以资源敞开用。+ w! D; ?; U3 Z4 a( B/ T% f, C" j& v) S8 }
    很稳定,质量不错,好像最多一次处理15页。
    # M4 i; T) M* r. U我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    25 分钟前
  • 签到天数: 2720 天

    [LV.Master]无

    10#
    发表于 6 天前 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。0 O6 n+ `2 X% _4 o  v" W
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。  r" y7 Q9 q' P4 k6 e
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。- I5 J6 t. q1 F; t" h

    . G7 D8 ~0 P* L6 s  c  ?https://github.com/oomol-lab/pdf-craft, g8 S3 {* l4 q5 n- y& s

    : ]3 B- E0 `, a7 h- R( I1. 这个工具要求装 python3.10  f, e9 c9 M1 e% x
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    3 l( f5 U0 r: t0 ?( r, u6 L4 _2 f3. pip install pdf-craft! B' z, o+ l" e  o: A  ^
    4. 把下面的内容写到一个文件里,例如 a.py
    + N- D8 s: q0 B1 l) p& ^. z5 G' O: h+ l3 Y
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      4 i6 U8 Y) _  K* r- Y' B5 C
    2. 2 u% T' S" o! j+ l: x& e, g
    3. extractor = PDFPageExtractor(# y1 q: j' w2 T0 w
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.; w# e( }) m7 n& b
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ) R; y% O+ V7 S! i3 r  u
    6. )
      ' T  B5 t: e* Q5 k" l( Z
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      $ C2 U8 b- f! }' i( n
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):2 S( C0 ~( B1 v- l6 v0 z' p
    9.     md.write(block)
    复制代码

    + E7 _6 u& b, J; ?& m3 ~8 l! T4 _9 f/ m+ P
    要修改的内容:; Q0 I! X& Y7 o' m8 X
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型2 q- o# F8 F- s3 T* O
    4.2 markdown_path:输出的 markdown 路径文件名
    6 Y3 r2 n3 M3 `( H) C' F4 g2 p( t8 Q4.3 /path/to/pdf/file: 输入的源PDF路径文件名+ s% H/ \4 X, x0 A5 X, j
    * @2 A0 z' G" Q- B$ K& U, X
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 6 天前 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    , q' [" {: a& f" t# R3 N* ^5 v& v5 X1 y0 W! K- c; g
    目前为止PDF转纯文字的最佳办法。
    8 l9 F; H1 v: ?7 \. t6 C% a先写个小程序,把PDF按章节切成小的PDF。
    0 M6 m& N0 e7 V9 m4 U% c然后,把PDF一个个传到deepseek,让她抓取,除错,输出。' P7 T0 N0 K. \4 n; f
    效果非常好。! f  ?1 `( i0 \; @# A2 Q+ K
    : m! n  z* a5 v2 ]
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ! I. L+ g. Y2 J. b+ _5 n5 f, |
    8 v$ f9 y% f+ c4 ^2 Ldeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    4 d! x! g; y7 r( T- I7 E) v而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    * i7 c8 w4 `* X2 F6 @4 y) B我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    3 E! B  K2 a- P' `) a
    ' U# }$ d* g$ ~6 aAPI到目前为止,差强人意,不如网页版本修得干净。+ _1 r3 g$ B; Q- y

    7 O$ M& R1 K1 G% e2 h2 a+ Tdeepseek可以同时开四个。
    " B) I7 K; G, ]8 s! D6 q# K

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 5 天前 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ( B! X6 j" K& L; y3 [* I2 `. C# h- g& R/ ]3 K4 O3 @
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 5 天前 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    5 {' n) _, K$ w" o- ]4 k# h让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    , j# T6 T' `8 J3 a细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 5 天前 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    . c3 H) X* f9 ^7 A! j, Y! H& G- t细说一下,听上去很不错,多谢。
    " Q# d4 S* N- _- t/ J
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 5 天前 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ! _% w- ]2 v8 S5 O( ?; p# q+ P5 u
    1 K- D( C; n6 |) P3 g1 D& Y
    已经搞定.
    3 b5 K9 U3 F1 K
    " J! o5 m$ J* T: V首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    + R) o* D8 d* t* s  ~) @/ d4 ~- z3 I, y( N& `6 H
    1, python + pypdf 按章节拆分小的PDF
    , x1 W2 C7 t9 R* v: l1 Z  d) ~2 R7 @) x8 g) T1 M! ]2 |
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile: s% A0 R* P4 n' g0 J+ Q) i4 ?7 K

    , `9 L( }6 Y( P得到text file" p5 x% O/ U, l% u" E
    # L+ Z4 \8 K$ n8 K+ F$ j
    3, python 读取整个outputfile,丢给deepseek 矫正。# k' `# r# a8 X  I9 ?) P; N6 s" d7 e
    . Y" L1 R, G) j. s0 X
    模型是 deepseek-chat
    ; g3 z% X% Y) J2 J% w
    6 {1 K4 }9 i1 q/ W# jmax_tokens 最大是 8192,别的不用改。% E5 b& i$ Y3 p+ r
    : Z8 Q% W$ {) G! T' J. D4 g
    参考:
    ! o& [/ Q1 |* H4 f/ Whttps://api-docs.deepseek.com/api/create-chat-completion
    # g# M$ U7 g& ?1 V7 g7 t, t+ K, t; W6 u: |; v" `+ D6 K/ y
    4,费用:
    % w% y( D9 Q4 T% E5 u+ J" [: u8 O! H3 M8 b5 }* M
    实测:8 f5 _1 h# D4 H7 m3 Y
    ! K& S, _% }9 c' b/ n# M, U0 f
    296K 字母,用了 9 美分。, q" m6 n- w+ V7 X* h

    % p, @+ ^# |8 S; A7 c# U英文字母 到 token 用量大约 1/3
    : j2 X6 N1 E7 C$ b5 T' I0 s9 o
    - y  q: L( ]( q- e# Ntokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899: e, t# c! ?: c, d& h7 j

    ; Q/ n' g$ e  N# r32899 个字母花费 11782 tokens,包含输入输出的 tokens5 C6 Q' i" Q5 o1 {# Q' _; A$ H
    8 D' f- V4 x( l
    价钱,非常非常便宜了。$ h' O8 Z0 v& a4 \& V

    * }1 o2 Z1 s: W$ {, q0 M参考如下可以计算,懒得算了。
    . W# A' r7 ~" L6 y- j: c4 k" m
    " ?5 j: B6 D+ V! |" [https://api-docs.deepseek.com/quick_start/pricing
    ' ?- B; D1 g; \
    " ?* m1 K2 F, a, |, T6 O& {1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    & D# H6 B7 H8 D& h4 Z$ l1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ! P) i! z/ x- a1M TOKENS OUTPUT(5)                                              $1.10                $2.19" [+ \6 ~- L! m9 x9 Z% l# w

    0 z# H3 b* G9 D- n5 J" n3 B* C5, Balance
    , ^% `3 q$ L$ S7 R, g, X7 D% n3 B/ a7 }5 c8 |
    可以在程序里调用,知道每次运行结束后,balance还剩多少。" ~7 x8 ~+ m+ y8 t6 N5 S
    参考:* C; l3 \5 ]% l5 x3 h/ O: n
    https://api-docs.deepseek.com/api/get-user-balance6 [1 ]3 f% {, K" I5 T. C# L
    ; ~) B* C3 f1 ^2 p' B5 @
    6, Models. H4 B4 b2 I; |' a

    ; o3 p2 }7 n6 t; a: Q6 ?目前就两个, q3 k: G+ _/ a' T! y
    # deepseek-chat) A. b4 w. n2 \  |. t" Q8 m  h
    # deepseek-reasoner* f( ~: a/ }, D3 i
    % c8 a2 p) E: o+ Z! g% w* p
    参考:  ?9 @( H+ T9 |
    https://api-docs.deepseek.com/api/list-models
    # j' E+ n2 I* f* S
    - ~, X6 [: [& {/ g- k4 w2 E  t: j" Q% C# B' y% C( ?& I
    7, 问题
    , y. Z( u# ^# V' r. t
    . e1 Z" s1 v$ N; L' U: I" ^, zdeepseek 会将前后两段合成一段。
    9 D* s. F$ c% a特别是那种大量的对话的段落,deepseek会给你合成一大段。* D" a( b- s, x. c0 M# A. D" }' D

    ' P) C! ]0 [8 @5 A8, 钱说了算。. g3 [) P* @$ ^! Y  U7 m" J

    4 S  H7 R  F( C& K, hdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    , Y: X1 `) J6 h% Q$ L: L4 S  x6 Z但是API就不会出现这种情况,毕竟我们给钱了。
    2 V& ^* ~: G) \4 ^; Q2 u" y" |chatgpt也是这样的。- R7 J' a1 _2 a' d
    / k; d. p9 W, ?$ Z9 k: O- P8 _

    5 v& W$ K! f* E

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-4-22 01:42 , Processed in 0.041717 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表