设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3084|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ( `  s/ w  p5 B& c% i7 z

8 L: ~  v# ~" Z把PDF上传,然后让他抓取文字,并修改可能的错误。
. [) E- _% p8 v( V* V$ r0 R0 e7 w然后deepseek完美的完成了任务。" B: b- `9 q7 b- r' O9 c, \! u- }4 _! D
段落清楚,列清楚,页眉页脚全部去掉。4 U$ ^/ S% s7 ^
我要疯掉了!2 D: k" U* S# k
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
+ Y) k; _% m0 @8 Y====3 D. r9 p$ k3 m: }
中文也很完美。' d# V& B& [9 g0 ]
经验值,每次十页比较稳定。
, k& n0 W! w$ y现在我这里API还不能用,等恢复了,全自动了。
8 h3 f# x+ A1 v! O====
( e+ c5 ?0 n  a, V第二次疯掉了!4 P# s6 Q2 T6 c2 i' g/ m& v' R4 B
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
& Y, M& K" V& A& C; G: D2 v/ P====
& z) e. P' ?% H5 }. y7 @/ |; r) ]9 K现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。6 _( Q: a  i: N$ w! T& C
但是任务多了后,每次翻译的页面数是减少的。# q; k; b0 t' _' x( B, A1 R  _  l
好吧,我五体投地,继续探索。
9 w9 d  p/ e$ {  ]6 }' x====6 a" a! v+ p& n/ s1 h1 p
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
. z' k/ j1 k- P+ t2 `* z9 @7 c====" |% m5 p( a: s$ g  z. q
好吧,有些东西是不给翻译的,哈哈。  i2 A! }  J* i, B) `$ m5 v  x3 S; P

  e( [- K& \& B) N! E5 l" hSorry, that's beyond my current scope. Let’s talk about something else.
! W1 Y1 H1 j; F9 l- R) S====- z5 w" c( y: `" W6 O
然后我的英文命令也让deepseek 帮我修改,呵呵。6 l6 V7 A9 [$ ?* D
====4 @1 R7 u% @# O: Y
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
& g5 u. z5 o( M! m6 q====5 w* s2 \+ d5 M
时间段的话,北京时间的下午和晚上用比较好。. ^7 K4 s- Q0 j: M
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
. t8 [7 T1 @0 b; D! }6 t* A====$ {9 @3 f1 f5 E" C5 d9 [
用千问吧,非常稳定,非常强大。* G& d. s; @5 E9 i' f; l
https://chat.qwenlm.ai/" E6 ]! l) D1 X
====( {2 `& W3 U) q
Deepseek,API 看上去可用了,但是不给充钱。
' s2 Q8 I, @; T6 r
0 f2 B5 y0 J& Y6 ~+ S- M; J0 W4 g6 E6 w7 S" W* P$ }. s
0 N0 S* s) r& `; D( ~# g9 E$ r

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3788 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    7 m0 A$ G( d3 L' [, j  d  i这功能很赞呀
    6 _! B# k0 g2 S
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13) Q: o2 q7 p* p) H
    有没有上传整本书试试

    . ?7 N8 g5 U0 X+ Q目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3788 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 " ^$ ~+ a+ U& q; s, G+ H

    ' `2 ?0 X% }$ z! I以后让deepseek 读出土的竹简9 Y4 ?  _, K* B" h
    - X1 B) M* H9 s0 h& G
    还有把古文翻译成现代白话
    / m0 K( d# r; Y3 j6 e4 E, W) Y' ?
    6 d6 g. x' g2 c# k! u% p  m3 U以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    9 小时前
  • 签到天数: 2948 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?  |( u. w9 N" u! N2 E5 ^
    $ r1 t- I- h1 f8 L8 M: J
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:236 N  f8 \- w. n
    请教是如何实现的?
    - a% c- S  \: n, X' N; k7 x' f0 r/ v/ D
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    : @" P3 N! M# q5 {& P: k$ h4 H, h
    ' H- ^5 u/ t0 ~* U4 d我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    1 L1 I+ k) ^0 W% h! G: b文字之类的没问题。估计deepseek现在暂时只保证主要功能。  x' D2 R' A1 g6 b% Y; H; Y
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。) E6 V3 w; F, c. K

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    4 O0 Q( Y0 l1 R请教是如何实现的?
    + g* A5 e4 u% n; x9 k, V5 }: W/ x+ V2 c( \) T
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : ~: N7 c$ O. u. d2 [
    https://chat.qwenlm.ai/
    3 T7 r0 B: b7 O试一下千问,估计美国人没有攻击他,所以资源敞开用。% G3 ^+ }- o, |
    很稳定,质量不错,好像最多一次处理15页。3 k' {( P- S4 V: N, v: t
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3060 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    $ j3 S- X+ t/ h$ w处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    / e0 k  ]' C2 f3 `3 m. V这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。) l& z' R: W4 ?+ y7 V, h7 k, y. O) M
    + y% G# Q/ ~' \  K, J
    https://github.com/oomol-lab/pdf-craft4 f+ m- L- p" J

    7 X% ?2 J; ^& }4 I9 u1. 这个工具要求装 python3.10& i" [, ?! z9 A8 z+ o* C& Y9 ?6 ~
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    " M/ E# G, ~1 O6 R4 f3. pip install pdf-craft
    + [) @% I# k/ s5 y, G4. 把下面的内容写到一个文件里,例如 a.py( x, O% ~9 h& L9 B- g
    : J$ Z/ l) W: ^# j5 n
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter( E9 z) c, a4 d& r+ w
    2.   @5 l9 p" w6 G% u1 `. ~4 ^
    3. extractor = PDFPageExtractor(3 S$ c9 U7 [& w1 d
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      & j( G9 N5 L" k6 `
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed: Z% h8 _1 T2 U& {& H; o/ d
    6. ); M' h6 E7 D& ^
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      & ?4 d( b  [) L2 O6 M5 j
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):0 ?( x. G4 i$ s' r3 c. |4 @
    9.     md.write(block)
    复制代码
    " D2 Y, r' ]9 }

    # ]) H; ?! J1 C( c# U要修改的内容:
    3 D) O) a: h- i+ b6 Y$ O/ J4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型8 P- |+ D/ s2 T1 a" t
    4.2 markdown_path:输出的 markdown 路径文件名
    2 @/ t" V' W# I4 g4.3 /path/to/pdf/file: 输入的源PDF路径文件名+ [1 w* \$ a) o) s

    " C% |% Z3 l6 E: z; y0 E4 m. Y5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 , B2 R6 Q/ j3 ?) ?

    % N  W- l6 R2 N, I; @目前为止PDF转纯文字的最佳办法。
    ! a1 z- o1 P5 \5 g6 M5 g) o先写个小程序,把PDF按章节切成小的PDF。
    + X; W. j+ O0 k然后,把PDF一个个传到deepseek,让她抓取,除错,输出。& V; x5 G2 W$ T) h) R
    效果非常好。
    ' |& o1 h( n: F* i9 T: p+ h: O3 X0 t$ w( _
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    % J9 \- i, N6 f+ x; K
    . I! w* c3 ]- S9 y5 x6 b1 \deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。2 |# l% C7 f, E0 q
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    + g3 n; G& o$ F; B! e- V, N. @我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。4 h7 j& p9 L5 w3 W, N0 }4 b5 Q( _

    ) L; i: B* g) ?. A  B6 r/ BAPI到目前为止,差强人意,不如网页版本修得干净。
    $ O: L: `# e( x/ B( B, Z
    , L7 v7 W5 W6 y4 E/ y: |deepseek可以同时开四个。
    & L9 g5 M- q+ w0 l

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 4 F5 g$ Y5 Z+ X4 v$ q% F

    - T2 N2 n$ V2 a" C* ]让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
      S& E! p& I1 ^8 T. A% I/ p' n让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    9 x# K4 J# Y0 x3 u: H8 i! F, \
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33! Y" y0 v+ A+ l! h4 `* p
    细说一下,听上去很不错,多谢。
    0 r9 X1 s* P) t
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    9 e' N3 e6 T) J( o* Y! t( ?* [4 {- I3 G2 x& K7 M/ p3 S( u6 L! g
    已经搞定.: |! B( Q, P" T3 h) r/ K% U7 @

    9 {" a) V1 s8 k9 X9 {首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    3 O7 a( Z0 }) f. x
    8 @* ~7 @9 l$ j# e1, python + pypdf 按章节拆分小的PDF
    % E; o4 g* ]( [" u6 K. D  u$ f$ R4 A: x6 G, l0 j
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile* u' `/ o: n0 A5 x  m4 a
    ; z- M- p; S- K. N8 C7 }  i
    得到text file  ^1 B, M2 a  ]" e. }4 e
    ( b; S% w, C* K4 w/ t; D5 t7 v
    3, python 读取整个outputfile,丢给deepseek 矫正。4 F+ o' o: f6 C- g5 u4 Y
    6 v3 j& z& t+ L+ o
    模型是 deepseek-chat6 p- N( S4 J' S/ ~# Q7 U( {9 ^

    $ p# D: z) f1 h5 k& x% R# ^max_tokens 最大是 8192,别的不用改。
    % i7 I! Q# T& O
    : Y+ o) \9 }9 b' ]8 d参考:& h. H  Y( S8 K' P9 G6 x
    https://api-docs.deepseek.com/api/create-chat-completion! }, j5 F2 v8 T0 w3 D" M

    - l$ A2 v# O7 [; @2 m4,费用:
    3 m6 j! ^; F- Q4 e9 n6 M1 E$ Y3 Y1 a; o  q' i+ o. Y2 p
    实测:
    2 N. C0 T, e- }( F" W+ S4 A4 I
    2 {# X0 B7 ~, r7 H/ Z" ]296K 字母,用了 9 美分。
    6 y7 c( I  M' e: m$ A% C
    ' S6 l9 p# p) c9 H3 A( a英文字母 到 token 用量大约 1/3
    / Y- A, D* [. E, |: j; U" ?+ C2 a4 L# f% s
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328998 L0 R4 W- [: r* a& Z4 R
    3 A9 p& |/ `' `  z0 b
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    1 i1 |, {; q1 r% o. P5 n
    7 D! L  I% e. ?$ m5 N* r价钱,非常非常便宜了。
      x$ A( m$ t7 E8 J% a
    ! P) i# f3 ~( v8 l4 q& D8 p, E4 p) m参考如下可以计算,懒得算了。
    - c" j+ t' {+ ?2 C
    ! T0 {% v( y, rhttps://api-docs.deepseek.com/quick_start/pricing
    " b  b. R1 h1 o. O$ O$ V; k1 ~- V* z4 n8 @, ~+ e! E
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ; m: i+ E. @* G. n1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    8 J+ {. U, g, r* |6 F4 y1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    % x  y# y2 {+ x6 N4 k) E8 D6 C* f5 j( r  q
    5, Balance, e3 N- `" A8 C/ ~* J) G
    + B# u7 l+ p" o5 v& o# h0 x
    可以在程序里调用,知道每次运行结束后,balance还剩多少。& j9 V3 U# [- f' f
    参考:
    $ J3 ?/ {: c( w9 t5 }2 |- Qhttps://api-docs.deepseek.com/api/get-user-balance
    8 w+ E$ Z/ s$ ]% t/ r6 [: W) |8 }" A, g! A
    6, Models# m% V3 p3 q! O* U2 e! T

    ; J$ L; _( K0 l, S/ h目前就两个* F' O+ B  o& k* J1 i4 r1 Z/ S
    # deepseek-chat2 y' _7 u/ ^! l2 T' p2 L: ]
    # deepseek-reasoner
    2 E3 }7 @% |  D4 A* Q& X
    . m6 r% A9 {8 n, r8 f9 O# q$ M. E参考:
    . g, G& D. \! _2 }4 v- T" a. rhttps://api-docs.deepseek.com/api/list-models
    * Q! T, x  L' Z1 d( T) W/ a+ p8 ~) V. o4 p* Y7 f- ~; r

    ' K% a7 A0 ^/ w* k7, 问题3 `& \: w* t1 Z( h" o" U2 F2 r
    7 w# ]: {" f( C8 H
    deepseek 会将前后两段合成一段。
    & [& A  ]$ J1 l, X特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ( p0 p# @2 ^+ \: z
    8 ^* K. b. G  N8, 钱说了算。
    * m  x8 D. x* `) K9 r* q  f! @% j7 H7 D) g) E, A
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 X+ V9 G' A( I; t9 `+ s9 \
    但是API就不会出现这种情况,毕竟我们给钱了。- R, ?7 Y4 I2 Q0 W# Y, Z" ~
    chatgpt也是这样的。8 N6 C: @" U# Y2 P  H  l
    % f- J3 R$ E; L4 ^# m! M
    / a# j4 H( F+ \% `

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-18 15:47 , Processed in 0.069082 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表