设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3243|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
6 t' F3 a, ^3 v* B; Z# @1 V5 N
2 m6 K; w7 j; j7 D把PDF上传,然后让他抓取文字,并修改可能的错误。8 X9 Z# d+ x0 q- F8 G
然后deepseek完美的完成了任务。7 B+ G- R/ p* Q6 o- v' a) P  x
段落清楚,列清楚,页眉页脚全部去掉。
  |3 H' v: R5 S$ I1 U8 }2 Z我要疯掉了!
  E9 x( b5 U/ f; T5 z6 C赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
! {, F6 z8 M( a4 `: K====
( H9 R" e9 K: S1 d; U+ p! `中文也很完美。6 t% P. D, D$ O0 h
经验值,每次十页比较稳定。
% k( D: D; `! ]! Q) n  `$ O) V+ p6 ~现在我这里API还不能用,等恢复了,全自动了。, Y6 m5 b$ m1 L; i: G
====/ }* q& L) S* d5 f
第二次疯掉了!
' H1 q- ?- z% P: T我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。0 x/ o3 O+ }# w( S; b! z
====4 K% j. Z: @, @/ H# z
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
) {, h; d/ ^8 s) k, E但是任务多了后,每次翻译的页面数是减少的。
/ n5 B+ S- s; v# I) ]/ G+ d; G好吧,我五体投地,继续探索。- T6 M7 [  P/ O& E0 ?7 o# H
====
; Q" L/ z6 @9 K5 I* D6 ]' R1 y为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
- R; I! Y/ C" F# j& Y  I; C====& t: C! c; F! ?$ x
好吧,有些东西是不给翻译的,哈哈。" L# {6 z2 j/ e4 v

! U  r3 L- ]8 t3 e2 Z$ L1 `8 xSorry, that's beyond my current scope. Let’s talk about something else., ], c! T/ q* D2 M/ E6 F
====: ~; M% m; g: m+ z, J; h5 s5 N
然后我的英文命令也让deepseek 帮我修改,呵呵。9 R. j0 ?8 ^5 E! K- S
====7 |. Y# v' d9 s) E6 o6 e6 ~5 w
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。$ v- n% e0 ^) s0 c2 O, A2 S6 \
====) N& r2 m. w5 Y
时间段的话,北京时间的下午和晚上用比较好。' O9 E7 `# h8 |0 v
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
3 X2 R4 [" w, h, C. h# m6 h====
* I* S3 N! P5 ~用千问吧,非常稳定,非常强大。
! M8 f* {4 ~; N% O0 f- ahttps://chat.qwenlm.ai/( K. }# D8 v  `4 G) M9 w! p$ b
====
# m, R/ M+ [& d% h1 MDeepseek,API 看上去可用了,但是不给充钱。1 H1 j) E- P+ i/ T. i2 S' M
  ^) w5 M+ O- d9 k
2 I# J$ H& |5 b% P: d1 l

1 m- `" k3 P( @. [6 v1 t; }" X

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3828 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:539 c' P. Y; y; b; @; H
    这功能很赞呀

    & {8 s8 v! D" Z. w" v; ?8 m简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13  w! F% i# k2 o2 W; t+ N; Y- w
    有没有上传整本书试试

    + n& q1 D0 o1 x- }, C- C目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3828 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    8 j! H9 r; f; M& p7 r* x! s& P' w  G! `( y4 n4 ^
    以后让deepseek 读出土的竹简
      m/ ]' T( l- r0 u( I$ L" M+ Y; [  ?9 p4 q7 M* `
    还有把古文翻译成现代白话; Q* Q9 p% u9 w+ p& o0 _
    / z3 M7 B( m7 L% k5 \
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2988 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ' S/ L' o0 S+ T% l6 G- s. Y, m% _* L9 T& L
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:237 k8 L0 q/ ]# A
    请教是如何实现的?
    " s- O' [' y0 Y" m8 v4 N6 L/ Z' x7 c$ c2 ^. t& }4 R& h% S
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    & t, T$ I3 |- q* {% ~* I1 g

      A. P2 P+ W+ f9 D; Y我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。7 M5 i/ z( [. C7 w, t
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。- r8 ]8 V$ e+ |
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。0 _+ P! {4 \  r% e% d- G

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23* P- k$ d; [6 [& W' Y
    请教是如何实现的?) u4 `# p2 l! a

    : u0 b! |4 U, k; o: v1 i' W我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    & m& W& |# }3 P5 V. l
    https://chat.qwenlm.ai/
    ; Q/ `) I6 ?- X试一下千问,估计美国人没有攻击他,所以资源敞开用。
    - k$ ?% X3 d7 O$ d1 B, o很稳定,质量不错,好像最多一次处理15页。3 E# ?* F3 @* `, g) _3 I$ Y0 m0 A! R
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3094 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    - d) Q. k5 }  Z* w处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ! D8 k: t# S, J3 D" X2 I/ K这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    7 D( ?, m( }# \4 G( N
    ' K" k7 H& y4 p8 I6 ~+ \2 {; Chttps://github.com/oomol-lab/pdf-craft
    ! A  a4 C- Y% Q7 k' f
    - A% E+ V4 ]' Z: k/ O1. 这个工具要求装 python3.10
    - p# K3 r/ c0 y% {+ h( I( |0 ^2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    + E  T# Y, l8 n1 C$ u: x8 d3. pip install pdf-craft
    # x+ z( k, E' C# W7 _0 D& F4. 把下面的内容写到一个文件里,例如 a.py
    + H5 R5 n+ h' i. v" |  y1 v1 D5 _8 A+ R# o' N
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      / v. o" B) \1 M
    2. 6 z) T$ [9 O! ]1 S: _
    3. extractor = PDFPageExtractor(
      4 g# D+ Y5 x! w9 x, T7 z
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.+ d! Z4 e2 x/ }. }7 O# V
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      , U( w+ T8 s4 H
    6. )2 _: p( z" t: g( v& Q) u
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ( p  o% Z. ~: `/ u3 b) ?. k: s
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):  t+ l* @. @6 d0 ~# h
    9.     md.write(block)
    复制代码

    0 P' o/ D  `" V* k  h' z+ j8 a- D0 q) G4 k# r8 C# s: {
    要修改的内容:3 I) K. ~4 M  ^0 I" C
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    1 M/ N/ d) I9 P) X: i. p4.2 markdown_path:输出的 markdown 路径文件名
    5 }4 {+ p( K6 c- ~8 ?4.3 /path/to/pdf/file: 输入的源PDF路径文件名' w" D9 b5 y; F4 Y' q: T3 O* ]% k

      G( ^: V" B' e' d% ~5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    9 k8 d: I$ x6 q$ H* K& j8 O( X# P6 W( V' g9 ?! D" D, U, \
    目前为止PDF转纯文字的最佳办法。' Q- t' ]- E1 x# K; W- s4 I' o
    先写个小程序,把PDF按章节切成小的PDF。9 `) \- W  z% |" F, w! v# g; |1 c
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    , U# j/ |. e& P. j: t+ E* A效果非常好。
    2 d) `6 u6 X& A& N
    9 O* N) d% A/ m7 x3 bdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    0 S- J( U' O& x& B, u. Z+ @$ [. ~  j/ K( V* E0 s
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ' q, E% q+ H: ]' i2 ~而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    + O; D) X( h. ?/ l1 z) |我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    & V4 e# [2 V  M# B6 B# o' f
    4 \; e0 e' `( @2 X( oAPI到目前为止,差强人意,不如网页版本修得干净。/ @9 e3 I* r# r. L
    : x  R1 }* T0 s* B- e  ^
    deepseek可以同时开四个。
    ' t/ P4 s" P; c5 h/ z( v! k

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    & g1 }' r+ ?' E+ d8 O6 k: h. f  P/ b! r2 z# a
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    9 N  C6 r' s6 Z  e让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    , u# l7 V0 A! B3 |  z# I1 k% x
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    9 O0 Z7 f  {. p$ p7 [细说一下,听上去很不错,多谢。

    4 k" i9 ?/ Y, l, H直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    6 ]/ ]8 I; k. T) A# b' e  a9 \9 `' ?+ ?; O) m
    已经搞定.
    & n. U3 r# ^0 K$ p
    - i- J7 ?9 v: Z* ^: O8 a" N- O首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。; c# W' ~, L4 d( [! _
    $ a& n5 ~+ e9 a3 [: x
    1, python + pypdf 按章节拆分小的PDF7 Z% t: @0 R9 \5 {. T6 o
    / O+ `: r# I/ ~9 f4 L, }
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& I" N5 ~3 f1 x+ g6 }3 v7 c% q

    . I& S7 h, n$ C7 a7 |4 X得到text file
    2 T* W& n( u4 C' |( e* j
    * K8 I9 v, L) f" P* z3, python 读取整个outputfile,丢给deepseek 矫正。5 x9 p+ i% {& a! l
    4 w5 Q. z1 l" |! X% ~6 S
    模型是 deepseek-chat
    9 u# M* M0 w, }( J# c2 ^- l! r5 l6 J. i, }8 f+ o6 l. W" T" y" w4 w
    max_tokens 最大是 8192,别的不用改。
    - @" V4 Z* H, l) E1 ^
    2 f2 C9 F* i$ r; f参考:. C6 z$ v# c8 n9 D
    https://api-docs.deepseek.com/api/create-chat-completion
    + O" T- m  P/ H- O" [4 @0 Q
    1 X8 n8 T0 ?. d7 d  o4,费用:7 O0 `3 u; D6 ~% O: T6 b

    6 y8 T2 P' n1 L6 C8 q' R% H实测:
    1 h( T2 {- ^& [2 O: c# v. j! y
    9 Q0 }8 h, f) ^3 w$ j296K 字母,用了 9 美分。
    7 G# Y4 S& n3 B/ q, b6 f
    * Q! x+ U! l% {英文字母 到 token 用量大约 1/3# X. `$ D: Y& i6 U2 i6 [
    4 M$ a1 v. b6 P  v$ c. ?
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899  |( u9 y& c* n$ h6 w
    , U+ f5 H, ]- U
    32899 个字母花费 11782 tokens,包含输入输出的 tokens7 o. B) V$ V- f2 w8 D1 o. v. `
    $ m. E; Y# b8 ^) T4 l; O
    价钱,非常非常便宜了。3 z$ B, X) g; k/ h9 L2 q. |( Z
    ' Z( X; Q* X( }7 Q8 {8 B; l  _1 L+ S
    参考如下可以计算,懒得算了。
    : U1 [4 J2 }# \3 k/ b0 s7 A" `  h& F
    6 w% f% ]  x/ G. g3 l$ K; \2 x3 chttps://api-docs.deepseek.com/quick_start/pricing
    ' M5 D, z1 Y* ~  n0 R; ]1 W" A* \% K9 p/ `% t
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    5 X9 x" k2 i- q$ O9 h/ A3 ~1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55, Z/ h* r2 X" h3 ?4 B
    1M TOKENS OUTPUT(5)                                              $1.10                $2.198 d( s& h& _2 D7 Z
    % q" U0 {8 N0 a
    5, Balance
    9 |2 e% @9 i6 E+ @( j; L2 E' {4 r; r4 s" `3 n- |( G
    可以在程序里调用,知道每次运行结束后,balance还剩多少。7 ?# U) }  P* ]
    参考:
    + J9 q8 Z( g+ {1 b- Ihttps://api-docs.deepseek.com/api/get-user-balance
    $ j. L% `* G+ @2 ]. ?6 J! A4 X2 c" p  d5 i' o* X* _
    6, Models2 m+ F& K0 c) O9 P  e7 t( }9 U
    * A7 W- b) G1 p1 R6 b; ]9 d+ f4 s
    目前就两个, ?( g0 B/ ?! ~
    # deepseek-chat/ i- |" Q' `0 p1 I- X0 P5 ~
    # deepseek-reasoner
    , |, x! N6 F1 @8 r( U3 D" ~; a- V% R# F( \: z
    参考:
    : j& n; |/ U1 i+ k+ _$ C* Z" zhttps://api-docs.deepseek.com/api/list-models, }+ J4 I& h- R
    % \+ x4 C9 m0 e( }4 U) F$ P6 V# w
    . s# H7 e! w# r9 N  a. z
    7, 问题
    1 ?" W  i1 \7 J9 U. W3 c
    7 Z( H; l; S) }' U% O: z" sdeepseek 会将前后两段合成一段。
    - @1 }+ U( @" |( m3 \, I特别是那种大量的对话的段落,deepseek会给你合成一大段。# @, S9 ^) v+ S* D4 e
    ( w( f( E, D/ u3 ~
    8, 钱说了算。
    : T: _4 ^9 w. w$ K+ s
    # |! {, |$ Q5 C0 Qdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( w6 e, J& Y5 q- P) ^- ?
    但是API就不会出现这种情况,毕竟我们给钱了。* n: i  I/ v6 x, n
    chatgpt也是这样的。
    + [0 i% z; |4 \. ]) A1 B/ }7 Q7 y9 m5 o7 |& Q/ E
    0 n8 A$ D3 R& N. ^' t

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-27 13:30 , Processed in 0.069649 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表