设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2962|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 % F& V$ T  \8 ^

* L1 l8 k$ w8 \' r8 u/ i0 y1 I* R' s0 ^把PDF上传,然后让他抓取文字,并修改可能的错误。
4 Q! N2 M5 ?  n/ f: m5 U* p然后deepseek完美的完成了任务。
% p9 q0 [0 i* a3 m段落清楚,列清楚,页眉页脚全部去掉。( a: W$ l' E8 Q  I# L8 A% `
我要疯掉了!
, B; M8 T  _4 {$ `, x赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
) Z9 ~, x. R  F/ o% }* C% ~, I====: ]7 g: T3 V8 j3 o
中文也很完美。5 K7 b* v9 R; J: ?
经验值,每次十页比较稳定。
/ z7 {+ U  Q, U  A现在我这里API还不能用,等恢复了,全自动了。
) ~( M0 ^. @9 a: J9 a$ e- x====) N  w6 y1 H8 R* \, c; @
第二次疯掉了!, s) d% M- i0 x
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。+ I/ }. M- i8 l
====
; t" f. T( v( f6 y9 ^现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。- X( Y4 d1 |, ^# Q9 w
但是任务多了后,每次翻译的页面数是减少的。! j0 O* a. f" q5 r
好吧,我五体投地,继续探索。
# C9 d/ S9 r0 v====& W# j5 m) D) j7 X$ ^
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。  F/ ]" o( d, N' Q$ S
====
) }2 G6 c; R! t8 B好吧,有些东西是不给翻译的,哈哈。
3 b2 b0 ~. P9 k; D+ Q
- B3 i& a3 w' r% _Sorry, that's beyond my current scope. Let’s talk about something else.7 q9 |3 D5 `; K, W8 e; R. s4 j8 a4 Q
====
  t6 S8 Y& c1 p( t然后我的英文命令也让deepseek 帮我修改,呵呵。* h& [) n( ^) m8 ^* m6 _
====! D8 }$ N0 B- S- C
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
) K' u& F, H9 |* b7 A# o0 w' G====
4 g3 p* k! `; {! B时间段的话,北京时间的下午和晚上用比较好。8 J) X9 Q/ D3 Z$ [( r, p* k0 ?2 v
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。9 B. o4 I5 ?, k
====; x: q; G; d1 @" u0 F
用千问吧,非常稳定,非常强大。
! f' A  [" x# X7 U' fhttps://chat.qwenlm.ai/
8 K( X9 H! U( T  ~  @====- D) v) a+ `2 H8 Z
Deepseek,API 看上去可用了,但是不给充钱。+ Y/ s; a. q6 s0 |& c* i( M0 Q( u& _$ B
- }  G) F! d7 T0 N/ U7 `3 P
) h- S- M8 k. v% M
* p: J: Z3 l  |7 L/ M

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
      H8 B( v* M" i- d这功能很赞呀
    # F3 Y7 d" U3 k2 n
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:134 k8 j/ S; a3 E. ?: }- D! K
    有没有上传整本书试试
    $ h0 }+ v, p( U* P4 g
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    + X9 |' t: F9 s# T: I7 |% T
    * x8 B2 }" C/ [8 q0 d, T% M以后让deepseek 读出土的竹简
    ( f5 R8 [, K' @. q7 B7 Z
    & m9 `" \$ ]1 l- d8 O) z5 ?还有把古文翻译成现代白话8 N( z/ y  K- C1 z) H0 @- ~$ g  y
    6 R# O$ j0 C# H2 X
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    15 小时前
  • 签到天数: 2928 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    0 v: Q9 Y; A1 n+ d/ p9 F" A2 s# p: z; k8 x/ |9 U. l4 M$ B, W- \* y
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
      W( Y# ~  y* `请教是如何实现的?  X& t2 G. M) H. {4 ?/ b
    ( s% u. X" `9 ?+ E) s3 v9 I8 b! |
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    4 S7 x) U  T; t" }, p3 V
    % J3 G" n; s. z1 o, l" s我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。$ a$ y% @# W; F  \
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。( L+ z7 d1 O, m) }
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。; G4 X  Z( n8 m4 M, M

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    1 }" j9 a  j# b请教是如何实现的?
    & b4 x/ |! L& t2 }5 E' O
    & u" K8 Q+ \+ o8 [  h我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : C0 B2 z7 r/ j4 l( o7 f2 j$ ?' U
    https://chat.qwenlm.ai/
    * _+ o# T# ~7 q6 j5 D试一下千问,估计美国人没有攻击他,所以资源敞开用。3 J# |4 w( B* `, M, G
    很稳定,质量不错,好像最多一次处理15页。
    * g& ?6 h' }/ n3 e7 @& N我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3040 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    * N& Z, s1 b. z" e6 Z( ]处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。! c$ G! C( {& X2 N/ A% ]# j  y
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    4 K/ Q* p" u- a6 P' y: M, |3 ^! H7 @! M7 ^+ R
    https://github.com/oomol-lab/pdf-craft/ b7 [: A) D& S

    . s& P! V5 ^& D/ q+ b1. 这个工具要求装 python3.10: {0 b5 N) D8 L
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0' n" Y; n9 b" E
    3. pip install pdf-craft7 w" R. g- |$ e& O) p
    4. 把下面的内容写到一个文件里,例如 a.py& I" @# ^! t- `

    9 y7 D9 F; m6 Y+ A4 {
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter9 c7 t6 N: Y% T- Z

    2. , C" C; u0 ?/ Q* `% t1 a2 m
    3. extractor = PDFPageExtractor(5 ]# s" J! q1 o1 J7 g) S
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      * d4 }& y8 L1 w5 u. Z" W
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed" D; y" V2 q8 T
    6. ): @2 e" J" O) P" `5 G) X7 l
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:, v: I, z* h( F. }9 f
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):- x% D3 X' g% u- p; \: p" C4 j
    9.     md.write(block)
    复制代码

    8 {  O" h4 b6 `! D. \4 H8 `  s1 U6 U) t3 u4 {" b- `$ S
    要修改的内容:
    " X) f2 g+ h0 d* a* s4 ]4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    : g: m! r* T9 Y# W( N4.2 markdown_path:输出的 markdown 路径文件名* Q  G) y/ }5 {2 j0 N3 P( ~$ u
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    - G0 @$ `/ V0 S. A1 q) t1 `& K( g% H8 W7 R* s; }
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
      X7 i% U  U. e6 `% `7 t6 r0 [: w* O$ |* g
    目前为止PDF转纯文字的最佳办法。
    1 a9 S! y* Y- a: p0 H先写个小程序,把PDF按章节切成小的PDF。& \( h- p0 C. z* G# d& [
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。2 U  k" a. t! u" r/ m* H/ {! j
    效果非常好。
    2 N+ I0 ?6 x0 H( i& E* x! ]* u# i# G1 p/ d
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    6 d# r  U% m* q+ Q3 D7 u- K2 [8 ?6 p. ?6 L$ J% D0 S% Y. i
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。' L  [% o& x# ^1 L6 f
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。$ @# H" \& K+ D5 R2 Q. Z- n- C
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。3 G$ p0 @' s- X8 c  Z& ?
    3 }  V$ h, g+ c6 r7 N
    API到目前为止,差强人意,不如网页版本修得干净。1 I+ b- j; R* R' }9 p4 K' u

    & n7 n! w/ Y/ L9 jdeepseek可以同时开四个。; I) Z2 x7 C; N7 x

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    % R# T3 z1 X( V9 n9 L/ g7 c; [2 V4 f/ J' L  e- ?; Y6 E$ W  R
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    6 M+ B" w5 u7 E+ P让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    6 j/ c* w- g0 G' C. i# z5 D
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    * B- T; i* t% f! j细说一下,听上去很不错,多谢。
    5 [2 }7 U2 L0 _$ g1 q
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    5 h3 J+ `: M) R& P7 L7 O4 a! G3 ?- k/ p5 A+ n) d$ ~0 c( ?  l
    已经搞定.4 z$ x2 }8 G9 _) C- b$ Q1 N

    . [$ H! ]: g$ B6 J6 z7 ~$ f4 Z' U首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    , e# h5 s/ ~' H. T
    , p2 T; H& O1 H0 V' S# |5 ?3 Q  |1, python + pypdf 按章节拆分小的PDF# j- |7 C: c. }! }) W, \
    # w6 x- r0 n* u  s5 T7 t1 X
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    3 f/ H% o- u" Q. Y9 k
    6 Z1 }9 S5 {8 X+ M( u得到text file
    . c3 C& H+ N. K8 [- N3 Q& _* `! b, J$ ?% Y( D! e, O
    3, python 读取整个outputfile,丢给deepseek 矫正。
    2 P& J' }  B: j( |9 S: J# b: ~5 N2 B: G; z1 d
    模型是 deepseek-chat4 {1 G% ]4 M; P

    6 R7 p4 S0 l7 H3 J  X+ e( K' Zmax_tokens 最大是 8192,别的不用改。. |3 @3 X& v+ x8 ^9 P9 K
    1 f! [- I! V' v6 q/ H  ?2 J8 m3 T
    参考:
    0 A& V# X! m- z0 T8 q+ ohttps://api-docs.deepseek.com/api/create-chat-completion5 ^3 ]( P7 u' X* I
    . |/ \& K  |4 \# j
    4,费用:( c2 B5 |+ `" j+ ~% o
    ! E, S( O  O/ s0 p
    实测:2 E$ A3 h* Z+ }- p! @

    ( X/ _- y& b' @% S8 v5 \; s296K 字母,用了 9 美分。
    + o$ n4 r! \* c& A4 u9 M! j; }* P! N
    英文字母 到 token 用量大约 1/3
    - p0 r, _) }2 [' O8 l9 Z1 f1 a6 e
    ! G! ?% _9 c1 r3 a& i, Xtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899. x9 y) v3 S+ q0 j5 A4 q( t

    8 L/ @2 P2 b* P  s# e32899 个字母花费 11782 tokens,包含输入输出的 tokens
    7 x$ }. j+ P1 C; s7 {: [4 g9 Y* o, ?8 _. u' j
    价钱,非常非常便宜了。- U( Q' A7 F9 a+ a

    " R1 f% Z- M. @" m( m9 U参考如下可以计算,懒得算了。
    4 x6 h" S1 M+ b2 V8 P) g: F5 l4 f2 }6 T8 F: s+ }
    https://api-docs.deepseek.com/quick_start/pricing
    - i6 _5 n# c8 W8 Y: t
    + |  E& Z- }" q5 A! A* i& R1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14% e; a5 T0 M$ R3 |% `9 L3 R, \
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55' L% z0 c' \: u3 N! o6 G3 A
    1M TOKENS OUTPUT(5)                                              $1.10                $2.199 N( P, V: S- {1 e# u$ n

    ) X, o0 _/ q% @5, Balance
    ( f7 e& \1 C5 Q8 x% x# ]- Z! s4 t9 M8 j
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ( l' X+ x/ j! f9 a$ ]4 u参考:% k2 c1 K+ m, K# ?
    https://api-docs.deepseek.com/api/get-user-balance) c# n+ t& z7 H2 o6 ]# O8 i! R' x
    5 ?9 P( b' I" j7 t
    6, Models! T# y0 f0 r8 [* ^

      h: n6 Q; W) y0 J1 {1 U9 e. Y目前就两个
    0 x  R' W& p# \. N. }& e# deepseek-chat
      s6 [3 M4 I, q+ H* |* d# deepseek-reasoner* b" {% h0 R$ f  E
      T$ y) B/ M% E; `
    参考:  {6 e, [  Z0 [$ E3 x2 A! v' i5 L
    https://api-docs.deepseek.com/api/list-models
    ; g/ C1 B( ?( @' X7 ]0 y+ J9 l4 a4 Z
    2 z9 r3 S' k/ _3 S0 I0 r
    7, 问题. ?5 @  A2 q& S. o4 G4 C* l3 [

    . U8 C, z7 n5 `$ |: q# Udeepseek 会将前后两段合成一段。
    : ]9 o4 r" A( ]7 g3 u; g特别是那种大量的对话的段落,deepseek会给你合成一大段。, x0 b" f  B# z. I* ]$ ], _

    & G3 T- ^4 V; ^- b8, 钱说了算。
    6 s; l$ s, b+ S& a1 d3 H1 n8 f7 Y. p+ [; b
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    1 L+ S4 }& A8 _% N2 l- |但是API就不会出现这种情况,毕竟我们给钱了。
    , m  j: E; r/ V1 J( Wchatgpt也是这样的。0 [; `& I/ v9 S7 F# ^

    6 M" e# q7 \& Z/ P9 G: o! x; R+ F
    . r: M: @/ s- v- ^* a& S

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-27 16:09 , Processed in 0.074656 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表