设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2960|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
) [$ Q8 s. b7 u" a  q5 i. M( _/ M0 }5 f' U0 B% n5 \9 G
把PDF上传,然后让他抓取文字,并修改可能的错误。
7 U) r9 D  R. d& ]然后deepseek完美的完成了任务。
: E7 B+ C! f0 k1 U$ }段落清楚,列清楚,页眉页脚全部去掉。9 W& ~- p. W4 v2 T: J: j
我要疯掉了!
! c5 w; }. P, D( T8 W; _赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
2 t& L& p. w( k. r1 h) w0 ~1 x====4 ]: B6 \# e0 a  D% R4 W/ Z* r
中文也很完美。. R3 _- t5 N0 D2 P1 _* i9 G/ r
经验值,每次十页比较稳定。& }4 S. Q4 d: }: u
现在我这里API还不能用,等恢复了,全自动了。
' P" c2 k  q6 {" C, X* U====
9 S, {+ v& a; b2 `! d第二次疯掉了!
( k" M4 Q; g" e9 P我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
- l/ q/ A6 P. {: F7 X% f( X====  w% p( ?6 F" |; g' }( z4 p
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
0 T' D) h  v' A但是任务多了后,每次翻译的页面数是减少的。
# E0 E! [" \  @. z好吧,我五体投地,继续探索。# S% Q3 B0 g* a6 m  y0 j
====0 _1 r8 a& p9 l7 [. J0 e8 [
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
- Y! t/ ^- T! |) D! g4 A====4 f3 M+ ]) l3 |1 g" F* q2 O
好吧,有些东西是不给翻译的,哈哈。. G" ?0 p8 K; q  l2 p

2 i; u1 u7 q! fSorry, that's beyond my current scope. Let’s talk about something else./ o! A; o! t8 Z" N
====/ T$ |8 O- d4 u- a5 h& h! z
然后我的英文命令也让deepseek 帮我修改,呵呵。" z, m& n: i$ Y' h1 D/ g* j
====7 U% f8 w+ t; m
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。/ [( S) e! E2 o# j9 E
====4 w; p4 P" V' J6 [
时间段的话,北京时间的下午和晚上用比较好。# U; G7 j. Z& \$ r1 O& |. v& \/ B- ^
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
! c  H2 k. q. g/ t' [, l' w====
" {3 c0 D1 ]' r) c用千问吧,非常稳定,非常强大。
8 G: b3 {8 d- Z+ I' K- b. khttps://chat.qwenlm.ai/
5 X, E3 l: W- m% r; x; z; ^====+ \! h. T+ J5 y: A
Deepseek,API 看上去可用了,但是不给充钱。
' _: [$ t% T8 W/ s+ c: T! |
7 B0 t9 n+ A) h  A
$ g- v( ~+ p' D
! y9 j% a) s5 q9 B& e0 b8 I! i. D# `) n

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    5 L9 v& d7 U9 y: d这功能很赞呀

    5 ]6 c+ G* l, V' @6 V" F简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    5 y2 J. F  d7 O* t, [( e有没有上传整本书试试
    : z, ?* e2 k$ \8 P4 R. u
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ! R7 M4 Z& i' {; ~" H
    , L) v5 W8 ~) c& g- W以后让deepseek 读出土的竹简
    ! v) n" \# A" A! Q6 j" p) ?. [$ ^5 g% v; B) h9 k
    还有把古文翻译成现代白话
    * `) a! |4 X2 f" X
    $ h! m2 r; S4 d' `7 j以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 2928 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    : _% h3 t; q+ t$ ^+ |% \2 f4 I6 s0 H7 t& ]' L, K
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    : V! ^& M7 b. ^2 z4 `5 }+ f请教是如何实现的?& x- K& r* I. h3 r$ g
    $ S9 V+ C# H( \% Q% M& M, H& W% G5 [
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ' B  s, H1 |' p4 M1 n& p" O2 J: Z' e, r( k+ }
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。% h* C) p+ A2 J2 X2 n: t
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    . ~0 P* A" F! S: g4 K' t! j美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    2 S3 ~$ V: W4 t, R3 M

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:230 O/ _) ^1 Z& |, _% L& @: [' a
    请教是如何实现的?; f, m! K) X2 v0 N2 K  |
      _# f. @" j, Z8 Y
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / c9 K. G4 `1 a0 C" o% C8 Q
    https://chat.qwenlm.ai/* ?% n3 f9 |& A. H3 ^
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    " K0 V. c- L3 S( a很稳定,质量不错,好像最多一次处理15页。
    $ b9 e1 s: ]- U  u$ T我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3040 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
      r% c9 B# l, u5 x处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    , K5 r$ t' L1 t; ^6 u7 D这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    # s; K' \( i; k# t" d3 e  {$ }
    / b5 `/ Q: @; w- b" Lhttps://github.com/oomol-lab/pdf-craft
    4 Y. h' W' c/ b7 N+ v1 x- i9 o6 b' b1 W8 }
    1. 这个工具要求装 python3.10
    $ u" n8 b% ^* E4 k5 O2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0; K" t1 f$ Y# y
    3. pip install pdf-craft9 p& j, Y0 A0 y9 n0 z
    4. 把下面的内容写到一个文件里,例如 a.py5 f1 R3 B. W! ~% m: e2 d$ z8 l" ?

    5 m& T. }: i# R; ?/ U" O
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      - ^3 ~! v* _% ~
    2. 3 E' B, [0 n$ n' ^$ @, l' t
    3. extractor = PDFPageExtractor(. A) ~6 P! I- j; `4 w& t
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.  F! W- _5 F( W0 e8 I( C
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ' ?3 Z& r5 m8 _; H3 M
    6. )
      1 y5 w+ p5 u1 _7 ?. B2 ?) J
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:+ G$ z: ]3 q9 {& y6 e0 B2 h
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      # ], Z% U. Q0 o2 g* q
    9.     md.write(block)
    复制代码

    $ M! K3 z" m! f" a8 t* k
    8 J! V6 _4 Y. C; x3 q( _0 l# a要修改的内容:3 v1 W6 F. M8 \7 N2 N! ]+ |& a% V
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ( t3 i7 ~, ?2 p5 r% z6 _) z4 A4.2 markdown_path:输出的 markdown 路径文件名
    ) ^6 M! L) `$ o+ K2 X2 C4.3 /path/to/pdf/file: 输入的源PDF路径文件名. B* i8 |; h4 q+ z+ s9 J- Z! a
    / a) ~* _% O1 d5 r) V9 a4 e
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    5 @1 b) j  v7 [6 z% @
    1 a9 _; U& r! e, k, U/ f! F% o" g目前为止PDF转纯文字的最佳办法。
    & n* \$ B$ v8 W$ [, b* f( I! \先写个小程序,把PDF按章节切成小的PDF。% h4 U* V8 H; n! z  V' W
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。0 s0 o  x7 I! ?7 O" }0 W
    效果非常好。# c  z; K# H$ B+ m* Q2 u$ x
    9 u0 S2 T: b* G/ D3 x* ~1 U
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    7 v7 ^. m2 n, ]; y% l
    ! k8 \9 ~/ K6 u* `; i/ rdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    . e- O/ v+ d% E$ p( Y5 U而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。/ T5 D3 e6 h" c6 {
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。7 {( U- ]3 \: ^, R3 \+ U+ i0 D( r

    ( ^+ ^$ }: [; f% }: F) BAPI到目前为止,差强人意,不如网页版本修得干净。
    ) R* d2 ?$ V" r: K! `- z" h. W4 o+ u! ^2 R! K3 z7 Y
    deepseek可以同时开四个。
    ; c# i+ T) g$ d  c/ M: ]# p

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 " T! T, c, N. m8 B+ h* C( o
    . F& I% Q$ k0 w' u( Q/ q* k" [
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26* F  O  }1 \- r; z* D
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    + d, @( S# k5 _3 u  c3 J- b细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33+ T+ n+ m' k+ `  e
    细说一下,听上去很不错,多谢。

    4 w3 P- V/ u8 c( H直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑   G% c$ T+ j6 W3 c9 T" d9 ?+ }; N; @

    3 o$ f" p+ W8 ^) T1 @2 j3 g; _1 {# G已经搞定.
    ' h, a; O; K% I" f3 O- \8 X+ G3 k$ a  g* P+ G/ j
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 J3 T) c: R4 i" e) W: ^: m$ C
    + E9 y* q( p; w1 N+ k: i
    1, python + pypdf 按章节拆分小的PDF$ d1 ]! }- `5 ^

    # l) R/ a* F! @! t( H2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile2 Q$ V: M% ~3 \

    2 L  Y% r- m; u5 @* }9 J" V得到text file
    1 j& K. q8 W5 ?2 @/ {
    7 ~5 Z, `3 z$ u7 x2 b3, python 读取整个outputfile,丢给deepseek 矫正。; ~! M: W" E/ G4 C' K# Q. _

    / X* W6 o- E' {模型是 deepseek-chat
    1 k: v- M; K" N# J% q3 x: B; g2 t, d
    max_tokens 最大是 8192,别的不用改。" ]4 B" L! U6 u! B% e' B8 u

    ' L8 m0 \! Y. R. d! \  E参考:
    , \4 p" \# {( _3 D# M7 Hhttps://api-docs.deepseek.com/api/create-chat-completion
    . n; b0 W) ?4 a8 d0 u6 p9 [) {! T: K  z' b7 K, h
    4,费用:
      c  O3 G7 q; P9 c/ x% I& W
    ! z% D: z% L9 C  h+ y! l% X" C实测:7 M4 S5 G" w2 D! F3 r6 J3 l

    2 e6 \" y, ]: L4 y' N* b296K 字母,用了 9 美分。  \6 ]0 @; @$ G
    9 @% o) l; h* w) g: ?
    英文字母 到 token 用量大约 1/3
    0 N6 f/ u% A) s, t  c
    1 t6 r5 z6 w- Ntokens: total, 11782 completion,  3729 prompt,  8053 | s:  328996 c; ^4 @6 d! c: \7 @
    : a2 V# k8 A6 Z: u
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    + l2 w5 E: X/ h0 q9 Y6 \) n- h' z# f% Y/ r
    价钱,非常非常便宜了。) W2 w; f1 \: V7 d8 G0 E  b  U
    ! l% I3 ?$ f1 M$ ?  k: B
    参考如下可以计算,懒得算了。
    3 |# E' d- N9 `5 J, u$ K- e3 m/ F
    6 q; X8 |; N& B9 r2 _5 g4 G# chttps://api-docs.deepseek.com/quick_start/pricing
    ' s9 u5 V; S8 B2 I# H5 u
    5 z+ S* D4 B/ A1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14- {. O( A- ~0 t' I7 e
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ( O* f" Q, S6 j/ L/ |' n1M TOKENS OUTPUT(5)                                              $1.10                $2.194 z* V  B2 D& I

    $ w4 j/ g& A$ T! h0 h0 J  c5, Balance3 Y8 K9 z- U2 l( X( o0 _
      S$ v( Y7 s( V2 u9 }4 p& U2 `3 e
    可以在程序里调用,知道每次运行结束后,balance还剩多少。( X; n9 ]2 F% J2 c
    参考:, J- J! q. d0 c
    https://api-docs.deepseek.com/api/get-user-balance
    : y: q3 I" {- }7 ?& a8 S* ?7 K) e: D: |( q
    6, Models5 O' Q: o/ L7 i- R( U

    1 Q* M- P9 r( I& v, a目前就两个
    # \" a9 b$ }5 o: |& \1 M' Z% Z" i# deepseek-chat
    $ @+ S7 i! g- r: ~$ ?+ K, z# deepseek-reasoner
    " W( G/ s+ s  R8 s. v0 {! F0 m, H7 n* E/ ]; m( x$ G! D5 M
    参考:, |+ @7 j9 R1 U' l
    https://api-docs.deepseek.com/api/list-models
    + g9 r8 ^; H) H/ S2 z1 J' O( z/ P2 G7 X1 X8 ?' ^) E8 f

    8 Y* w* o' H( ~7, 问题
    % E0 D0 d, @* x* z8 i0 G! A/ n6 v. y% R8 E5 {8 J% b
    deepseek 会将前后两段合成一段。  X# y, z) Y! j, \6 O
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    8 G! W6 P8 A2 c4 J; q
    7 S% p- {  G6 ?, I8 `8 Q$ e8, 钱说了算。
    ; s( v$ t1 R( g# t8 e9 V  |; Z. u
    ( T/ S5 j$ h5 _/ r, O+ n, ], m" f+ w" Ydeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : {! X! I" f9 q& Q' k) _3 ~但是API就不会出现这种情况,毕竟我们给钱了。
    5 p' }1 v3 B  wchatgpt也是这样的。
    1 G& J  O9 ?# {1 B
    8 K% I5 X9 g: a0 m7 E2 D/ F8 O
    2 N  W+ }( Q) {+ ]/ u7 W8 r. \. Q) ~# a

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-27 09:24 , Processed in 0.069793 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表