设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1357|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ( z9 _  j2 y0 P, p! v% W  U
8 G, i  M8 e0 U/ }; _! _: ~
把PDF上传,然后让他抓取文字,并修改可能的错误。% m' Q' c! s! H' H; r. G! O
然后deepseek完美的完成了任务。
7 r) k% M; a) X9 u段落清楚,列清楚,页眉页脚全部去掉。) ?- t/ q' Z6 o: e2 G. b
我要疯掉了!5 v  J2 i! m. ~# y* f5 u
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!* [& O2 H/ f/ ?# `6 R. Y
====
: P( \" ^) c8 R9 J, J+ x1 e中文也很完美。4 {: ]. e7 o- N6 D6 E
经验值,每次十页比较稳定。
/ \- {/ m. I' U" ^7 l  [现在我这里API还不能用,等恢复了,全自动了。
: d0 W: h9 M' J8 K. r, i$ F  q====
. |4 L" J3 V! m( I第二次疯掉了!3 g# j3 {& Q+ k9 P, W
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
7 }& w! ]7 k& h1 ^. E% E2 M, ^====! M4 x5 u2 h- s6 ^
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
- @  C" G- _: m( Q4 b但是任务多了后,每次翻译的页面数是减少的。8 B$ c/ m! A3 f& L0 h- H. b: R
好吧,我五体投地,继续探索。
0 d8 P, _- B0 D8 N; ~: I====
  ~- y. _5 x& }为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
) x6 R) R; q, M, ~/ G1 l====% c7 S; H( U& D$ A, p
好吧,有些东西是不给翻译的,哈哈。
' K0 Z0 G3 M# {; z. @. X
* T! `) j, Q& z; I! K/ c, m6 USorry, that's beyond my current scope. Let’s talk about something else.
7 v2 X8 y% W4 D+ L====0 ?- ?: G1 Y3 o0 j1 O
然后我的英文命令也让deepseek 帮我修改,呵呵。$ j( w, e8 @. U( C) C! e
====
9 o$ l+ ^/ V0 J- E0 v, ^日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
( Z# \) g9 N9 t" Y1 W====+ L* }8 o6 ]0 B' I$ \" v
时间段的话,北京时间的下午和晚上用比较好。1 J; E5 {# v9 s" e2 W$ i# U
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。# }8 Y6 e/ o2 M
====
8 y) [* O7 U$ N  t  T+ o9 F+ f1 W/ H% X用千问吧,非常稳定,非常强大。
/ ]# W! M- n+ y# F2 \https://chat.qwenlm.ai/# b% z  V1 u0 H6 C6 E! Y6 z
====7 Z2 M. Y0 g# \3 E2 d
Deepseek,API 看上去可用了,但是不给充钱。
& ?6 C& E7 \3 P+ Z( _' y
8 `7 d% J5 K0 M" B, w$ o+ N$ \9 B  S8 B7 w0 i6 a3 F5 z
( }( B2 b# R7 C

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3470 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53# l, o- K( q( u. Z  W1 l
    这功能很赞呀
    0 m* \! x, G0 L2 |
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    5 R& v1 z& p/ x( j/ Z+ Y8 ?: c1 e有没有上传整本书试试

    ; C0 D# D  j& @3 B( \7 b目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3470 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 , K% z5 k2 D7 I  ~5 s- @5 s

    ) }+ w8 y8 X9 y: v/ ?5 i1 [以后让deepseek 读出土的竹简
    9 U0 n0 `% p/ Z1 O: }* x. h+ n7 M0 n; `0 q- ^# ^! q* e1 ]; x- T
    还有把古文翻译成现代白话' |  p6 @3 Y. P  A1 S4 ?6 i, _
    ( F6 U9 M" C$ H9 P5 h" A9 ~
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:09
  • 签到天数: 2620 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ; r/ q3 f2 L* K3 L% v/ t0 O+ B+ X6 L6 d
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23. s8 y- l+ M. G1 u" M5 k
    请教是如何实现的?/ O  [; |6 \! \

    0 b$ g. C4 [% K( A- ]$ O" a我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ) Z3 s. z" {! ~9 w$ X
    ' |2 ~- o7 x% A% E3 h& |4 z4 `我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    6 O: ?* A) p$ I, W- {2 F5 a0 l文字之类的没问题。估计deepseek现在暂时只保证主要功能。. z; |. @1 @" _! N
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ) O% A2 Q, [- b: c" e4 J3 G

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    3 R( t# s& c) A4 n8 u, n. m请教是如何实现的?7 a: I& Q( W% p: w
      }2 f6 A" V4 Q
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    4 j& n, b  _0 J7 V9 Shttps://chat.qwenlm.ai/
    " U0 J( P6 \8 ]/ {$ A试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ' j  }* h6 L3 P+ u( u! R, U很稳定,质量不错,好像最多一次处理15页。) y' k. V7 m( @% @
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 2762 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。  q; [9 P7 O% j2 \. m6 h9 j4 K, |
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。- ^* c* g5 N+ j& t6 R2 Y
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    * {: t& |5 |, u) c, v$ \3 ~" `6 u. k; t- X) Y: R
    https://github.com/oomol-lab/pdf-craft
    ) \$ d0 b8 I/ C$ X. R8 f; ?" _! t- T, D" _4 \
    1. 这个工具要求装 python3.10, X, [  O3 d+ Z2 S
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    - n' V4 s) J8 \( l' I7 x( e( m3. pip install pdf-craft
    8 Z' [1 d1 t; Y  k2 o/ W6 ?( a1 }4. 把下面的内容写到一个文件里,例如 a.py. s0 V, e6 l( A4 |; o3 P
    2 }; u% C$ U9 _
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter: c! H1 H, u2 ~5 L* A8 n& V
    2. : g1 Y9 T( [9 G0 u! J
    3. extractor = PDFPageExtractor(
      4 z0 d1 @  n( U# @9 p
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.! N4 J; D4 [' i: Q1 ^% I0 m% k
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      1 o2 P: S, k  N, `% f! d
    6. )
      3 F1 r9 }8 J9 `  x% X. p
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:( @8 d4 \# o% g: N3 z
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):9 p; Z/ V$ m: ?  _: ^
    9.     md.write(block)
    复制代码

    & C' h* L8 t0 M5 w4 C9 l" h8 C7 {
    ( w5 B* V! Z4 `; G要修改的内容:% K( k% W1 E( q& f
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    " W0 K9 a+ j6 U/ W4.2 markdown_path:输出的 markdown 路径文件名
    & h, U; _& x/ f- y4.3 /path/to/pdf/file: 输入的源PDF路径文件名
      S  b# n9 ]+ {" r. V0 p" h- P# Q: `, \. U* _% o# ^+ L9 o" S( v  i
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    - S4 I9 ?" N6 F; t0 R6 L9 A( S9 V" T
    目前为止PDF转纯文字的最佳办法。& v* A' Q; @% b% |5 ]9 ]+ H& E
    先写个小程序,把PDF按章节切成小的PDF。
    8 E4 j! [+ e  N  k然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    . o$ J4 k2 g" Y# N1 Z效果非常好。
    % Q/ {3 y" E  Q2 @( V8 d" D
    ; ^" w/ O" n0 I# \0 V: ideepseek,qwen,chatgpt 三个,deepseek是最好的。
    $ i" g. A: G" r0 U, r# D2 ^. a$ L4 C. u, Y" _; P* t( p
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。" ~* A: |8 r7 _5 J6 k  m  e
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。: Z" C, s8 d" H- g3 Q! A
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    - ?$ X; w* {' H( T) S. v5 O3 t$ \, }  R$ E; y+ R
    API到目前为止,差强人意,不如网页版本修得干净。
    9 C# H* ^& ?7 c# }0 D
    ) X+ L& ^9 `" u: Pdeepseek可以同时开四个。7 E0 g: N6 Z8 d4 u: E

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ' Q( j3 e) l: `( A7 l& l! `

    3 X; w1 _/ r6 Y, o5 `# J让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    . ^/ U9 E& q. h; W7 C+ {- K" C8 ]0 L让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    : ?# @" r) h& \) P7 f, t+ D细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33( k4 {. X; e2 Q2 Y
    细说一下,听上去很不错,多谢。

    ' T: t* Z' c; Z* ?) K3 c直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 # U5 \7 U  C. U6 \# e$ a7 L6 T+ c
      j; \2 u9 k  A! Z2 W" ^
    已经搞定.. O) m" H6 G0 p+ p
    $ s! ]) t3 U  [2 f
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ) W  O! D$ @0 A% A- M$ S: I' r9 ], z" N. `$ w# v
    1, python + pypdf 按章节拆分小的PDF
    1 W5 c/ B7 V1 B, F  G6 H* G% b: I) B
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ! m# ?5 g8 c1 t) J, c8 k' W9 U) O8 t5 V2 [; T
    得到text file
    # z3 Q) ?, e. t3 }) p% q; o1 ], F# g0 a: D$ }, b
    3, python 读取整个outputfile,丢给deepseek 矫正。
    6 }1 o5 x5 \& A1 p& e" j; |  M+ x0 D
    6 f: a! L. I$ Y! |6 P2 k模型是 deepseek-chat
    3 L  D4 L8 q  i, H- I
    3 L- D; @6 N0 R' b) w" [$ ?max_tokens 最大是 8192,别的不用改。- \# L% K# Q/ T- a/ G

    / R' E) U  |: x; w参考:. j- D5 X: O4 C% p3 Z: `
    https://api-docs.deepseek.com/api/create-chat-completion' U$ b$ ]9 v9 H
    ' F$ f( s' G7 ^, d+ F
    4,费用:' d; V- R2 u% N  ~6 O- E

    * Z8 s5 ]5 t( }* G实测:) g- C* ^! J! g8 k) e
    " M) j$ t: T0 d% R& M: V
    296K 字母,用了 9 美分。
      d& Z2 E7 B0 A* e. k- s$ L& u
    9 w- ~4 ~3 }5 I  v1 V1 h. y英文字母 到 token 用量大约 1/36 P" T* ]! N8 B2 j$ w2 C

    # Y; e% ~; ?9 n& a$ P4 U, K$ w4 |tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    4 ^" ?( G+ z6 [# t
    # E5 F9 i8 l; g# q% g# b32899 个字母花费 11782 tokens,包含输入输出的 tokens
    , `8 S3 f) E; m& K! ?! Z# ?- A: ]: S8 u: [" Y
    价钱,非常非常便宜了。9 X3 U- k+ r: X3 W/ R, a% M

    & v, |1 }9 F% E: _9 \: _) w; ^* h参考如下可以计算,懒得算了。
    / K8 O, H7 o- t0 q. w* z
      p' T7 W# c& o+ [6 m- Qhttps://api-docs.deepseek.com/quick_start/pricing. G8 f+ `/ j3 Y. d0 v, j6 |( W

    ' \; e6 ^$ m" d% c3 f8 a( @1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14* @* a" [0 {% p0 `0 G, Z. k3 }8 v
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55, a) {, o7 z& t5 Z: W6 l4 s4 z
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19  ^" P2 o6 a+ [  f( A7 h+ J
    # H  v/ T- U& H8 S
    5, Balance
    , F* C  I# W6 c% H3 z; o" r
    3 W. O. L+ i( C% Y( b可以在程序里调用,知道每次运行结束后,balance还剩多少。
    . g/ k- O$ ]% j: r& R& B/ O参考:* `" \2 ^1 @" X2 `2 K- H8 I+ R2 q$ a
    https://api-docs.deepseek.com/api/get-user-balance+ y) s  \9 z  c
    : m5 O" y2 A1 n# G1 w' v
    6, Models
    : Y5 _( v8 @8 h3 {0 E  |  |. n; b+ b2 \" a# m
    目前就两个" j* B" `* E4 r
    # deepseek-chat
    7 W6 _, M' s. k) |; E: k# deepseek-reasoner8 V8 c0 F: X$ `& E9 [

    1 Z9 Z, s2 l# _/ U  G参考:
    0 N# ?: ?# ?) z3 d7 Bhttps://api-docs.deepseek.com/api/list-models2 z& L# L! A8 c8 Q
    & n5 p2 }; X0 |3 u
    + V) [; @, Z7 p+ E7 z
    7, 问题
    3 L. Y* |: L5 j6 b, X2 m1 r, w+ d! |4 G) u( S4 V
    deepseek 会将前后两段合成一段。
    / {( G& p% i4 k' ]5 X4 N, ?  T特别是那种大量的对话的段落,deepseek会给你合成一大段。' J. y4 O$ c2 i" Y  h
    ; t7 T% r3 R6 A3 l5 w
    8, 钱说了算。
    6 ~1 f. \" l7 l/ _: F% b/ N) k' E& e1 T# s% c. M; [
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。0 w4 U  ]/ C+ V8 `" a0 o. {  a) G
    但是API就不会出现这种情况,毕竟我们给钱了。: J& X4 d' l, Y1 m, x" E! F
    chatgpt也是这样的。
    % c7 ~; q! Y% c# ~& V3 m& H
    1 F4 N  m/ e/ @8 L& Y! |$ n
    ( w: u4 ]$ z, V& L4 I( f& X" F+ w# N

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-6-4 02:33 , Processed in 0.041349 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表