设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1575|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
) V, p& f) Y2 Y
/ K1 t, `  v$ n' W  O* b' I把PDF上传,然后让他抓取文字,并修改可能的错误。+ I- _) ~# R7 P6 }+ d
然后deepseek完美的完成了任务。
3 |; n6 G' L) d" ?段落清楚,列清楚,页眉页脚全部去掉。
: l7 u% @# q/ L( o: C7 M& ^我要疯掉了!
( X1 |+ `3 t( A3 l. g# }$ \6 I* |. u4 X赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
$ w. P1 W7 r' O====
( T& A: Z  `8 T% H; S" c中文也很完美。
1 G9 [4 s3 L: m& k  I; \经验值,每次十页比较稳定。
' Y  L4 t0 s0 g9 ]0 L: y1 g现在我这里API还不能用,等恢复了,全自动了。
- ]7 g0 I' C( A====
8 B# a, m/ K* N2 y第二次疯掉了!; K3 d1 _3 @$ @* _4 Z
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。; c$ D) ?0 r; o+ ]5 p
====
: ]: n) \, B, [9 t9 B4 O6 Q现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
1 h6 b) Q; G* i3 n( V) X但是任务多了后,每次翻译的页面数是减少的。
& y2 g; h6 C# z6 f9 P4 A好吧,我五体投地,继续探索。. C$ P7 v* E+ i5 [$ f
====
+ m% L$ C( u/ F1 D- q. i$ X: a为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
' R' n* b3 w. u4 ]- `====3 t3 O( ]& ?8 g! ]- T7 d
好吧,有些东西是不给翻译的,哈哈。, Q- X" a1 b: p: e+ O& |+ l
' ~1 p4 z% q  f4 y
Sorry, that's beyond my current scope. Let’s talk about something else.
6 Z' ]# |7 u5 _; y0 U( _- N====
" e7 z  s- L+ n4 N+ g/ T然后我的英文命令也让deepseek 帮我修改,呵呵。+ Q$ e3 t. ]+ M
====" ^- t! `. w; O( s7 L& n& `4 T
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
3 t0 Q  m8 V# M====# D2 w$ l  f& {* H9 v
时间段的话,北京时间的下午和晚上用比较好。( f; W, o0 [5 G( o1 W, m' H, d
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
! u; F* R4 v3 W2 l! e====- i4 k' P6 |: e1 A) u! f
用千问吧,非常稳定,非常强大。
5 Q$ U$ D( h$ y4 U+ ^1 rhttps://chat.qwenlm.ai/$ y3 F5 G6 W. L) O
====
; o6 `6 L/ _1 V- w: l# h7 S) }Deepseek,API 看上去可用了,但是不给充钱。2 J* |3 I0 N/ z# T
+ P1 x) K9 Z/ a$ o9 U. r

4 P2 _* ~4 x* c9 V4 @! ?2 L0 e4 K
+ L. d6 V4 u* B6 j

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3499 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ! A- m& G* }6 d7 e( x% ~7 O这功能很赞呀
      u9 }: M6 v8 [8 D+ |- C1 F% _
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13$ s: D; P9 V: v1 \. j) D- O
    有没有上传整本书试试
    2 O. Q. H' |( r( m6 t$ y6 V3 D
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3499 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ! E6 `3 M2 X, S6 B/ b% u5 c& J) E1 o3 p9 @5 Q% W
    以后让deepseek 读出土的竹简3 z% b) J1 ^* z4 _$ s5 A$ e
    3 m7 ~3 [- Q; _. }- |1 _# ]
    还有把古文翻译成现代白话
    & k7 _* j8 g% d; {7 N- B: D9 o; s" p* @! B  J4 @, @9 K0 K
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    1 小时前
  • 签到天数: 2650 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ! n! A7 ?- F  Q% g) r1 H& X/ {9 M) z, p5 X9 F' ?8 j  X  V
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
      G- u4 _: x0 `* G8 N  F请教是如何实现的?" ?( }/ Z+ `2 I# _
    # N* E" u% }8 I
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
      c. a2 b5 r/ s. N6 Y

    ' O' v5 g: i* I/ ~, @我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。6 V8 w% D3 `; b
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。1 X, n  Z: U8 S. X. k% }: ~
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。+ L2 a4 x* |* A$ }# B1 n

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    , m' m: @5 t" g3 n" ~请教是如何实现的?
    ( M4 K6 D) c. o3 B  n9 F
    9 W( l) |/ T9 M我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    * \, Y( `2 M& @  ^. [; w' G$ b5 h
    https://chat.qwenlm.ai/
    8 ?  b+ n5 t& f试一下千问,估计美国人没有攻击他,所以资源敞开用。* o6 d/ T3 c! c8 H+ b. m" p
    很稳定,质量不错,好像最多一次处理15页。$ \0 x5 f# Q' g' D
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 2787 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。$ a2 G$ U% t* m: z' }2 H! r
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
      }# c1 B& }" M% q这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    2 V# B; ~3 o, E
    % W& p. L/ [: l- _" o* [. _https://github.com/oomol-lab/pdf-craft* s" k$ `3 \/ {
    - m. [9 B6 K& `- Y0 A
    1. 这个工具要求装 python3.10
    2 I  S% q8 H/ Z: ?) O! z3 w2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    : a; ^4 I  {; J1 I& s6 w3. pip install pdf-craft1 r% t; X6 S; v8 d
    4. 把下面的内容写到一个文件里,例如 a.py
    2 u+ _' k7 `8 ~' J
    # b% B5 H# Y) R4 s( H4 u
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter4 g5 `, `% n) O- g
    2. ) {% G( a% {% u2 z: r- }; o' p. W
    3. extractor = PDFPageExtractor(
      8 y! A5 I6 h) @% n- z0 w8 }- \4 d2 m
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.( B$ ^3 m" h' w+ C
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed) E0 Z% N0 Q" g% ~! @4 l* r
    6. )7 X1 t' l& B: h" w& g
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      0 n$ \# r0 _# C  i3 H
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):, X  A/ v4 N  u
    9.     md.write(block)
    复制代码
    8 @" E+ ?; E' @. c5 o( u+ e5 W
    7 k' v; y" O/ e1 n
    要修改的内容:
    ! W, L+ W4 C7 c: e" O; A* F+ W5 D4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型; Y' X4 I5 t  B% O# m' i' G  W
    4.2 markdown_path:输出的 markdown 路径文件名
    6 x! a. Q8 Z7 L- n( P8 y8 P4.3 /path/to/pdf/file: 输入的源PDF路径文件名6 e0 [3 {* |$ S7 C
    3 Y6 t3 v. a0 N; T: m% C
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 1 n1 f" h- s/ H* Q" [4 d) y

    6 a9 V& Y; ?; t目前为止PDF转纯文字的最佳办法。8 k7 K7 a% ]( G3 J
    先写个小程序,把PDF按章节切成小的PDF。9 L+ g- l( i1 I  P- L  i$ O
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    * v* k2 \. z( X5 J" k效果非常好。
    6 G+ J8 a5 x$ u# S4 X
    7 M5 @! A3 P7 {8 x4 S; ddeepseek,qwen,chatgpt 三个,deepseek是最好的。
    0 C9 |# L4 D$ {( ?9 t) y
    . F: j% v6 t2 l6 |7 E. Vdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ' c5 p3 V# a) E. m1 t: T: }6 k8 a而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    2 [, r  o$ V) k+ i2 V- f我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。$ e9 `! `$ O" @' b! L4 N
    " @* A9 t. V7 c& t
    API到目前为止,差强人意,不如网页版本修得干净。6 P: a+ W- a" \$ l- S
    ) @+ P- N  V- `1 o, b
    deepseek可以同时开四个。" ^: J; a' O6 \: s: N

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 & l5 G2 B, E+ |3 I  K

    $ h+ x* r) _" c) b/ a让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    % p$ M( y1 e$ J# J& Y3 u6 {让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    ( P( b$ V) l7 m* T3 J$ L; T6 M& J
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33: g1 K1 v/ V6 J! r+ m/ `7 ]  |: F  l
    细说一下,听上去很不错,多谢。

    $ I0 l# h* E) I- i7 p: s7 ~直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    8 Z! b7 p. k$ T/ [% Y9 O/ E5 w- ]1 }& U- R% o( E% a  O* }- o( J
    已经搞定.) C* d! z6 P+ d5 z; K
    5 g5 H# r* t5 G& V% F$ B" o6 n
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。; Y4 K% @& T  U
    + }5 v7 {# W/ I: r7 b7 K4 W
    1, python + pypdf 按章节拆分小的PDF( L4 a, m+ F0 a$ A/ @4 k/ z

    : \% |$ W* a1 s0 T6 E2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 R+ a8 ?% z1 B  r& W" A, v

    5 b) g3 m; a# R$ l得到text file- A& p9 t1 Z/ I& B

    + B* y1 h0 x1 R+ k  l! q) B3, python 读取整个outputfile,丢给deepseek 矫正。
      v* g) |( o; ]. N' u! E) L4 H2 n6 z' j% f5 T# m0 a
    模型是 deepseek-chat
    1 G  @, j! T9 z  c+ S' {
    9 E7 `! a; \8 G8 @max_tokens 最大是 8192,别的不用改。
    " u; @  l7 B# e5 n' M# S1 p' x) e+ A2 K% K% J" c% B
    参考:
    0 y0 c- |6 E7 v  ihttps://api-docs.deepseek.com/api/create-chat-completion
    ! K) S. B6 }2 M' d2 \! [/ ]0 D& v4 U# U  g! I- @& l
    4,费用:
    8 j* Y, S3 z" j& n' y) v! j  a: J& E$ a8 P5 f  N
    实测:
    * w* Z/ E6 b4 v3 t; N# v6 ?. d, ?& Q* [# c
    296K 字母,用了 9 美分。1 A, C. V, ~' B/ j2 m! Q# r

    , H# f) y/ U$ L7 d0 a: w( {英文字母 到 token 用量大约 1/3
    8 h% ^/ ?0 R$ M2 j% m* i, E
    % O7 t# c; \  ]tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899& n9 S; o% f0 `

      B% P  n$ D& q/ X8 |6 g  |6 V32899 个字母花费 11782 tokens,包含输入输出的 tokens
    : h! i! {9 W- {4 W7 H, `9 \6 ]' L/ a1 Z& I
    价钱,非常非常便宜了。1 D! Y  v- \8 c4 G2 r, d- @% g

    & b9 f8 e' A8 T) X5 `3 ^& P. C参考如下可以计算,懒得算了。% g& }" Q5 }5 `8 F8 s0 f( `7 a
    ' z  M0 |' _) Y$ a6 G5 r
    https://api-docs.deepseek.com/quick_start/pricing3 k# V1 f2 r6 B" {  `- ?

    6 d+ R& h6 `: l; A1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ) E; K: r3 v+ o6 m1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55& E" \7 n/ z" V# i! E8 P& b) P
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    1 @: g  E, E$ b5 b% S; B% t
    4 F6 V( [7 w, m8 E: `- f5, Balance
    + B/ ~, @* Y. c! N. D
    ( Q4 C) p; F  {/ f5 Z: U$ \& x可以在程序里调用,知道每次运行结束后,balance还剩多少。, {4 E8 k7 l9 h- v% V: Q7 m
    参考:
    3 ~! y+ z6 U2 e* P$ X. Mhttps://api-docs.deepseek.com/api/get-user-balance9 a1 m$ X2 U5 U3 n# U9 I

    5 W* D4 I; o+ T, k& r1 l6, Models9 a( y' ?- P( {
    : l8 x8 e( a/ {2 D( x% S
    目前就两个2 P4 @* J7 ^* a0 F
    # deepseek-chat* [. L  G* r5 a! a, X2 N
    # deepseek-reasoner
      j7 i4 l, q3 G) s# D- M0 r8 ^& A+ I+ r; M3 `$ y5 Y% @6 M
    参考:
    + g8 s, T5 d' z5 z. \2 }https://api-docs.deepseek.com/api/list-models, ~4 M; W/ K% }( j
    7 p4 D/ Y4 A; M; W- D8 o% P

    % z' s( [0 w. s( k% T7, 问题
    % W5 r# _% @3 Y. X
    % }9 e* C; o" L( ]# P$ bdeepseek 会将前后两段合成一段。- J3 D' y# q6 L1 }4 [* E5 a
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    2 E& v( h+ I- P+ v8 r2 P7 L1 q0 p' h+ ~+ j& A: V* P2 S' o
    8, 钱说了算。7 m, {5 h1 O& V" ~4 Y

    9 q: W( `: g/ D2 a$ ~, [: b& Bdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 \1 P) z1 B- B7 f5 B$ [- ^
    但是API就不会出现这种情况,毕竟我们给钱了。' g# X- }! {. G+ p7 {: x
    chatgpt也是这样的。- S7 I) t+ e: F+ z
    ; c! v. i) z  Z* e) F
    % \! K0 ^2 ]2 ^+ `9 |" Z

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-3 07:23 , Processed in 0.059040 second(s), 29 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表