设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1178|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 4 N4 t) r% o. _7 N) ]; Q

1 V9 z; r9 i, ^1 L0 G4 _- k' Q% p把PDF上传,然后让他抓取文字,并修改可能的错误。. t9 O. h! c4 G( ?0 {7 n
然后deepseek完美的完成了任务。
9 V: d) c  \/ @$ y# U. _& |段落清楚,列清楚,页眉页脚全部去掉。
$ j# a3 |4 U$ _% G* X% }: J我要疯掉了!7 P' A/ L8 n4 p& H
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!/ h& R. D8 u* d! k/ Y
====: c$ D0 O& l. Y' [) y$ z4 z" s
中文也很完美。
2 b7 {: o. I+ C; J2 @经验值,每次十页比较稳定。) X# q9 U5 M5 X
现在我这里API还不能用,等恢复了,全自动了。6 H0 j% X) ^/ a
====
' Q" ?- {9 L- A8 a, x, A6 Q0 b第二次疯掉了!  U& b2 U0 c( l! A
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。: R$ `" n6 W6 K! Q) `
====
! }, n3 o; K. {" n+ w6 j现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
0 q, U) B- W% I$ t/ w6 I9 O7 I但是任务多了后,每次翻译的页面数是减少的。9 _' z! f+ H  `' @; G, M" M- X
好吧,我五体投地,继续探索。
# L% A. ]3 q' A2 a" e+ q4 e====/ @+ h; U$ z& k- x  i
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
3 L" X+ F9 ?# v. _8 {====
3 t$ P; v5 y! O  @/ h) ~( X好吧,有些东西是不给翻译的,哈哈。
2 S* E; p* \3 U9 c. Q1 p
" ^7 q/ X" j2 |- ?, t, H7 pSorry, that's beyond my current scope. Let’s talk about something else.
9 e5 L- V6 ~' X$ h' t) ~) o$ `# U====7 M8 S0 d# s' l3 T# I9 o& z4 N; g
然后我的英文命令也让deepseek 帮我修改,呵呵。
, v5 I! s  m* g. y! u# R( W====
* T' U0 G/ E" x) X日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
, k& y# I5 @+ B6 ]% h  \0 o# g====# A  U, S7 j+ {# ^8 M% B, h* W
时间段的话,北京时间的下午和晚上用比较好。
, o6 s. d  O2 y* ^) y/ j7 v& p后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
' s! O0 S$ N& }# h9 H& @====% r& n$ k/ X  Y* Z$ e# I' L) Z, f
用千问吧,非常稳定,非常强大。% Y& ?5 b# m$ r8 t
https://chat.qwenlm.ai/
, ?4 V9 X5 z% A% Y+ I7 D4 @====0 G# J' z8 a* b; T
Deepseek,API 看上去可用了,但是不给充钱。2 Z# Z8 m, Q: r/ a
' A+ b: g. h- p& r" Z: {

4 o9 S' K$ U/ n  i& p1 k7 K; Z5 U% K% e
, n$ G- ~% g( v: B% e- J6 h; D3 I

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3448 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:531 R" Y; ?( F2 v$ j5 P
    这功能很赞呀

    - G" _1 Y, s. e1 ]" }' s6 c简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    1 c1 j: |& C+ a: h; N8 ]8 Q, z2 w有没有上传整本书试试
    4 x  e" A! [: Q4 }# D( Z
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3448 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ) [2 l, e( P2 L0 p# A; f) z  d+ y; L1 d+ ?+ k
    以后让deepseek 读出土的竹简
    & S$ [  q4 `8 J- q$ N8 S
    , w7 Z$ ~5 N( h8 p% O6 ?还有把古文翻译成现代白话; V; G4 i' J0 L1 u

    ; `, g1 a- f7 U  u$ M以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2601 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?$ d8 E7 q0 S8 C/ ^4 Y' A
    5 [9 P6 e2 E5 v, k* A* j
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    + [$ }" p; V' {4 h请教是如何实现的?5 _0 s: h5 J6 b) {8 B! l$ e+ c5 Y
    $ [3 K2 T5 R" _. p
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / l# q: ~( u1 Y6 w" \

    ) e+ m" a  V1 J我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。$ F& ~4 D1 Y$ K( }
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。7 C5 @! N% `& W2 n: Q
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。! o& |- ^9 }4 Z

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    3 J3 {2 I) X9 k. H+ c# Y$ P请教是如何实现的?
    3 A/ g& G! J9 D% ^/ S+ }: p+ }8 c  t1 F
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    4 @  b- w7 Q! x7 F5 r$ Fhttps://chat.qwenlm.ai/
    & t8 C) K, q. X* U试一下千问,估计美国人没有攻击他,所以资源敞开用。
    1 R3 u* r2 T! ~$ n3 M* r! u7 i很稳定,质量不错,好像最多一次处理15页。+ J4 r0 l2 G; u6 m$ m+ \- O9 @
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 2741 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。2 o( M6 k+ T/ I8 Q3 l4 j0 F% p7 z
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    9 X# N$ l! L/ e: `; Y& _这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    5 B' T: T+ G2 s0 h( K8 Y# N# i+ W6 r
    https://github.com/oomol-lab/pdf-craft
    & E2 S! ~- p3 t7 Z2 F) u% x
    3 g9 Z4 E1 A+ W3 d1. 这个工具要求装 python3.10) }* I; U/ r/ v; Y/ p; ]
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ' ?+ g3 H- d1 ]4 M. c  j% }8 @3. pip install pdf-craft
    4 k  ?' x; M! Q" M$ C/ z4. 把下面的内容写到一个文件里,例如 a.py
    0 [% u$ X6 ^. o6 W  a0 F( M: E+ l  h8 c9 m/ G) }0 N
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
        U$ X8 e# d0 d- J2 ~
    2. & C) f6 x  _% {4 q& G% n
    3. extractor = PDFPageExtractor(
      5 @1 p5 ^% M! C$ Z, B% |* ~
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.: n) Z1 Y3 p( |" p
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed9 X# ~* K1 d7 E; r! p. d
    6. )8 M& A+ V% D0 T) j
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:! g8 @: t$ ?2 Z- c% n
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):6 _$ U1 _( l  ~/ x* t
    9.     md.write(block)
    复制代码

    3 P$ t. Z8 ^8 t: U" z# A1 h1 F3 Z% Q* T) C' n
    要修改的内容:: ?2 q$ d$ i0 R1 F6 {, C' |: h# j
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型% Y+ _+ A' o7 H) [/ \$ Q
    4.2 markdown_path:输出的 markdown 路径文件名
    ' ?- y9 f& Y! I8 y0 B4.3 /path/to/pdf/file: 输入的源PDF路径文件名7 c# q0 u# c& b5 P
    : y3 ?7 P7 j; n/ `0 _9 q
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ) d! L- ~7 V; p+ D& b4 ~, k6 j5 w
    % T, D9 Y1 r+ d9 \
    目前为止PDF转纯文字的最佳办法。9 T- H8 Y- C1 d2 @
    先写个小程序,把PDF按章节切成小的PDF。3 ?% W6 h- N$ R, g9 H
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ) z( H, _4 T3 A# ?0 ]效果非常好。# p3 ^- Z3 r. {6 W; M; Z. q

    & C* ?) ]- m3 i9 s) ydeepseek,qwen,chatgpt 三个,deepseek是最好的。' o( Y* l, o; b) b

    2 q- I# g  |" k; o- O+ ?2 Z0 c2 Ndeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    4 l# U( y* W0 n* I8 G' n* [! d而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
      }, x1 m3 {9 Z* O+ @我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。  L. f6 v- |* i) ]1 ?
    / `9 {' ^, W) n3 `4 J8 I
    API到目前为止,差强人意,不如网页版本修得干净。# s7 }6 p+ B8 b& |! _5 i2 j

    # g" @9 }- a' S" W6 B% sdeepseek可以同时开四个。
    ) X5 t+ F, M7 a# t, Q1 V2 Z

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 : I! p- Z! ]4 \

    * d8 u0 B4 X, m& W# v5 T0 ]让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    9 k+ f8 f# I" e让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    " ?4 {& a1 w" k& I# I; g$ q细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33, A+ ~+ T# A2 ^
    细说一下,听上去很不错,多谢。
    ( P$ Q2 Y/ Y3 ]0 p# N9 c2 @3 {
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    * ^# j; ]- S" W+ W0 A: ]4 `
    8 i. P8 g/ \: X' [- _% Y3 p已经搞定.) M4 I- f& V/ ~. t/ K* j

    6 S8 G& E; m+ z7 E$ k! Y0 m首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% e; Y0 g& g* T% H  }% ?  n: x. l/ o

    - S5 b, j$ S5 ]0 b1, python + pypdf 按章节拆分小的PDF
    ! a. k$ ^' j  A. ^4 e( ~. M$ L2 _" R+ z6 E7 E. D" T. i
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
      u3 m) ]. F7 e0 u) `) v
    ' f' S+ x3 _& b. a' V得到text file, Q  A) @: [- f! v7 p
    ( J7 \' T7 ]$ ^! h5 c
    3, python 读取整个outputfile,丢给deepseek 矫正。
    ( T9 h  U* c: L* t: f4 l& }6 v) n7 y$ j/ x; k
    模型是 deepseek-chat8 W# i. v& h5 P. {- J

    ' O' D! ^5 @# lmax_tokens 最大是 8192,别的不用改。
    : l' n8 {& v# g: B" [' h* J4 M% m; |9 ]  }. v1 h
    参考:
    ) H0 O) ]5 `9 L9 o- j* zhttps://api-docs.deepseek.com/api/create-chat-completion
    ! N1 k( d( W& ]4 e# B) G
    0 _2 X' A# Y$ S; ?% Y4 o$ V  z- y4 i4,费用:9 U- W8 N+ a' J$ O- R$ @
    # ^2 x2 [( a; C' O
    实测:' v. Z/ T: F1 V5 Y% N2 u

    4 D9 Z/ f. i2 A# ^296K 字母,用了 9 美分。6 D  J$ n( E+ p5 f

    6 C5 L: |& g. ^! [英文字母 到 token 用量大约 1/35 S8 G4 X3 j* P  m1 h' O
    4 t2 U/ v8 Y9 i) h* W9 u3 e* d, s
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899( o% a6 @* _0 `  ~* P. u- F/ m

    9 D/ H# w% b' z5 W32899 个字母花费 11782 tokens,包含输入输出的 tokens& M; w$ V# Z; {( V8 E* e0 |
    3 X$ k. L8 _$ Y2 v8 [: S' f: n5 u
    价钱,非常非常便宜了。
    2 }3 F  I' D  J7 A- b1 h, `! W1 N1 P. E) B, a3 l$ l  |: u
    参考如下可以计算,懒得算了。
    6 z/ g- z$ V( C8 J* d& D+ s, {
    : O, Y; Y9 i6 R1 p* g7 K1 Jhttps://api-docs.deepseek.com/quick_start/pricing% r2 [, i# P! H" a

    6 U( L* W6 D) }! C! y, M- i1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14  Y( b. I6 A  f, T  K+ U/ V" h2 K; ~
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55- Y: H( H& s6 _- M7 e5 K% P
    1M TOKENS OUTPUT(5)                                              $1.10                $2.194 K" h4 Q% z3 P# [8 O+ u8 W% o
    4 p$ K4 b1 C5 _0 T
    5, Balance
    - c. x* Q. F! ]( B
    1 Q. ], t8 B* |. p" ~, D# m) B可以在程序里调用,知道每次运行结束后,balance还剩多少。
    8 i& ~6 s! r) H参考:
    0 Y/ X* o, u# Q. qhttps://api-docs.deepseek.com/api/get-user-balance
    : X6 F5 V/ r0 d# j0 D5 f$ }- Z9 k
    6, Models8 Z( |, D/ Z# E; t

    3 H* W+ i' |  e& O( u2 i6 d% g7 ]目前就两个( t0 G: r# w" z7 v( o/ k( Q& ^
    # deepseek-chat
    " I- K+ n$ J$ s. T( l- |# deepseek-reasoner
    6 |7 E, r1 A1 F3 ^& m& F( W5 @
    ( ?7 T9 p% Z8 a1 v: H3 g参考:) }! `* j! U* m6 V
    https://api-docs.deepseek.com/api/list-models
    . y( p/ v& i1 s9 V# Q8 b3 {1 ?4 I  v& G! {9 P9 i" w
    # i3 i, G+ R9 c" P
    7, 问题
    $ Q2 p, P" o* _! U' j& ?6 m' p  r; p( y5 f
    deepseek 会将前后两段合成一段。
    : e4 h. s3 w7 A, z5 t! d特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ) y+ b1 Z8 S+ R! v4 E! w3 J5 R& R1 V& C/ l4 ^( k) L0 b
    8, 钱说了算。
    $ q  s4 L- G' {1 ^" {$ E2 {/ z1 n  c  w' l& C( q
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 }# x- y8 X3 c
    但是API就不会出现这种情况,毕竟我们给钱了。9 [( J& L) k4 e0 }8 H1 n' y6 B
    chatgpt也是这样的。
    + P0 f8 h6 r, G  c. G) ]
    ( o& i. n# B; L% i: o/ F
    - P. r* h- s8 v. Y4 {

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-13 22:15 , Processed in 0.055148 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表