设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2956|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 , o- P, }: \4 a

) U4 {' {3 p5 Y1 s7 O把PDF上传,然后让他抓取文字,并修改可能的错误。
; ?% w( }8 n. q' i: \/ \然后deepseek完美的完成了任务。
. ?+ I9 d6 \. ]段落清楚,列清楚,页眉页脚全部去掉。* {; L+ w9 w8 z
我要疯掉了!
5 E8 l2 C+ K: j9 i# v赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!$ I2 u# L. V+ F( C' t- Q' S
====/ c; s( `% b. J, W- }2 D1 j
中文也很完美。# T4 U; l6 o& _& @
经验值,每次十页比较稳定。0 `6 Z6 a* R. ?  M" |: [1 M
现在我这里API还不能用,等恢复了,全自动了。
/ G; t' Z& w# i1 A6 ]! a9 M/ r+ |====( x9 o6 S+ C( R7 J/ L0 n
第二次疯掉了!
2 {. y$ z! H" Q- k9 m我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。6 M" V; H* x( M3 Z" Z
====
" x# s9 W$ k3 _' K" {现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
* y- J  A0 U; Q: y: X, J但是任务多了后,每次翻译的页面数是减少的。" b0 A4 N; x* ?0 d# B& ^! P
好吧,我五体投地,继续探索。& ]$ ^1 z! P( N# p7 r- r
====0 K" A9 w2 L; i7 f+ f
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
2 t" s& e% u. Y9 ~====4 t& y& v+ J# j( [
好吧,有些东西是不给翻译的,哈哈。
. {% V0 }( q& d$ N/ m. }* a% O% F8 k: _, f  G  d
Sorry, that's beyond my current scope. Let’s talk about something else.& `  X% @( N; t, M" o
====$ R" n9 J& K$ w8 k; d/ H
然后我的英文命令也让deepseek 帮我修改,呵呵。' W: M3 d, @& h; X7 \
====
$ n3 g; j7 a& B日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
1 J% D8 a/ I! T* m: R9 o====
* f+ d+ B. F0 N时间段的话,北京时间的下午和晚上用比较好。
9 X+ P1 ?/ M- h后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
( B' K. ~; p/ S- K: r0 s====* a; b* {0 {% Z0 F
用千问吧,非常稳定,非常强大。
! e. I: I$ L* s1 x. Thttps://chat.qwenlm.ai/: W' T" m9 B2 B: v7 h( y
====
6 s* \" s0 d: Y. RDeepseek,API 看上去可用了,但是不给充钱。+ P  I& C2 j$ `
; A6 f( f  {' }
6 E8 c0 f. c* L0 c/ X9 v+ e% _
0 i5 D" e: A0 G0 p

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3766 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53% ]4 R4 J& A! I" ?, A! o8 G6 G3 g$ p" p
    这功能很赞呀
    0 q% T2 D- K" G1 r  E" h, `4 U
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13+ Z4 a3 V9 h: N5 d  g
    有没有上传整本书试试

    + i6 f7 v1 K; {' w8 j% o目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3766 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 6 E- Z6 n; X+ ]6 d, @7 K
    " ?$ j# N. k3 c/ M( E, N
    以后让deepseek 读出土的竹简; i# B) `4 |+ A" i8 D- {
    & P4 @, i# x  J' a0 S
    还有把古文翻译成现代白话
    5 r* Q+ x8 X% }- X$ }
    . K& o+ J" P  X, p9 T) r( B4 [' H以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    14 小时前
  • 签到天数: 2927 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?" ?6 {4 u+ f4 k: r1 _

    + A% j" ^; a9 }9 G3 K8 P# c# `1 ~我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    - ?& F6 Z& ^' c, I请教是如何实现的?
    8 W. ~4 Q0 y) e! M0 F8 {3 M+ F6 y: [
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ( y3 l! q0 U3 B: S! t4 z
    6 ~, z7 h5 _* ?. D- W我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。5 k; f: z$ S+ P. v/ }& ]
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。6 M5 D8 e, V9 B6 B; U" }
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。3 u2 C' J, [5 D7 B

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:230 [) V1 I  S% ?
    请教是如何实现的?5 e& O/ z6 }. S6 C. h

    , y  k* ]7 D" [. ?+ s+ B我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    2 [2 X. {! ?) A* phttps://chat.qwenlm.ai/) u! j. T- u5 q  y6 V3 [
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ' ?& {, s+ \1 G' r很稳定,质量不错,好像最多一次处理15页。
    / J' T) P  ^5 `3 [我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3039 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。, ^5 A+ w* H7 |
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。8 p; V: s2 w1 R1 B0 w8 Y
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。9 b9 i: C7 D. B
    5 L$ Q  Q; |/ O! E5 W, }
    https://github.com/oomol-lab/pdf-craft* z) B0 ^8 t7 Q  p8 @' C

    ) d- I, \8 `  p$ H4 k  E1. 这个工具要求装 python3.10( ^& \$ R  e# `3 z$ `' f4 A# T
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0& f' X8 Z0 d# c( w8 g
    3. pip install pdf-craft
    3 ]2 N8 ^% U7 ^+ {0 J6 x4. 把下面的内容写到一个文件里,例如 a.py- ]- G  W' U) R
    4 z$ \' `5 m7 y+ ~: h$ _& J' I2 ?
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter* O3 j$ g' k+ p/ A1 g% {# V5 V: I
    2. / R- z1 m- W+ x. t2 e  d2 W! v
    3. extractor = PDFPageExtractor(
      ) |, v( o4 F9 R! e% v
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      8 @; r) r) N3 h. r# _# r
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed* ^8 ?& Z, [$ {& i; _! J7 i
    6. )
      ; i, O5 i* k' i- b; p! Y/ f
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
        j' b, ]8 ?) a" |8 I+ P
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ( b: _0 F0 z% E
    9.     md.write(block)
    复制代码

    ( l* d7 u( I% x: X3 @
    # B2 }0 I+ P! K$ c" C要修改的内容:' ?5 S  e& v, T5 G
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    & C  V/ y! M1 N! h& Q) l! }4.2 markdown_path:输出的 markdown 路径文件名$ k1 ]; ]- B: V$ C; ]
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    2 ~1 e# }: F7 Q( t  ~3 j+ q/ t0 s* u+ G9 f
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 7 W, B" [9 o1 E. q  v2 C8 J$ D* L% {
    ) H2 F- P% {( k) _5 K9 |
    目前为止PDF转纯文字的最佳办法。
    / V& }% a0 D2 S5 Y/ Q& E先写个小程序,把PDF按章节切成小的PDF。, A* O8 e. Y9 M6 w. @
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。% b5 v! h4 U* u% A, g
    效果非常好。
    ( P; @! O- t0 h/ o- K
    ' F- V# ^9 |  ^0 D" Rdeepseek,qwen,chatgpt 三个,deepseek是最好的。, _2 {  K- d8 q' Y: ]6 Z
    5 I+ h3 H' P  ]8 R( k- ]
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。5 q8 v1 `- _0 s* ^, ~2 B" B$ O
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。& U$ p! c' _( V# `
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。& K1 o. ]7 B' m) M! q/ L1 E- r
    $ P1 Y- K! }' Y' x% p
    API到目前为止,差强人意,不如网页版本修得干净。
    3 |# a  L( J# s0 ?& C0 K: |' H1 s( D: {) O- I
    deepseek可以同时开四个。6 G7 Z1 {" ]$ v9 S

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    1 O6 b4 @+ s- U- Q9 A. T# L9 S
    + v* ?9 e2 I' T* V& O) _# D4 e" M9 S让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ! \! |: M0 T% E7 N0 r+ b8 K$ g让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    . y3 z* Z& O, @$ K" I- `细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
      J5 r% y# o, Z. X& ]细说一下,听上去很不错,多谢。
    $ x- @+ B) n$ h  ~* ~! ^
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    6 c3 H2 f' g$ h1 w% f. c# F, O! R2 Y4 l6 W* @3 e- P
    已经搞定.! ?( N- B; [5 p7 U4 W" Q
    9 z+ |8 w( C% ^+ r7 m- L! A  ?
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    4 ^, p6 d9 T1 A2 X5 I
    $ Q, _8 i( T: c2 K! V! a0 F; Y. X6 p1, python + pypdf 按章节拆分小的PDF
    ' K' F: ~  W) G/ q! u1 Q) C" U& X
    ! j1 C, s* Z, @1 x) z# P2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 ^4 O9 j. l4 [# N0 d  S* v
    % r9 B* E7 E) x# m6 Q
    得到text file
    $ {0 C, O2 W3 s- u/ |5 r) O( l3 ~! o# m& d# b$ i
    3, python 读取整个outputfile,丢给deepseek 矫正。/ K- B( H9 J9 G$ i. p' J; ^% D

    4 B+ s8 d( {, a& t. m) v模型是 deepseek-chat9 a8 c: e+ l" V& M! x
    % U, d' m4 G( G
    max_tokens 最大是 8192,别的不用改。
    ' W: Y! J8 C6 q( N1 [3 {6 W  ~4 G9 a: n. y8 e: [
    参考:
    - ^1 P% z  a0 w0 f" L5 p, u" ehttps://api-docs.deepseek.com/api/create-chat-completion& r6 F1 t: p; {) T7 H
    ! f/ `, x, I( m4 N# k7 R8 u# b+ `
    4,费用:$ ?/ j( n" T" q$ X8 {
    $ r; l7 z) \! S, f" D* n" f: B
    实测:$ x" A2 |' q8 b9 k/ i; Z
    : s3 T2 F2 r, m
    296K 字母,用了 9 美分。
    ( ]1 U6 a) O) i  p* a1 n0 N2 U0 X/ M) |0 V, V  ~" m3 _
    英文字母 到 token 用量大约 1/3
    ; f) i6 B+ c9 Y0 d* P, e2 v/ ~. m0 p" i9 Q
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328991 ]6 ^( y8 _' F+ R& h
    6 I, K7 h( L6 N2 K+ j& `
    32899 个字母花费 11782 tokens,包含输入输出的 tokens1 K3 F- h+ h6 U  x8 y) o, u8 p

    # a3 y; C+ o4 s8 c) W价钱,非常非常便宜了。
    " [* h# n) O: m" @/ m; }& ?9 e; h9 K0 Q9 D: U! I
    参考如下可以计算,懒得算了。1 ~  b9 d$ w  n

    8 m9 O+ x' j7 a4 Uhttps://api-docs.deepseek.com/quick_start/pricing
    3 ^7 \8 E: W# |" x# i6 g$ ^/ Y; U, l6 K  x& X' r4 S2 n
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ' U1 M, k& L: l1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55( o# e3 Y5 `8 Z4 |
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19" C- X2 C/ z: }. l; f

    0 A6 r+ b& \2 z6 Q4 k7 G0 X" Q" ~5, Balance
    3 F( U; _) V' I* _
    0 U2 H" `+ B  P* Y可以在程序里调用,知道每次运行结束后,balance还剩多少。( }: ]: i& o! Y, s0 d, l
    参考:
    1 p5 o! {& S& J: l" C) k! G' t! zhttps://api-docs.deepseek.com/api/get-user-balance
    2 m0 n' |( K8 J8 x" v
    3 J* W$ B+ e8 i' _8 h; v7 D0 l6, Models+ B( m8 R) z* z5 n8 o

    5 O  h% T/ E. h1 H; t: C  q目前就两个
    - U0 x4 _4 @/ X1 {# deepseek-chat, B/ S$ m" ^. t5 T
    # deepseek-reasoner( w: F" v  J9 l3 n, e
    , J$ e5 O( W, E! C. K
    参考:
    $ V# h- k0 G+ B4 y# lhttps://api-docs.deepseek.com/api/list-models
    # K) q9 b( w8 p  w; S& u: `" c( e; y) k$ ^7 z6 \$ @. T: u$ k7 L/ f. s
    4 K& {- Q* `" W4 B3 t$ v- I4 W. a
    7, 问题
    - [8 N$ ?8 g  o+ o& K. S' Z9 h5 x) t' }3 S! v- i! E
    deepseek 会将前后两段合成一段。1 R( g& y+ i/ t2 k
    特别是那种大量的对话的段落,deepseek会给你合成一大段。7 M9 _+ G5 q/ F/ R
    8 w4 K6 j! C' b- `! w
    8, 钱说了算。" _: y( G' E7 T2 V- K
    & ~+ O- [- ~5 R2 j/ O: B) k( G& N
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    9 U5 X6 \- v5 f5 B1 Q但是API就不会出现这种情况,毕竟我们给钱了。
    # h( \2 U8 D3 U8 C" S  V3 Mchatgpt也是这样的。
    9 I' \) q/ \# A. o+ u( _  k/ Z/ n5 e7 D; b- U
    8 ~- o5 p/ d2 O% Z0 Z

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-26 16:18 , Processed in 0.098663 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表