设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2460|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ( K% l5 w+ |6 k) w
! J+ j4 }! e9 i: _
把PDF上传,然后让他抓取文字,并修改可能的错误。
: Y5 z& t+ {! |6 H; M: q$ R$ [7 N然后deepseek完美的完成了任务。
# M6 B& r2 D5 t- z: C段落清楚,列清楚,页眉页脚全部去掉。/ R/ z- \; E. b$ t0 p1 k. I6 J6 B
我要疯掉了!: Z, ^/ e: r% k
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!  i3 t' a$ \# X. [; ?, H8 I
====
/ {$ a' O! N) w- N中文也很完美。! w0 L1 m4 g/ D/ X
经验值,每次十页比较稳定。& {& H* z4 i6 D9 h9 \0 X4 ]
现在我这里API还不能用,等恢复了,全自动了。/ X5 Y  b* r; L4 U, j6 {! y7 w: \
====
. w; g1 v" D- ^) ]0 o第二次疯掉了!
$ t' k1 H$ V1 h! b我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
) l5 j0 @0 k! u1 k; X# [====
: d% U, K8 _3 n9 b0 c1 `7 V/ p9 t- |现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
" s% @/ m" r( B; m但是任务多了后,每次翻译的页面数是减少的。
. u" `& M$ c1 l好吧,我五体投地,继续探索。" P$ @# Y) p: @5 j
====
* u' ]$ t1 V: O+ `, Q: Y' u为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
0 O/ B; [* g' e+ C0 Q% |4 z: P====( ~  R( \  s# W7 i, Z: b' f5 L) z
好吧,有些东西是不给翻译的,哈哈。
5 ~* y0 I7 u5 M, F' ^" h% u
& i( I. K* x3 [9 p" OSorry, that's beyond my current scope. Let’s talk about something else.6 B5 }) g' `! j+ I) d* J: S# p
====" ]1 h6 f2 B. W; m
然后我的英文命令也让deepseek 帮我修改,呵呵。* H9 G) _0 u+ X- z: i% L3 N
====
" a4 g9 P9 y3 `) W: i1 @$ o日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
( y- b3 f8 T1 y====
9 t, @- a/ ]2 F3 X5 K+ B# E1 [% R5 j时间段的话,北京时间的下午和晚上用比较好。1 B. c. M- v/ d/ G
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
: \6 ^( n" G2 v4 y====
+ f# A% o5 L4 I! W+ N) V. Y# v用千问吧,非常稳定,非常强大。# @( X/ s2 J. S& k
https://chat.qwenlm.ai/
8 y1 m" d. E# V2 o4 F# Y" w+ C====' `: e8 ~# d+ c- }4 j# x. M
Deepseek,API 看上去可用了,但是不给充钱。
# A" h: ]& [6 p) V2 ?) n: a% w( X6 s  }  Z- T
, A$ b! @& j4 O0 Q( ?
% s* z8 y1 F1 I- _

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3643 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ( X  m0 }6 i7 z7 k" o* ^! q这功能很赞呀
    7 V9 {8 `7 F: z
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13" f1 v# [/ z1 N' F& A
    有没有上传整本书试试
    ' X# n+ B3 T" ~8 F4 t
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3643 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    / J! h* @; i0 d: ^* S) v5 b8 n& h0 Q' |! g
    以后让deepseek 读出土的竹简
    ! ~( a5 T& l% `/ t$ e1 b3 O, V0 D6 C# C* ~) X; ?( P" V4 i& l
    还有把古文翻译成现代白话' J: z# d3 E$ D9 |$ ?" v

    ! ]( ]2 r" n' A2 i以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 2805 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ! D  _9 R3 d/ n! w: f0 v7 |' b
    7 q: q. c  S6 _9 G+ \" O- M我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23& c! B2 u+ x1 t2 l0 V! S% o* _. U  L
    请教是如何实现的?0 Y. w  i/ I/ x# _- M4 J) r

    ! t6 f* ^. }" m3 F% J我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    4 O, n6 v; q, i! Z- y

    , O0 X, T6 j; e5 m& o8 O5 l$ K# G我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。4 l) f! J! [8 ?: x# o
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。  N  s: k3 A+ }, @, E1 Y
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    3 g) B- d2 x  q1 r& c

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    , ]. N0 l$ A; i9 Z请教是如何实现的?
    5 K: b4 D" a% \. C- c! ]% \, I6 Z, D3 ~3 s. _. c
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    # V( E; X# I1 r, ?https://chat.qwenlm.ai/
    ! r5 I- t) u. ^7 H0 S6 E试一下千问,估计美国人没有攻击他,所以资源敞开用。, z& V" \2 F, e; Y+ d( C3 a( p
    很稳定,质量不错,好像最多一次处理15页。
    4 I6 j& z( e' v6 `/ t我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 2920 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ! S$ W/ D4 T. w  I! ?处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    + Z/ C% _" F" A这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。7 I( T' _9 c: p  j* I7 V

    7 G& ^$ T+ n9 _" ~https://github.com/oomol-lab/pdf-craft
    : I: N+ }4 S  m' [/ \! x
    4 {- d/ ]; W/ O2 S  r1. 这个工具要求装 python3.10
    * M6 g3 M! v4 d, W2 |! [% I, {2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ' a" j! _7 d* I+ c' p3. pip install pdf-craft+ o- O$ M) U; u- x7 n8 X
    4. 把下面的内容写到一个文件里,例如 a.py
    & |( z* i9 @- D3 E
    / t3 _7 e+ g: A* F; `- K' s0 a
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter3 H" b$ Y6 }: Q2 n1 Q
    2. : l) n+ Y' \1 O5 z4 i( i- P. O, o# P
    3. extractor = PDFPageExtractor(: K$ g% y2 {% o. j
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      % m) m9 ?( c6 B7 n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ! l8 ?3 [* D; g; v; Q' Z  G
    6. )
      + G. I+ x2 Y( C8 [
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:' Z- ?  ?9 u! x8 k# t5 N( X1 F8 G( `
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):4 J# a0 Q. P5 u6 ~
    9.     md.write(block)
    复制代码
    ( H9 J5 |, |/ Z( I3 k! I! p/ a
    ' A9 O' x& J% [2 u$ K
    要修改的内容:! c8 |" {/ `8 h
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型5 _1 q9 Y0 H6 `* C
    4.2 markdown_path:输出的 markdown 路径文件名( ~3 U# u; H" E5 D
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名3 j. A8 [! t( c5 ]
    ( u3 w% u& h4 k+ u( s1 n" G
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 1 N  i+ o3 _$ n+ I" }$ P& ~
      S2 ^: j4 v" c+ u- m) m" m
    目前为止PDF转纯文字的最佳办法。& [9 f7 D1 B, v( `. g8 v, c0 R
    先写个小程序,把PDF按章节切成小的PDF。1 u" B3 h0 a; u8 y7 W. q; Q
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    - }; a% Q! a8 }3 K* U, A1 h效果非常好。
    : x$ H3 ?) Q  G6 I1 X) l
    / Y2 s. U6 [/ H! N2 qdeepseek,qwen,chatgpt 三个,deepseek是最好的。8 u5 ?6 S$ u8 x9 `  d- n/ m

    7 H9 m& n7 U' e9 i, G3 E2 u, Zdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。: f" b" p* {, F  O
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。$ ~0 @, z2 O0 h9 [+ |% D
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    9 l! _' i6 Z8 ^; j- y" R! o' F2 G8 V: B( ^; b0 N
    API到目前为止,差强人意,不如网页版本修得干净。& C4 C8 k$ o+ T" q3 Y6 V, S( m6 O9 o
    ; U9 }' w- C) a. A9 h* c
    deepseek可以同时开四个。% s7 D8 Y9 V$ C

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 4 J' g1 U, S  p8 t( {2 g6 |
    ) @) z" x3 L) @" k' u6 |
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    % k# f1 V" f& v7 [7 O让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    . D9 R, `7 K6 y& H. T0 h" N细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    $ b8 b& Q# c# j2 ~4 v细说一下,听上去很不错,多谢。
    + i. R; i' H+ ^& C9 T! }& r* d
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ( z; k) @: K" T# F( w2 ?1 S
    " V9 T/ W  d$ Q0 y/ D. Q已经搞定.
    $ w" d0 Y0 S1 O$ P6 \3 j
    8 U0 E; i5 L- |% G首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& v- e# H* c7 o: p* w. k6 ~5 |! U

    ( i  M3 l$ M% o* I/ F3 j- R1, python + pypdf 按章节拆分小的PDF$ i& i& \) ]6 h8 Y

    0 Z* q9 }# W! }% l# }7 w- }2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    1 c8 H4 t: e) a# A5 l
    ' o  n$ I. Y) l$ b得到text file  z! B5 [# y# p, ^( h1 d0 D
    3 g" H1 L+ O3 e- a
    3, python 读取整个outputfile,丢给deepseek 矫正。( X; \. ~/ l5 S' x
    1 p6 A8 b; ]/ ]3 b* m8 y
    模型是 deepseek-chat
    * t: T6 s/ C) I* E, n% Q8 _  e! u/ l0 |9 d
    max_tokens 最大是 8192,别的不用改。! P, t9 @, s9 {

    ; F- x. W  I4 [) b参考:
    : |# W, K/ C" Z5 [- f8 r0 |5 }https://api-docs.deepseek.com/api/create-chat-completion- s4 Y7 {2 I/ L
    0 Z" l4 f0 S( b" [
    4,费用:$ w2 b" k. w5 p
    5 M( r+ M% u' f0 Z, y* e
    实测:  V0 M$ s8 A0 Z4 B: w+ f

    : y5 ?* u% r( d+ T: k! i4 b296K 字母,用了 9 美分。( K6 x9 k, m' U; X

    6 G1 f0 Q$ @$ V1 B英文字母 到 token 用量大约 1/37 p! ~& i' i* s+ R: d# K& J2 A

    - |# y4 B6 I3 {' a  o3 utokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    9 E0 ]: i: x3 u/ C5 T: Q" [( r% m+ s* ?9 _2 b$ ]" [; D' G, u8 b$ l; h
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    0 C0 t5 {; b1 W% ]  d
    7 ~, S9 J& b4 k0 m8 X6 n6 x价钱,非常非常便宜了。
    . m8 n+ b4 n$ S0 A! `- A$ Z6 o" @3 @! r: {( z- k7 L
    参考如下可以计算,懒得算了。
    $ h' c" E- B8 l# H0 ?5 F! g2 g
    3 t' l, \" y; f5 k4 {https://api-docs.deepseek.com/quick_start/pricing
    . q% t8 M6 F; E" l1 d
    3 a! p& u8 k8 i" M, T1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14+ d1 x; D1 z5 M5 L& h( s/ _
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55/ a$ a) {; h1 {7 f1 N  }
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19) J- S' V+ l7 h7 ]- o# J9 V
    ! m2 ?& n: R7 G
    5, Balance
    : g) _- S, D9 L. G" M* b; B9 U- `4 D" [8 c' w
    可以在程序里调用,知道每次运行结束后,balance还剩多少。( C( }& B1 L5 ^0 C4 ~# `6 Z" K' l
    参考:$ R, c6 T8 r& y, _8 F5 p0 R
    https://api-docs.deepseek.com/api/get-user-balance
    2 V; D& K& X3 o6 _# H5 |: R5 Y# [- C* y. C
    6, Models
    , i2 J; F( X/ G2 l. }" X% R' D& Z) o+ C- E3 C
    目前就两个
    ) g& _/ z! ~% a; U) Y0 k  S# deepseek-chat
    2 i, Z0 x5 {3 r: e* l' r# deepseek-reasoner' F% B3 T6 O% ?" I" [/ ]

    ; b3 K& [3 v! |) _7 X3 ], n参考:; c% Z4 B) l2 \* b5 p( i. `: _; \
    https://api-docs.deepseek.com/api/list-models
    : c5 ^! }% ]: j! k
    0 X: ?  K$ _' H, L
    # O" O/ G; W! Z/ e7, 问题- t% e3 m7 L9 h6 W! }& C0 I' v

    $ e- V) F/ Z5 Mdeepseek 会将前后两段合成一段。7 L# L6 b4 S/ `7 ]
    特别是那种大量的对话的段落,deepseek会给你合成一大段。8 Z5 n5 \# r  J4 y

    7 {2 Q! n1 R* [8, 钱说了算。
    ) r# g, R* L8 v, q
    ) t1 c& b& v. o0 [deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 y$ b# g0 f, G. C+ g
    但是API就不会出现这种情况,毕竟我们给钱了。( R4 I+ G/ B+ i% o: G
    chatgpt也是这样的。- B2 R1 y7 U3 V0 z, X7 h* O2 x

    ' L6 ]: \' a: {$ Y3 X
    9 z* B  K* E) R0 c+ P) i: t

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-23 13:53 , Processed in 0.036198 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表