设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2686|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
& ^3 p- E; B3 |& r1 f5 r- r2 L3 b8 I* J0 `( F. B) ?4 k* p9 w% y6 j: D- Q
把PDF上传,然后让他抓取文字,并修改可能的错误。
* P' k5 ~- q5 H/ A. l2 F然后deepseek完美的完成了任务。
3 F7 @4 D9 ^+ u段落清楚,列清楚,页眉页脚全部去掉。
7 k; k$ W! \1 g" H8 k! }3 _: ]我要疯掉了!
, ^1 D. w& M& @赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
7 [1 `0 b- V6 _====
. p( ^& n& E/ P8 B3 L4 X) M中文也很完美。2 }. N6 N1 R0 b5 }2 ?
经验值,每次十页比较稳定。
# }  n5 P/ O( a8 r- A- R# c现在我这里API还不能用,等恢复了,全自动了。7 c" W6 x+ n2 E. o. F  c
====# V$ u; e, v5 N6 L, e
第二次疯掉了!
$ K) Q+ A4 M. k. n$ a/ z. n+ c我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
) X3 M- V- w$ o  B  }7 H* I' T====: L0 U7 r2 G3 I- K. |3 H
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。6 R( f" k* B. d7 W1 A
但是任务多了后,每次翻译的页面数是减少的。
* q$ Z0 g& D. T3 X好吧,我五体投地,继续探索。  k9 H8 F! |. T2 s. `; ~$ c
====
, i4 N+ j% t1 e3 }/ ?+ P为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
; ]6 ?( m' b0 ?; e3 I% @====7 }- h3 ?9 v, m5 x: T
好吧,有些东西是不给翻译的,哈哈。* q# Y9 }( X: T' K  v  P
. ~7 V* U0 L* O7 P$ `" C
Sorry, that's beyond my current scope. Let’s talk about something else.. B5 C% X. ], ]; B
====& W" u, |) R+ J4 Q- [) D, H9 P% b
然后我的英文命令也让deepseek 帮我修改,呵呵。
* F. `9 I# N2 g6 \====
( L$ j( ^4 J0 ~6 g6 Y日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
' d0 C6 h* [7 s====! n% g/ A4 \$ ~- D
时间段的话,北京时间的下午和晚上用比较好。  F+ r  ?$ ^5 P, e
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。- G4 X( @9 ]' j0 F7 b5 a. _' Q; [
====5 ~6 i0 l4 x# g/ A+ m, R5 {& x
用千问吧,非常稳定,非常强大。( G# m- A% B8 `- f( ?8 c0 r
https://chat.qwenlm.ai/+ L% d) j- z2 C5 G8 Q% a* M
====# j$ }5 G* X8 \% K0 m
Deepseek,API 看上去可用了,但是不给充钱。- p1 V& @, Z5 B% W, y& _
3 P7 e  c! Y( B

% i' V) ~8 t' n4 {4 W' V& q2 ~( ]1 A  k  V. y# c" L7 m" F

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3704 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    % a& e' Q4 `) t这功能很赞呀
    / J, B, s% f% y: `% j
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13+ ]) _7 S5 _3 p' b8 W. c
    有没有上传整本书试试

    ; h/ W* n* j5 m0 V  s" u# F目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3704 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 3 q( J) S( ~4 u; ?3 `

    9 J' Q4 r% m5 M1 N! F6 p: Q以后让deepseek 读出土的竹简2 v3 ?( T' Y! m) ~: [: h$ M% w

    ; _: b6 K) f, p& u- D/ `. D# Y& l5 p还有把古文翻译成现代白话; X( [" N: ~  s' K  w- l0 q

      ~% I3 F0 B+ @( M. {以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 03:53
  • 签到天数: 2865 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?- d: T. M: |( y1 u
    6 W  N9 u+ E& M& P: h
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23% n' u+ N% T/ R! F9 B
    请教是如何实现的?
    ( X9 m" j+ {+ ?+ f4 E* s* g+ l! c9 ?7 o; ]) Q1 w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    5 g0 T" _/ A, ]7 Q& z6 Y' X3 u$ Y& v" I, U
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ; N. \/ Y0 Q  M文字之类的没问题。估计deepseek现在暂时只保证主要功能。1 ?8 o6 t& n3 H' F$ p9 O2 e
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。6 v+ Z0 Y0 n; B7 B

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 F5 Y# l3 j5 S9 Y1 K请教是如何实现的?
    4 M& H. {% o! }9 y, ]7 C; D; c$ ], P
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ( z: `+ Y4 e" n% E+ ?
    https://chat.qwenlm.ai/
    $ O' [  P" n  f& K0 g+ E; X2 D$ f试一下千问,估计美国人没有攻击他,所以资源敞开用。' v7 Z9 R$ G$ |8 W
    很稳定,质量不错,好像最多一次处理15页。8 y4 {- z: A; i. o& S. h7 w
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 2978 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。9 H. b: ?' y' m* i
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。  r5 c- s$ b( U+ E+ ^
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    : A9 _) h, s3 y; h& c; g4 l
    4 g7 l5 A3 J! w4 ~, h  f, fhttps://github.com/oomol-lab/pdf-craft
    6 ^: k: G3 Y" u% p1 P' `( R" l0 o6 |! g% E$ @. w) J
    1. 这个工具要求装 python3.107 @7 V: v" m3 o1 J9 o/ M
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.09 [2 N7 N" M" v3 x
    3. pip install pdf-craft' A; |0 w# g9 h" z0 R' f1 y7 K
    4. 把下面的内容写到一个文件里,例如 a.py% E$ k) f; o: ?4 p; p1 M; h: S
    ' g* M; D$ e( }2 }. \7 u& ~1 i2 b
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      1 e0 S! g) r2 H/ N0 S' c7 ]& F. \6 S

    2. " \. Y% @: y( N  b9 Q
    3. extractor = PDFPageExtractor(( T: P+ a6 m# Q9 c  S9 b' c
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      3 g2 V7 n  Y; ]( [8 F6 b
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      1 A. Y9 S3 f' v
    6. )! ]6 x6 Q. r! S9 F, ^# a) c
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      , B- k9 R' T1 |# v0 \' L% B; q
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):& y8 |& x2 O! q5 t+ i2 Q
    9.     md.write(block)
    复制代码
    7 X% U" O! g1 C, t- g6 P" D9 `0 E$ p

    8 ]1 z' |. e/ u要修改的内容:# s1 |( C# c) i9 ]; O5 X7 D
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    , s* m/ _4 ]& a9 ~! `! W4.2 markdown_path:输出的 markdown 路径文件名- Y& ~1 r9 `. g1 j% B
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名6 o# t, d" Y/ B2 a
    ) r- G' n. l; \- g- B" m! `8 a0 _
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 4 J, k2 b" _# |: n0 k

    5 J" h0 [& k6 F, z6 {. @目前为止PDF转纯文字的最佳办法。
    " v, P. O! {7 c6 H! L先写个小程序,把PDF按章节切成小的PDF。0 W4 h: e) [. \: c3 y3 G4 b( ~
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。, U: D, Q" P+ x5 X7 w
    效果非常好。
    ( B9 G! S6 k( y$ r4 j/ v( p
    ( N' {) Z8 z0 v. N% Y3 edeepseek,qwen,chatgpt 三个,deepseek是最好的。
    7 l4 `4 U) e; \* J& a8 }: ^+ V% x; Y, n  }% s
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。; R4 {% C$ `6 V% T! a
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。7 o/ \; a0 L3 E- E
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    . \% D0 m& f  h# V" T
    ) D3 x3 i6 u3 q/ |; NAPI到目前为止,差强人意,不如网页版本修得干净。
    - \* o0 {% k8 T1 T! A- H
    1 B: _$ p0 p5 F4 T: r0 F4 |deepseek可以同时开四个。) {7 r5 C+ o$ @1 |+ A

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    5 S8 w' g/ S% W5 ~( K/ G! y$ k1 k$ }1 e! F4 ^+ H7 `7 X0 R4 a* ]
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:265 o* K: f8 K9 V& }7 _" `3 {
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

      Z8 U: A% }' C/ K9 @细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33' U1 D( o# w; P- h0 L
    细说一下,听上去很不错,多谢。

    , Q. m1 ]' q6 O直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    5 q/ F' z; X! n$ P% I) l$ G9 w8 N$ G( z8 A$ F  X4 x
    已经搞定.! u: W1 T1 u. G) _* F. E
    ! Y2 _0 o" V+ E, n# t; c
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。4 C2 j3 i: c6 ]$ Y* b# E

    ) ~! m7 A+ W' e. a* w2 U1, python + pypdf 按章节拆分小的PDF
    * I0 V' X: u7 `( a$ l" F) s! w1 |) c5 }! z. t" y" t' [+ j, f8 T1 h/ W$ h
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile- V5 `6 Y( p  M2 a! t. p
    - v! z0 r$ M" s2 O8 ], T
    得到text file
    9 G& ~: }% j' ^& \" S8 m% O/ H+ z3 L$ a; n8 j1 @: Q
    3, python 读取整个outputfile,丢给deepseek 矫正。, u( K9 F: ?3 W  F# ^
    6 L, O0 m. s$ p' c' e
    模型是 deepseek-chat8 N+ ^. p2 K6 ]/ \
    6 c9 T' W: V$ x9 a7 q+ |5 u
    max_tokens 最大是 8192,别的不用改。
    6 f- \8 U! g8 R: N" b( t
    6 o4 n9 q- Y( b) H+ J6 {参考:
    ' v7 s/ Q9 u% o# i. F& R2 Ehttps://api-docs.deepseek.com/api/create-chat-completion
    * D2 T+ Q/ K. E5 x  `5 Q! f3 T4 P
    4,费用:
    7 ?2 X* v( _  A2 H) ?2 W
    $ ?8 k7 Z2 R% I2 f. w* m& t* b实测:" `5 Y1 X% m% t% u3 r+ l

    ; I) L# J. P& W+ [/ R296K 字母,用了 9 美分。  O! B! ~6 k: d: |1 }7 Y  }: P8 p  H
    8 e- l2 J( G4 w& K! d
    英文字母 到 token 用量大约 1/3
    / k. A5 W+ G5 v' P$ m, W' x+ _: n
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    / p. K- o4 a' s9 [4 h+ A. M" m3 T5 k9 D/ f2 e
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    . H: i& r" O+ W6 W+ c' {. ?. F  M# f7 E: X
    价钱,非常非常便宜了。
    , n+ J  ?: O+ n4 w/ V, [
    + K5 z6 b, T3 Z参考如下可以计算,懒得算了。3 L* k  t# n. y& ]( ?9 \$ u' Q

    ( c5 T7 W4 H% T: n+ p9 Q" d2 h+ chttps://api-docs.deepseek.com/quick_start/pricing
    % S6 w1 E# o+ W# f. ?' [& V: l' p) g" M
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.143 C) t& m& l! Q& s: \
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ! @3 V& Q1 d: O1 r* A6 _$ n: q1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    . V: D" f( f+ ]1 j: Y  S5 b) `7 A6 ~5 j! {3 ?  g& G+ a1 h
    5, Balance
    ( P, i: t3 ^) k9 P: S0 c* v# l5 Z+ Q
    可以在程序里调用,知道每次运行结束后,balance还剩多少。" f' a/ h) _+ {' V1 E
    参考:
    ' e9 |2 u# w2 e8 }https://api-docs.deepseek.com/api/get-user-balance
    + l  G( P( J+ N4 I% S9 S, g# ^5 T! m0 H! l6 i) N9 V  Q" Q# l0 E
    6, Models
    # X) `" p7 y$ ]0 T3 y# i
    6 w. ^, j# E0 X1 `3 Q+ P' P目前就两个
    : `# P; N& x/ C4 k- m8 l# deepseek-chat% F, p6 a  v' y8 o! F/ x% u$ P+ x6 d9 }
    # deepseek-reasoner$ Q7 p; }! G" f( ^! x& ^! }( R
    . i, W8 p1 a) m) Y1 o
    参考:+ P' i/ B+ \& e3 T1 T, h+ x' y' @
    https://api-docs.deepseek.com/api/list-models
    , O# n3 a+ h  l% X1 g
    8 s. @( V  t" r& l$ Q  r& m+ s" v; ?4 H, Y0 _
    7, 问题9 \6 b8 e9 z; m8 \

    7 f' H8 Y2 G* r& Z6 d2 ~) n$ \+ udeepseek 会将前后两段合成一段。
    % z9 R% f3 M8 Z1 X3 z特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ) _) n  ~+ z6 F: x2 v0 n  {" c. E2 y4 ~
    8, 钱说了算。
    9 `, S" l7 v& A, V8 z/ W% {; z. }3 z; W( K8 }" H2 U. y( `' e* a& t+ D
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    8 e/ b. s$ {* U+ _1 B* I但是API就不会出现这种情况,毕竟我们给钱了。
      J6 O. D  v/ W# j8 M6 zchatgpt也是这样的。+ g5 Y9 G- u" F

    * I+ O# |- w  |' K. i1 x) v: M; C! o8 N  @. l

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-23 01:49 , Processed in 0.061719 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表