设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2516|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 3 S2 O4 ~% g# d5 Y2 |/ [

' x% Q: v3 v  D3 G- C' y把PDF上传,然后让他抓取文字,并修改可能的错误。0 _6 u& u# O5 |/ t
然后deepseek完美的完成了任务。
: o1 m6 @7 d% B段落清楚,列清楚,页眉页脚全部去掉。: b1 g$ a5 D. }) ]+ A$ {
我要疯掉了!* q# T5 z6 d" v$ f2 L
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!4 Q) f4 M$ Q) k; Z8 W1 C0 U' b
====
  o, q2 Z* d+ S中文也很完美。
' t/ O' I' {) Z6 _2 i( H, y经验值,每次十页比较稳定。' r5 ]% y: Q! @& F. O$ h
现在我这里API还不能用,等恢复了,全自动了。  O' Y8 j) c( S* w6 ~, Q: Y4 ]! b
====; F& Z. Z1 s; p* D' b
第二次疯掉了!
& Q3 B1 a  a, W% `# D我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
* j2 _. ~, s( W0 i====9 {4 \( @9 r2 _& C) A
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。1 u$ @, ]; d% `! {( E0 I! ?
但是任务多了后,每次翻译的页面数是减少的。, D/ g8 o9 t; w+ a+ E8 ^- @$ [  S# e) ~% T
好吧,我五体投地,继续探索。
( g5 m9 d+ o- f3 I; S====6 o  ~) v- C' ^9 b
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
5 S" `2 P6 |' |# [3 v5 ?====
& d9 E8 ]$ e3 b/ ?5 g好吧,有些东西是不给翻译的,哈哈。
, Z! T& B7 Z( a6 W% B% ~+ j& y4 s' A, W& d) C  t( U
Sorry, that's beyond my current scope. Let’s talk about something else.5 ~" n3 [7 D$ U. ]! F4 i
====$ w; n/ W( m. |9 v; x( T/ l; |
然后我的英文命令也让deepseek 帮我修改,呵呵。" v1 o7 X% g; q$ X3 ?
====
7 j5 [* o$ x* q日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。; _! Y1 w' t0 N# E! N0 J& B
====
+ e- p# Z8 ]* U) S" M* v) H时间段的话,北京时间的下午和晚上用比较好。
' O0 h" t3 U) G; ]后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
3 }' T4 ^9 z) q  A9 N$ F/ s====
9 Z: K) e& K  v6 b4 ^- R) E2 w/ S用千问吧,非常稳定,非常强大。
/ m4 \# s% w" hhttps://chat.qwenlm.ai/
& {" e1 V$ m# n/ b4 f7 V, Y; _0 A====7 a/ H! t9 I6 h  e, s# B8 U5 m8 s
Deepseek,API 看上去可用了,但是不给充钱。
2 d) G/ K, V' g; e3 M' v- s
8 V/ a" A8 b1 l* _! X: R1 y
  {8 f  d5 ~2 a3 s5 V
1 e. n$ M  s% f( p; _8 g

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ) V/ a. Q1 }* C0 U这功能很赞呀

    5 j. d7 Z6 R) |' l. p简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13, o8 W; j; g- l6 S$ C3 [
    有没有上传整本书试试

    " ^7 a8 L' @. ]9 w/ B$ G! J9 {+ X目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    # O5 y5 Z4 v  O3 t( O3 q( }7 N0 k! q3 w2 Z6 I! \/ q
    以后让deepseek 读出土的竹简
    ) _: n$ U, Q) g4 S$ K7 {2 e2 j4 i+ s& J/ X
    还有把古文翻译成现代白话
    - I. N- Z* s- V5 e$ R4 Z/ f1 Z7 z1 C3 ]. g8 R& }
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    22 小时前
  • 签到天数: 2826 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    " E6 P; g4 x3 [( t& O: O5 O$ W" r! P2 X8 t8 C4 x
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:238 \9 y& Z4 `9 m7 N% l% o" q
    请教是如何实现的?
    ; n3 u; X- _. _8 y5 X
    ( J! b5 A0 s) ~我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ' [  y# u1 Z$ x
    9 z7 Z( k. |5 V3 N+ J2 G
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。2 z' ?" W9 \$ v
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    7 K* u& U% U0 b0 e/ L美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    0 n3 N5 F) A' h: A4 T

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    4 w9 r/ u* O4 f& t5 G0 s请教是如何实现的?3 i  h( |7 q( _( B: t7 y6 Z  `" m

    + E. ]( g( X  X* v) ?1 ~' w我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    # K$ ^+ D$ B- y8 Rhttps://chat.qwenlm.ai/
    9 l+ h2 \7 d. ~6 x1 U' @" `+ k) R试一下千问,估计美国人没有攻击他,所以资源敞开用。
    0 g2 D6 {2 }2 z4 F& o- o: t% k很稳定,质量不错,好像最多一次处理15页。
    ( n% m/ Z% o9 z% N# f我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 2940 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。7 M- q1 m4 V. Z
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。$ ~* `) x* W7 j4 r8 |9 F
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    5 E4 Y1 q' b; e/ a4 Z8 y( Z, R+ p2 M- F( C
    https://github.com/oomol-lab/pdf-craft  R, ^$ m( ^9 [6 N" u6 k1 ?4 @
    7 s) i- E: F# x( v2 s
    1. 这个工具要求装 python3.10
    $ v- f) A" {1 _$ @* f2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    " F9 M0 {- W/ i! }3. pip install pdf-craft
    5 k) x- C9 |0 x7 d$ P/ Y0 r4. 把下面的内容写到一个文件里,例如 a.py
    ; k4 ^$ v- {* E; u+ }+ g; `& J. s  K1 ?/ n% P
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter3 o2 P2 O0 B+ {5 s7 v& f2 y

    2. - z- D& x8 g5 U' j  ~2 T* m
    3. extractor = PDFPageExtractor(" \. A+ U. ^2 k& ~$ [: q
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      3 e3 R* _" z% A; a: P" t
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      + m+ h4 R! ~/ H6 w! d3 `# J9 t
    6. )
      # u: R5 w3 e# s# p) [1 p; y* `# u
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ! t9 V- r) Y8 J5 {0 _
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      5 @' v; J  d) m! p& T3 W
    9.     md.write(block)
    复制代码

    9 Z. `5 r4 J" ]- t1 x" B+ T& i: _4 Z2 \& j. G* t, H" d
    要修改的内容:
    6 o" w7 M% a: r2 Q4 c2 T4 p& S' }3 L4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型4 f1 y; d% n& Q: @
    4.2 markdown_path:输出的 markdown 路径文件名
    ! T4 I) M1 }/ B6 G$ H7 y* x* \4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ' }7 _# B8 V2 L# b5 R1 z  _6 r0 u- m" k. Q) l
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    7 }; Z2 m5 O# v3 o  K/ ~# |: U  [& K
    目前为止PDF转纯文字的最佳办法。
    4 s0 s, `. G. _* T4 D2 J+ ]8 X先写个小程序,把PDF按章节切成小的PDF。: n# w5 p% }0 h8 N8 Z
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    . G. l/ V& y1 S2 y& L9 i效果非常好。
    # I8 i7 Q; r( f1 u- _; X9 n: W6 E6 W- B2 j0 [4 }- ^
    deepseek,qwen,chatgpt 三个,deepseek是最好的。5 g- M9 e" d* \5 ~
    - M6 L3 x( V& ^# g1 @: l
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    - J/ A1 B% ^7 @) z6 t而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。0 O! ~" S* @# i: o6 J5 c) g( L$ @/ c
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。2 U5 \* w0 H' y$ g6 w  w4 ~) A

    8 r) w! H1 t9 Y8 \0 h: OAPI到目前为止,差强人意,不如网页版本修得干净。$ i0 i5 o/ \7 G. ]6 r# L( H

    $ W; V" L& x- ]7 f7 v4 o: u- ideepseek可以同时开四个。3 W* F/ a7 J4 J0 i7 g! B

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 2 f6 Z  G8 C$ v: Q

    2 Q# i8 I& R3 P( k6 a' F9 j让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26: Z! K# @( U. n$ _$ M) y/ _6 I
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    * r% i9 v9 e  c1 r8 ]% [% Z
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    7 X9 Q+ d  }3 F3 c& {细说一下,听上去很不错,多谢。

    9 B1 a( j0 r# l# p/ I: h直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; \& M+ D) c6 ?% k; j

    $ l/ w$ |6 H. g$ }7 w已经搞定.
    , U" v* o% c+ |% @& m2 f% v3 r% P: E3 @$ z9 J4 p& T/ M
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ) V% G7 b6 b2 [% e1 y; N, q
    1 w& F; W0 Z8 O5 u( l, q, d1, python + pypdf 按章节拆分小的PDF8 b" k) P: e( k4 n# {+ x) b% T7 w
    + i/ }' O0 `2 I. r
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 R5 y* T  I' t; x3 N  D0 b2 o% J
    1 N, ]  j" y4 P
    得到text file+ v* ~  g3 q) w
      ]( u4 N( i5 @" G
    3, python 读取整个outputfile,丢给deepseek 矫正。
    ' H: }& j; u; ?2 X' ?# Z
    . N" B( ?/ c7 y模型是 deepseek-chat& w9 h8 e8 j2 H& s
    8 R; k" s( J5 r0 s6 t
    max_tokens 最大是 8192,别的不用改。3 m) `8 r' n  M3 }% j6 o1 S

    + A5 n, f3 P/ L; [% N4 f参考:
    ; d! ?! Q8 ^# h. r$ Ehttps://api-docs.deepseek.com/api/create-chat-completion
    ) f% g) J! ^2 b3 g* k
    , {1 N8 m, r% X, Q' W4,费用:
    " }$ y( H! l8 i  Z4 L2 J7 w- S5 \' ?  |
    实测:
    % M* w1 k9 T. t9 x0 V" o0 b* Y$ N: g0 E) a3 M; K/ L; K, {3 d# J' f
    296K 字母,用了 9 美分。
    . \/ I. s! }! e) ]7 w1 O1 u
    " v& b# R; K) x$ L6 C# C! R: v英文字母 到 token 用量大约 1/38 H5 f4 l) J4 X6 A6 P! @" W) \

    7 T. u6 d- O( v1 P8 g+ ktokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    * e" B; U' ?% X8 f6 B* A* {2 q9 s0 I* s
    32899 个字母花费 11782 tokens,包含输入输出的 tokens4 u* [& r5 Q9 f& m' W" K+ c
    6 ]+ H5 Q' e/ ~* `1 s* X
    价钱,非常非常便宜了。
    4 I( _2 F) Y8 }& B
    2 {) ]: o$ F# ^) `) Q参考如下可以计算,懒得算了。0 |4 C) E6 L; F" V( N8 ~2 x  h

    2 @  g- H3 |+ V) k% mhttps://api-docs.deepseek.com/quick_start/pricing; N7 c3 b1 ^; [1 {* g
    , S- a( ~% H- I, _9 @) ^
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.142 Y; ~4 U+ s1 `( d' A# D% n* I7 m
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55: e( \: P, Q% w$ \
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ) w: I% E% F* [/ z" J
    8 H7 K* B& D2 w, h5, Balance
    2 g+ U! K6 V' T0 J
    ; z  q) E; Y* I可以在程序里调用,知道每次运行结束后,balance还剩多少。& K2 n( G3 p0 q
    参考:& M7 a% O. [! ?0 e
    https://api-docs.deepseek.com/api/get-user-balance7 v( T- c  L0 D+ G3 \, J7 }- [

    % W! g* O" w% ^; j6, Models
    8 X! v% o, K2 d. X* O& J/ D2 q6 U2 t" J3 z+ J
    目前就两个
    6 {4 k( {8 e, x, N  P$ F" P# u# deepseek-chat; {8 ~4 k: d% f9 D" w( ~) E
    # deepseek-reasoner
    " F/ R1 w" R: B/ q6 W; `  D% [
    1 x% R3 F4 F+ n) @/ h9 n% }7 u参考:
    9 z2 v$ ?$ _6 m( P! n( dhttps://api-docs.deepseek.com/api/list-models
    7 M% i8 w( t: E
    : `8 S; H) t0 \$ j' D
    5 P7 t$ a5 H9 m7 Y( ~& _2 ^+ ^7, 问题2 ~5 \6 s$ c6 P1 \! H, u) s

    ( {# u8 U4 C' S' s) vdeepseek 会将前后两段合成一段。$ R& Q1 d7 ?$ w3 E8 P. S" m
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    / d# K- k. m* Q% t+ Z5 J) l2 ^" d4 O+ M, _
    8, 钱说了算。: d# `7 H; A. ]. e! a6 |
    - m8 B- \  M& n! Q( M
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 j6 L/ ~! b% F& i6 u
    但是API就不会出现这种情况,毕竟我们给钱了。2 z% f$ c3 C3 I3 C2 h8 p
    chatgpt也是这样的。& p1 ?7 l" V4 R1 Z) M7 F
    , K7 s1 N" }" C" U' d

    4 T. k- O! }2 x4 V

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-13 22:21 , Processed in 0.034250 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表