设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1571|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 * g- X: B/ g" I8 C& R; ]

( D5 h5 c3 W9 X+ j+ D! ]& c  j0 ~把PDF上传,然后让他抓取文字,并修改可能的错误。
1 C6 F$ x5 d; U- w' B然后deepseek完美的完成了任务。
- b: l4 n0 h: n7 S% o  F段落清楚,列清楚,页眉页脚全部去掉。; |% J. V* ?3 E* b* s
我要疯掉了!
" n0 Q# F) e1 y. U赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
8 \9 x% N% {8 I7 b====
0 ?6 |, L3 N7 C: _6 T中文也很完美。, B& B* J: m& z/ E2 v, c. c
经验值,每次十页比较稳定。/ t) v8 r& F8 Y: R4 q( V- J. w
现在我这里API还不能用,等恢复了,全自动了。
7 N& ^" d* E6 b8 X" }====: i. Q; o* z# Y; q# x
第二次疯掉了!
; ~' e6 n% Y0 b6 G9 s% k4 g% W我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
3 o5 F8 t; j, `1 |0 {- o5 `====
7 Y( d! }: N. Y+ y6 o4 n' V现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。5 ]9 g4 v# A% u- r) Q6 l
但是任务多了后,每次翻译的页面数是减少的。, R) R% W+ M2 B- Y  o9 q  q; k
好吧,我五体投地,继续探索。
: V1 ]) z8 r6 M" \9 a$ K  |====
( c; l3 R+ T9 U0 n0 J) m为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
/ K' j7 l4 d! {9 G====5 c; ?, h6 S9 x- H
好吧,有些东西是不给翻译的,哈哈。
) B7 h4 p% w2 B/ b3 C7 s6 h, v/ M/ N: J- ~
Sorry, that's beyond my current scope. Let’s talk about something else.. v4 C7 Z' D9 o- H, `3 j
====
, x' m9 k2 ?7 k! z然后我的英文命令也让deepseek 帮我修改,呵呵。
% U3 t) Q8 b2 l. r$ E  r* t, d====
8 _* `+ k# Y& j6 U! ]8 C9 e日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。/ \( ~+ V* f4 R) T8 c$ K7 l
====- X$ m/ j7 j1 t3 Y
时间段的话,北京时间的下午和晚上用比较好。
5 V1 C: H& a- H后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
) T3 n7 u$ n( X2 w0 X+ m0 _====8 K( n# O0 X5 b. \2 R& `8 A! S  `4 ]
用千问吧,非常稳定,非常强大。. e# O; x! r; X
https://chat.qwenlm.ai/
7 y9 \- d1 M' ?  m) {1 c# c====
# c& @6 W6 K/ f3 {- N- ~Deepseek,API 看上去可用了,但是不给充钱。
; g+ |+ d. F1 L; a: c- Y" y8 Z; @5 Z; D* ~  [9 Q

( ~1 i, z7 U8 \- I) i2 A$ p
, h" d8 [- ]4 M: I

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3498 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53: d" _- q) u. u: P; p# u/ m
    这功能很赞呀
    + q. Z: z7 W* h2 k; M
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    8 o7 U% F/ S9 w* E# f$ t有没有上传整本书试试

    ( z, C4 Q2 H( N目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3498 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 3 D. p1 B$ I' q9 C4 @* o# R4 N3 Z2 E

    ' d0 f2 y7 y% g( h9 u1 k以后让deepseek 读出土的竹简/ _. E, R+ M9 J1 `

    4 l0 ~- v- R' e) }2 e. k$ Z还有把古文翻译成现代白话
    - v: Z8 N) z& M
    1 P1 Z4 K! k1 `- _6 H; L$ X2 |# v以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    19 小时前
  • 签到天数: 2649 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    * A: U4 T" B$ f0 Z; @' U  \; b' {, o3 t4 S; C! D7 C0 J" F+ B7 d! I
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23  P, @, @& r7 ?8 J6 K6 ~. q
    请教是如何实现的?
    5 F. D; y; N+ {1 u2 O6 [
    6 V6 g8 k* w; E1 R* y' V; [我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ; e" E+ o& ^) Y
    4 Q+ [- C, U* x1 k5 L2 A* U
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。( O, q; E& @! A9 ?' t
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    + r% l+ b! P6 l% X" O; L0 R( }9 Z1 }美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    3 z8 y+ v4 ^5 U" A& e8 A

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:230 T9 G5 e! C# u* Y# z
    请教是如何实现的?
    . P* B2 e; e& {+ {2 s" X/ m
    " ?: g4 [) H9 I4 U$ c- g7 G: H我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    6 ~2 W5 S5 G. y2 _9 I& i! I9 L
    https://chat.qwenlm.ai/
    3 w% P( H/ t: ?4 i试一下千问,估计美国人没有攻击他,所以资源敞开用。: f7 M* z( h# G8 b
    很稳定,质量不错,好像最多一次处理15页。+ W/ S9 _4 _9 w2 e5 x! [; J
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 2786 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
      s3 j3 P4 C% `, u1 B处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。6 _- [8 C0 W# N$ V
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    & J6 {  p7 B: M7 g. f" v# N3 P3 N1 b* ]6 q0 x. A2 [0 J' ~* I4 V( I
    https://github.com/oomol-lab/pdf-craft6 i. W# G8 b6 w
    / k. ?, H) }) p
    1. 这个工具要求装 python3.10
    2 T2 N* x! s: {3 _+ D1 l2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    2 _1 b; {& D3 X, R5 V# v( K1 c3. pip install pdf-craft) ]& @/ v* N% W' ]2 }) [: c! F0 W$ \
    4. 把下面的内容写到一个文件里,例如 a.py( v# `! I8 A7 A/ U% a) _# g6 S5 ?4 t
    * E. a& c; y; \+ \- h% R
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      1 `, H7 F% D1 r

    2. : _- I; ?- V# B) i9 |) b0 n% R# B
    3. extractor = PDFPageExtractor(
      6 ~( E! ?: \. M
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      * i7 S4 J4 F1 F5 u7 {3 B$ U: o8 S
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      - P- b! B' V6 |) w9 P5 y) x: S5 O- P) i
    6. )' l0 i& N8 F) G: P, b
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:' _! U3 M8 y: \6 D' H
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):: V& i. _: a" i) t( h
    9.     md.write(block)
    复制代码

    ' B2 A% A2 h  L  F
    " c# _' X+ B8 V0 ?! H3 f要修改的内容:) n( ]1 Y& |; I. o9 I
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型/ [8 u5 e4 ?2 x1 i7 {; d
    4.2 markdown_path:输出的 markdown 路径文件名% k! F+ G9 \7 i+ I8 |
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
      I* c5 b6 w: I, p) t9 N: r  p
    0 ?( E4 g6 L4 o! `& F% l- J5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
      ^6 t6 r5 a: r& I, T- ?
    ; n3 A- O: G1 R4 S: @目前为止PDF转纯文字的最佳办法。5 I- ~; C' ?0 W! x0 \; W3 Y! C
    先写个小程序,把PDF按章节切成小的PDF。* s% P- L0 }0 T- j* J- K6 i
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。' k: q+ u% C* n; S/ W
    效果非常好。
    8 m/ Y, X8 \( I' I  t
    0 b6 c9 k$ P- ^; L. kdeepseek,qwen,chatgpt 三个,deepseek是最好的。, J( R' |; {' n. r: {$ g9 J: k" k+ C
    - M7 @- u1 i: b8 z
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    8 y) c# a9 j- J" A5 n, o而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    : Y+ r: ~5 ?1 R; R) e' U4 {9 r5 d; h我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    0 x% m( o0 d, Y- j) M8 D  [, I8 `7 l% A4 @" z3 Z9 q6 l6 O
    API到目前为止,差强人意,不如网页版本修得干净。
    3 ?8 m6 I0 p/ G1 r$ N2 i* O" o2 W
    deepseek可以同时开四个。; R% W1 m( }/ P# m. e; e* {

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ( f7 U* T+ [, X/ N  J: h- U

    1 n" D' m0 v1 m  @让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    . t4 f+ Q4 S2 y9 i) D让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    ; S7 |0 r' g( L: c
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33: `$ D& c+ J# N3 O
    细说一下,听上去很不错,多谢。
    , G8 ^$ d+ _; A- Z* P5 O8 F
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    5 C7 a) K; }. n- F  I# i' j8 P! T) A6 l8 Y# t& J5 g" P
    已经搞定.
    5 S" U/ ^  M4 H9 y0 r, g3 P' r/ n* X" p, s1 v
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。8 Y; ^7 i3 l$ v! t; U8 X

    % s( |, ~, N: S1, python + pypdf 按章节拆分小的PDF
    / }$ O. j' l$ Y
    . O2 y( ]/ h  S! G3 a) d. r. J2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    6 t2 T* y4 N) v4 i9 [4 p  M0 J9 b) v9 Q0 W
    得到text file' e! E* e7 j& o" v# s
    ) O0 E4 X# o: @' `/ a+ g2 }
    3, python 读取整个outputfile,丢给deepseek 矫正。; Y) k5 L' h; W8 y8 }1 j; P

    ( I8 n- W( k1 y& f# g, v模型是 deepseek-chat" F* g  y6 l* s4 n  l( ]4 B
    + s0 {5 q( n' v% g4 _5 d9 u
    max_tokens 最大是 8192,别的不用改。4 l) A& n8 e! z2 n
    0 q" i! i8 Y) \. x/ A# R
    参考:! m2 J$ s6 [: H& ^/ i2 ?4 E- U
    https://api-docs.deepseek.com/api/create-chat-completion: X3 `4 |4 f6 p2 j& G; \, A
    ' Q" W7 p$ z  G0 r0 U7 f! X
    4,费用:6 S' y# P+ h) I4 T# \: J" S2 [' T5 u; g
    ( ]' G7 i3 P2 M. }5 [% Z4 z7 l
    实测:2 w$ h( P+ s: ]6 A
    6 S5 O5 x6 ~  `/ d8 n. L8 N' R
    296K 字母,用了 9 美分。
    4 o" `# Z5 s( G
    : V' ?  o$ [1 k7 d7 p6 {英文字母 到 token 用量大约 1/31 D, U) O2 o1 x( ?( s! L, J
    " w( g5 _( f- U+ r; }3 P
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ' \. g# J! P( Z. c: v8 l2 Z8 |; W  h$ O# z# e
    32899 个字母花费 11782 tokens,包含输入输出的 tokens0 H& }$ S! I7 f9 @, ~8 u" ~) w

    1 H8 R* g9 A4 p* E- H价钱,非常非常便宜了。
    9 [  `8 G( S/ w1 I: j2 }! L; ^! ~  d. s8 l. g
    参考如下可以计算,懒得算了。  q1 H9 U. j6 [# _* z+ P

    ' I1 g+ S- Y, N2 D8 yhttps://api-docs.deepseek.com/quick_start/pricing
    2 a/ v: P( J$ g0 O
    8 t( {  A, C7 e5 D' |. h( B1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14' H, |" v# k+ T6 l( f
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
      n+ F% a7 H! W' v  S1M TOKENS OUTPUT(5)                                              $1.10                $2.196 C8 T) s' D/ ~( Z6 y0 _

    & u$ ^/ l" X6 r2 N4 e# `5, Balance
    9 Y  W4 l7 b9 C# Q  i& b' g
    6 c; f+ l; V: r) B9 C可以在程序里调用,知道每次运行结束后,balance还剩多少。$ S. T* ~$ h% X- v! W, @
    参考:" Q7 ~; ?/ x% Q1 l. |. {9 X
    https://api-docs.deepseek.com/api/get-user-balance$ W- r' }: c+ k  }- x$ F: z

    * m/ S* {+ |0 w* R6 \  [, ~. E6, Models
    ( s5 \$ J+ l! \0 t% u; m9 \7 ^) B( a' E. d+ ~& A$ q8 m
    目前就两个- z: l2 C6 y1 ~# z) [
    # deepseek-chat
    0 D) X# O' U8 ~3 V/ Q# deepseek-reasoner
    7 b! e, N7 Y! |
    ! o, S* g9 N4 S0 K& f* `7 I参考:) }9 z3 t! u$ v; |0 V
    https://api-docs.deepseek.com/api/list-models- ]. g! ], r3 ~, m

    : U) w* F) D8 v1 |& g
    + r( s$ S' H7 J. s. R) x7, 问题
    % l3 @. _+ u' i; n. `5 P7 ]: b
    4 R) K7 Y; W% j6 l3 G6 [deepseek 会将前后两段合成一段。
    - N- J3 `# ?2 B+ y特别是那种大量的对话的段落,deepseek会给你合成一大段。
    7 k1 P' [- O% p; ~. ^/ C- o1 k
    ; |/ s$ I# T& t" N  u: q8, 钱说了算。' @7 C" [9 n7 K# l0 ^

    ; c# F+ Z) y/ ^  I1 H& Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。  y( Y$ Z& M; H8 i! l4 m
    但是API就不会出现这种情况,毕竟我们给钱了。
    . }( m3 J4 l: z( u7 uchatgpt也是这样的。
    . c: ~5 t- k6 s$ F% ?+ R1 D
    # O- E3 z" J; w$ o/ V3 v3 }6 D
    1 W: f0 k! j% `! u( O

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-2 19:51 , Processed in 0.055185 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表