设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2514|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
" \. q8 V! v1 w/ v4 S
* d/ _  b9 G6 o1 ]# N  S0 t! q把PDF上传,然后让他抓取文字,并修改可能的错误。
% {' S8 d% l( G然后deepseek完美的完成了任务。
" v( D/ @) I, l5 U8 V# K段落清楚,列清楚,页眉页脚全部去掉。
( r) I5 j6 {2 |/ I1 z" O- _我要疯掉了!# o( G$ [1 N4 c( U
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!& p( T& n0 m( k' I& U
====8 g* H* J" Q  m8 S+ @# p" m& I( _8 C
中文也很完美。. U4 c1 |: w* `1 g& A; _
经验值,每次十页比较稳定。
$ b$ I; U: R, Y- E: [% Z. d现在我这里API还不能用,等恢复了,全自动了。3 V5 N- c- `" p
====: A& z5 m( z9 q8 N
第二次疯掉了!5 k% s1 Y  c5 ^' U  j6 G. o# ]
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
) y! L$ m! t' B7 ~# e====% L7 V0 y% Y. p! n* P# V) K
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
/ x% Z' [* u% I# f9 _- p2 P但是任务多了后,每次翻译的页面数是减少的。  z+ {. |  b8 U& h  C
好吧,我五体投地,继续探索。- R: r) z, W: i/ C
====
7 [& z& ~# }* ^" c# B1 T; D' r6 x, E为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
4 A9 N9 ^% e1 D) y. {====4 p( M. i% l$ q4 B6 T
好吧,有些东西是不给翻译的,哈哈。
$ h+ I* H9 V5 n4 I" [
8 }* R/ A/ M, ~& KSorry, that's beyond my current scope. Let’s talk about something else.5 M7 e% u' D6 `. b+ i) L
====
2 k; Q* K* V5 m8 G然后我的英文命令也让deepseek 帮我修改,呵呵。
2 Z. ~" p4 V* h* t8 x====* F1 u2 w0 j: z/ q7 j5 `6 T
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。6 W. h& }8 i6 G7 {1 t; x. R
====' m$ {: N- I8 @( x+ i' d8 `* O
时间段的话,北京时间的下午和晚上用比较好。. V: I; }9 I/ D! y! V
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
, _% R( K: ]0 \5 w* U2 G. S====
0 w# n' V% u7 k' D% L  n& l2 L/ W$ }用千问吧,非常稳定,非常强大。( l4 u8 d" }& _' }$ z. Y8 N  P3 h( b9 ~4 D
https://chat.qwenlm.ai/
# ~/ B$ |( p- I0 I% W4 G& W" d+ p====: [, A: \+ C. `
Deepseek,API 看上去可用了,但是不给充钱。3 u* @% w, @# P

1 R3 r( Q0 R& E0 V1 N$ U) B) P7 P2 v" A" q4 @( K' y# a

& \) u' M+ S) z1 L

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    - q0 H, Q6 t& t7 U- n% F这功能很赞呀
    / n2 X: o& H- n0 ]/ \# z
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13* k* N# Z9 V, p, R% g* i5 J
    有没有上传整本书试试

    ' P4 h8 T( b; o, r/ [9 j3 T  I4 h目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 # @0 A7 R2 c) j

    9 g1 ?" n* L8 P  P; w  I/ A/ b以后让deepseek 读出土的竹简
    + c$ i2 m+ F2 ?' V4 P- r+ p0 e7 z/ {/ A
    还有把古文翻译成现代白话9 r4 s; W  q1 J) B  l1 ^; K' M# U

    1 D" _6 X4 E, L1 B5 B4 I0 |2 G以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    15 小时前
  • 签到天数: 2826 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?4 [; ?( m! `5 y* s
    - U: ]/ y- o1 v4 W0 e5 y* g2 w% \
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    , e4 [& U4 ^% h6 G/ _) T请教是如何实现的?
    5 t! n$ ?0 ~1 K, m3 \8 @: x1 c2 f9 }6 c" R
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ! g4 v5 v' Y7 o! {0 Y0 c1 P6 s
    $ ]2 {/ H4 I# A4 [6 \* W& ]我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。# w6 K- U1 a: ~6 Y' [3 Z# @
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。( g5 Y. M1 d4 W' e& h- R  t" `, \5 J
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。6 p0 [& F/ V7 [* o/ \% _/ D, L

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    . q$ I5 p7 a+ d) i; K1 [, {请教是如何实现的?
    $ x; L$ P# E! d# j+ e
    # G# N2 l$ r% ^我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    - l6 r" k  H0 z
    https://chat.qwenlm.ai/( B2 O3 D+ M7 v" w
    试一下千问,估计美国人没有攻击他,所以资源敞开用。) F. N! H- p2 ?9 R* ^* U7 g
    很稳定,质量不错,好像最多一次处理15页。7 G! r7 u& A9 k+ ~( |
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 2940 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    , C* w+ D7 u# O3 R5 [  S2 V* m- i处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。7 Z4 r2 q4 p# A7 ^( N" ]2 w
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。$ u7 K6 q& C+ a- ~+ E
    - Q: `" \# F8 T3 `$ G: Z2 x) z
    https://github.com/oomol-lab/pdf-craft8 Y4 b1 V! H" H
    8 x7 e& r  i+ J& X* L
    1. 这个工具要求装 python3.10
    1 k- p- K% D9 h% A2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.05 }# p5 K/ m; M$ ]
    3. pip install pdf-craft
    + y4 Z# m; L% K) S, G% ]4. 把下面的内容写到一个文件里,例如 a.py2 M- e: ?7 f/ a: k

    ( n9 }4 k' I  c8 j' D2 h: x2 \
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      8 E1 p3 q" g2 _
    2. / X% T: u  L& b9 Y, G
    3. extractor = PDFPageExtractor() v# e% z9 [: k. U
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      . h8 Z; Z1 a; f: W$ B& [6 }
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ; P) [0 X3 G4 H5 b" S8 H: M5 z  A6 j
    6. )
      ) o6 D$ z. \1 b5 w6 s. g: O/ y. i( r
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:( G2 Y1 ~" Y" b( F+ I
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):6 r! v8 c0 i# P, l# H
    9.     md.write(block)
    复制代码
    3 j: E7 M0 |) M1 S7 u. U( F
    : [/ C* r% v) {# D  \. F0 j  I
    要修改的内容:
    ; g% f* P) ]2 L7 X+ b* j) {) g4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型  a0 J1 q! }3 }  I& u
    4.2 markdown_path:输出的 markdown 路径文件名
    7 P" w2 Y- ^: `+ H& p' O' Q' s4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    , p% K7 v1 k; @/ Q9 O3 n& L* H
    6 L8 ?# j' m. ~1 b$ i3 a  r5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 4 y" L2 ^8 c: e7 L( r% W! g% {
    2 I& u4 u: a) L5 M
    目前为止PDF转纯文字的最佳办法。
    ) K- T5 i( d- k9 I先写个小程序,把PDF按章节切成小的PDF。4 q% }. A, h" h
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    8 W7 n, `* ~* ^2 W7 [7 @效果非常好。
    + U) h  j- W1 P  K* d& c; S3 \1 t' o1 d1 ^6 `3 A: W6 J
    deepseek,qwen,chatgpt 三个,deepseek是最好的。+ ]8 d0 f9 P3 b2 c6 K' r
    * G; |) c3 S8 D2 C' k- I2 f3 S
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。/ Z8 P9 @' L+ d9 G( T
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    6 W3 g. X! \5 Q( k5 Q6 Y# t我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    " Q5 F. K, `. n0 C8 G' N
      G. C) ?5 l7 x; k0 U( ]' z& g) ?API到目前为止,差强人意,不如网页版本修得干净。4 F5 S" Q4 H/ h* a6 }$ e
    ( U( y* d/ B2 f- O
    deepseek可以同时开四个。
    % j* t% S) z5 I* `0 `1 e( F

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 $ W& u: r' m7 b3 N- e5 \7 n
    7 Q( X. s* C4 C8 c
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ) l9 E0 s+ I0 w, F# d+ n让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    + N4 w, u$ p) p+ t
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:330 a( S: C5 r* X0 `/ ?
    细说一下,听上去很不错,多谢。
    : Y' p% D8 O, O4 W7 Y: T
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ; q9 I& T/ T1 z2 C+ T$ ~3 ~  R" Q
    * }& N& m3 e* ?& h0 y1 j# A5 Z已经搞定.4 b0 U; U1 _( ^# q3 Q' n" i" b4 H  D  C
    * W! V* H7 f8 ]& f8 S0 H3 o! \' q
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- {* l  j; G$ g' N4 ~# x* Q6 H* c, R

    ' }7 R3 d: Z' v' \- y' [1, python + pypdf 按章节拆分小的PDF+ o! `4 V- b8 h. i3 X9 I
    ; }3 Q& A) H! J! g5 Q
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile  N6 W# U: n  K( A5 ]/ K1 o; |
    4 E3 X* i. F1 p
    得到text file
    * d$ [2 D# F! n8 `" H8 B# Y# k. g! z% ^
    3, python 读取整个outputfile,丢给deepseek 矫正。
    2 U5 K' F: |4 s' a6 P+ o% `$ @( u0 x, o
    模型是 deepseek-chat4 R/ i0 ?. j1 A
    % d# \, w2 B( A7 J: p  \
    max_tokens 最大是 8192,别的不用改。
    ; W/ W8 @3 U' G$ K3 }; u( _9 M+ y1 L' n% O9 @: ^4 e
    参考:& g- [. P2 V4 F/ ~6 R
    https://api-docs.deepseek.com/api/create-chat-completion
    / h' i1 _( W& Z. A; \
    5 a3 e# J1 _  O, b$ |  ]$ s& F4,费用:7 H+ o" _6 [/ A' K' |
    1 v" H7 x9 H! }8 J. M" Y
    实测:+ |/ {1 l2 @0 n
    % d2 h) v  [3 _" J  ]8 y6 |& a1 Z
    296K 字母,用了 9 美分。
    3 p/ g5 `6 ^, Z& s
    9 A1 g8 m; C: D8 u英文字母 到 token 用量大约 1/3
    , n! ~9 r+ A6 e, f3 u% [# T
    3 w# m) q- J1 Mtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    * i. K2 ~7 ?3 X. L4 `% E  Q) p/ P
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    ) o$ c; s# U  i0 s% x' ?4 f
    7 i! v2 ?8 X. t8 X0 {. Z# J价钱,非常非常便宜了。
    ' N! R: [& Q% s2 `, u, F" F: s) m8 r& |2 l6 q5 s) r
    参考如下可以计算,懒得算了。
    2 E0 q: ?1 P6 G* N- y: e0 o$ ?
    * @0 ~2 ]+ |4 W. v# H1 h) A$ Hhttps://api-docs.deepseek.com/quick_start/pricing
    : D6 W/ L- `1 `* l' I6 d4 V" L
    6 O+ w& n' f" m7 U, r1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ( m/ x1 n0 P7 v1 F- x! c& S; |1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55/ c9 y! Y9 x6 u2 k3 d% @6 B# o5 v
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    8 |/ M& p& M: a) @* ~9 X& @) r% X3 l3 C. U7 y3 U( _
    5, Balance+ p& v9 l% b8 [* }$ M( B: n
    1 X' ^! D# S3 `7 T6 y
    可以在程序里调用,知道每次运行结束后,balance还剩多少。) w# \. }  o$ y  I& `
    参考:
    1 S5 C8 u0 ~- q: `! U0 Rhttps://api-docs.deepseek.com/api/get-user-balance
    1 y1 j1 |2 d" h& k! v' U7 f: d8 f. B! s; _# H; ]
    6, Models
    1 ~3 f+ X0 r: {
    * V/ H" i( d4 y- n. Y+ o4 `目前就两个
    / M% P0 r% [6 {1 h0 L, f- h; u# deepseek-chat
      O' y6 Z% S7 `0 o# deepseek-reasoner
    3 E$ Z# t: U% z! y; X
    * y  ]' C/ B2 W# u; p; R8 `/ y, Q参考:
    4 \, J1 ?& v4 U+ H+ hhttps://api-docs.deepseek.com/api/list-models9 `6 G8 v6 b+ u4 e7 R1 \( V8 r9 n
    * s  \# N; z6 t3 s( ^1 C) c

    3 n  `3 h: p, R7, 问题  @0 z6 C3 U4 Y4 F

    3 J+ i2 r6 t4 J5 {/ Xdeepseek 会将前后两段合成一段。: ^8 B( ?6 Z4 n# }, Z. w
    特别是那种大量的对话的段落,deepseek会给你合成一大段。9 R0 b: U( N2 C# X1 o! B

    : x! x, j, f# a: h8, 钱说了算。8 O& V) ]2 h% a" l) j

    0 J- y( A* @% h2 c6 i3 k* ddeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    / W! n' K. p/ y% J3 P: B5 R但是API就不会出现这种情况,毕竟我们给钱了。! s7 {& O5 y3 _$ U
    chatgpt也是这样的。
    0 `, F: D$ O0 }7 T, V  O& f* M3 H8 B: t& `9 @

    # E9 b9 K, z4 K4 T& l/ ]

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-13 16:10 , Processed in 0.036079 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表