设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2450|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 * \/ p2 }8 N- ^1 X4 H2 Z& }; a
" T, f' D4 B; F, g5 f! [5 D
把PDF上传,然后让他抓取文字,并修改可能的错误。
1 O% o! ?1 Y' b2 ^9 I: q4 o- p然后deepseek完美的完成了任务。
9 K' s! I  h* P3 A8 j段落清楚,列清楚,页眉页脚全部去掉。( Z& ?7 Q8 A/ h' z
我要疯掉了!+ y' t8 A" [' V7 m
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
- l, @# d$ d" ?$ ?) K4 Y2 S====
9 z6 @# Z7 o2 L, k! e* g中文也很完美。; \/ N. Q" I; H3 q) a' t& l. b1 v
经验值,每次十页比较稳定。
; [3 Y3 A7 w9 ~  b2 T5 e8 r& L现在我这里API还不能用,等恢复了,全自动了。
0 d4 b1 s3 j+ \1 w====
; N7 _; O# ^. h  ?第二次疯掉了!0 E" m8 q  {) k: @
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。3 ^5 A1 d% n  Q2 G, A3 E! w
====
( M8 v3 V2 I$ l! c! M% `: B现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。+ n# a  M7 G5 O% k0 G0 J! k" \: ]: w
但是任务多了后,每次翻译的页面数是减少的。
3 V/ C) r. q4 [好吧,我五体投地,继续探索。+ P% V+ T/ C+ A, ?
====9 ^5 C. H* W  K. d' w9 l/ {
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
1 Q7 h" k8 f# J8 M! a4 C6 i====  s3 y5 B; E' u; q
好吧,有些东西是不给翻译的,哈哈。
: M  k: z6 @) J' d% P6 H3 ^, K$ i8 L. o$ [& z
Sorry, that's beyond my current scope. Let’s talk about something else.
: H) s" |0 `2 a2 }1 z4 [6 s2 M====
& F: P$ \! O$ |4 O9 }然后我的英文命令也让deepseek 帮我修改,呵呵。
8 P& ^! x9 P* D8 Q* l====
# z: m" z4 ^; E2 c* F5 L; f/ W0 B日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。  O; D! `7 i2 I/ I2 H
====5 g- {0 i# ^0 L, x$ {2 [
时间段的话,北京时间的下午和晚上用比较好。: T0 {# y- x& E" q- r) D4 d
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。* b! w* _* r4 p7 p
====
/ H; A0 @/ g( O用千问吧,非常稳定,非常强大。# f" b) v5 h1 m# S- P! O$ U7 P
https://chat.qwenlm.ai/
- }4 R$ q7 ]6 |8 ~====
5 j! P' P8 T6 HDeepseek,API 看上去可用了,但是不给充钱。5 b; [5 `% n$ S5 I4 a0 O$ |( e

# |8 {4 Q# M. _2 u3 c  _& M  ?7 o4 P) s* s! I

. o( h4 M8 @4 Y$ |+ z, Z

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3641 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    7 N' Y, Y3 F/ d4 P8 V' D8 S这功能很赞呀

    1 f5 {- J9 P4 V! P3 n简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    3 `! t( R0 r2 Q# L0 _; Q0 O有没有上传整本书试试

    3 z6 U7 `2 ~2 c/ U" O# y目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3641 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 $ m) ?9 o7 ]5 u- Q( G8 C
    2 y7 B* V1 L( t1 C: ?
    以后让deepseek 读出土的竹简5 i0 X* J" B! ^6 x; y
    3 O& p6 u% S' o# S" p- m0 G
    还有把古文翻译成现代白话
    5 P4 Q- M  Y- N1 Y
    8 J. d. T! l$ x. D以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    1 小时前
  • 签到天数: 2803 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    , h# Y0 \- t, p
    7 |! |$ ]9 @, Z3 {2 Q我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    " @) J8 N7 t/ m; x4 q请教是如何实现的?
    ; e% s- n5 @8 P; W* j" P# u0 P, a! a0 a" S
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    + v7 f4 E- Q2 D/ `
    ) b) n. n3 u8 |/ r我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。8 d3 G. K$ ~5 c
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。% V" L7 V3 J  D- ]+ ]' v
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    7 X- X& P7 h2 ^/ S6 R7 Q' j

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    + C" f# `1 U! x* q请教是如何实现的?- N& i8 \7 o$ ~& c9 Z

    $ Z: G& g1 \- Q: W4 m我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

      {2 |! R, J2 |- dhttps://chat.qwenlm.ai/
    1 h. F# N: l+ b0 z4 f/ P试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ! ]# k& A( H$ X% @1 X很稳定,质量不错,好像最多一次处理15页。$ z' t) b  R, i0 [
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 2919 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。8 {. ?$ r+ y  R7 L9 D: q) e* A
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。/ f0 x% L) {% ^8 j! `; j, y, W
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    % o* q! }! Y  J5 g! _0 l9 a7 A, A6 {* S7 i
    https://github.com/oomol-lab/pdf-craft
    0 `$ k6 C+ ^  c3 N$ e
    6 J2 L9 z  S* A- f1. 这个工具要求装 python3.10% [/ s# v1 p; M
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ) u5 X2 _4 s) U: W) h, i3. pip install pdf-craft
    ) b+ `/ ]$ V. ?$ J$ j% P4 }4. 把下面的内容写到一个文件里,例如 a.py% c' ~6 `' C: |

    $ J( W; y( i2 m. v! h( Z
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      # b& c9 u. o8 j/ @- \, E
    2. ! L% W9 r+ i9 }2 q; r
    3. extractor = PDFPageExtractor(7 b* I' E" k2 ?  b/ i
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.  _5 b6 m+ c, r& }; A$ Y5 r- i8 {
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed6 `) Q' j3 G5 z* ]8 u
    6. )
      4 U3 f/ u; o: F& E
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:' W- b* E& U' `" ~* z  S$ |) l9 O
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):0 O- q$ z) ?3 A; T# ?
    9.     md.write(block)
    复制代码
    1 R8 U4 {/ X& P
    . f9 l( ~/ l: z
    要修改的内容:0 a/ w: ]% j: ~  h
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型+ J9 b% ~: B% Q
    4.2 markdown_path:输出的 markdown 路径文件名* w3 q; F/ U7 |: B! C
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名* R1 _* l( V2 o

    - ?. ]2 W# r% Z, E6 E5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 8 L$ \0 l9 {. `) J- `3 R

    9 o; X: s; a0 c目前为止PDF转纯文字的最佳办法。
    - |  T: D8 L" [  Y9 d9 h2 a先写个小程序,把PDF按章节切成小的PDF。' Q% g' i/ x7 s5 j
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    7 R, V4 {. Y8 B/ F效果非常好。
    + K! Z* S; @" V& d" |- i: a7 t0 K* N# s
    deepseek,qwen,chatgpt 三个,deepseek是最好的。0 G; m* l) u4 X. _

    ) ~# K- y& b" J9 L( x- D; udeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。" _3 C) B* ?5 ^' E* D9 ?
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    * v: u8 D9 O5 k5 y; g6 u/ x我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。+ n9 V, G8 P/ D: F$ ~

    3 `2 ^* ~) |2 h# p5 G, g# @# m8 T7 T" PAPI到目前为止,差强人意,不如网页版本修得干净。% y$ m2 [) M, c# D8 A5 j' M

    $ ]% ^! r+ L" p  G) E# Z; Kdeepseek可以同时开四个。
    ; y+ a! Z& V. r: ]0 G( j2 b

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ( F7 a; h' p, L# _" B4 _+ D
    4 D2 d+ n) }4 h6 }6 i
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26  U. [, q  \/ j, a3 W" M  O& R
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    8 V2 R6 \0 s5 N$ Y1 Y细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33  q# o2 Y$ ^/ J( T( T
    细说一下,听上去很不错,多谢。

    ; w' y/ ~, `7 I直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 : _, [5 f4 s- i, p2 D
    , q- c* m: a+ ?9 ?
    已经搞定.: D9 Q+ j7 p. ~2 _: b
    ; n( b: H0 A% S: O* E3 T
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    2 F5 n! c- q" Y. j1 `8 ]' p: z: f
    1, python + pypdf 按章节拆分小的PDF
    ' L$ q9 [  O8 c& m( R/ ^0 @# h& J3 h
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile4 l0 l4 U( Z! i! R3 x7 m
    ' D# B; ?: C5 `2 e! F8 s
    得到text file4 ~# T9 Y3 g# ]/ R7 l4 d

    ; Y0 i" |3 j* T2 v6 L6 B. S8 V3, python 读取整个outputfile,丢给deepseek 矫正。) a% x/ G$ x' ~1 p  d: F
      {. }" m6 v, V7 O2 e: w
    模型是 deepseek-chat2 p) B" A' s$ [) I

    1 m; T3 `* _! x4 ~& o( P/ j- Ymax_tokens 最大是 8192,别的不用改。
    + u$ {0 R8 `! _4 W0 v
    - y4 y" D% i: O& K) |) Y$ K参考:5 B: P1 D* {3 R* J: O
    https://api-docs.deepseek.com/api/create-chat-completion
    6 o7 n- t, E! F* ]1 P% k" ?! p# h, T
    4,费用:& L. }% b, g# @7 \1 F8 r# y
    ; b) I: A( G3 n7 t
    实测:
    ) l) Z3 J3 M; |; E& F! C4 L; f, T. C3 ?; L  ?7 V( H2 y; y2 X
    296K 字母,用了 9 美分。# r( k2 Q3 }! Y* Y5 a& G  V

    4 R' U2 G  z  h0 x7 a9 H英文字母 到 token 用量大约 1/3! z* E* s% E8 C) v

      `* y0 A8 D/ O9 N2 B' Gtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899' w$ Z3 f; S! W5 H3 g6 O6 f
    + H9 X  b1 N' W: e' `0 i& U" j
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    ! y! M7 T/ S: K% C
    % a, r4 H2 Z1 F9 s# \0 D% T价钱,非常非常便宜了。0 z6 V3 }; o# P- b* j# _
    8 v- u* z# B. [9 w% }7 c/ G0 E
    参考如下可以计算,懒得算了。
    6 w% v, ?+ ^. h  b" U7 f1 U! u" W5 a! t9 J6 b
    https://api-docs.deepseek.com/quick_start/pricing' w5 m7 ^3 P" q& @3 I* V, ^

    1 O) C! O/ |& v: ]1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.145 f7 ~# V% o; `. r; t( l( W: a
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.555 Z1 A6 N7 B" Q4 k4 _( H
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    + P4 }; U/ i0 k/ v/ C! X. \! r0 g4 e  v( l" y, c! r
    5, Balance3 E' _5 S- m  `  u& r9 L, s

    ' F* K" X. |9 C2 b- [* y( u可以在程序里调用,知道每次运行结束后,balance还剩多少。, ?# H/ m) [- p1 q
    参考:5 K1 p( D4 {# I4 u
    https://api-docs.deepseek.com/api/get-user-balance
    ( o/ ]' f% J. B5 T8 ~) P- c9 w5 U: G! H8 i) n6 n2 o
    6, Models$ t1 [  H) \' H  u5 Y5 p0 t: X

    2 v) C+ M/ T6 }8 _2 d( ~目前就两个
    $ B7 f2 g3 X9 j. P  b# deepseek-chat# K' I! T* w/ E2 p7 J
    # deepseek-reasoner9 f8 k& q5 P# B4 G. s

    7 {# c' N5 r8 N- P4 g; W参考:( W% W' @% `* W+ P6 G1 b
    https://api-docs.deepseek.com/api/list-models' J" E6 {9 R0 j1 S0 n

      X$ q! G8 K( \2 e, y; a
    " j* p0 G  M/ ^( k) q7 l/ k: k9 S, I7, 问题
    % ]8 w6 Q; d- i# ]5 }2 {4 a! p5 r$ u& n8 B" _; P
    deepseek 会将前后两段合成一段。
    , r$ f, y, L6 H2 C. M6 r7 F: \特别是那种大量的对话的段落,deepseek会给你合成一大段。
    $ N: e: C+ g$ G# a2 R
    ; a9 G  ~' V; N+ R/ z: y1 O8, 钱说了算。
    / Q, x5 Y7 g7 p1 z8 w4 x5 {! s$ V5 d/ V# U
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 V6 x4 }" C! {( D5 \
    但是API就不会出现这种情况,毕竟我们给钱了。  g# O# z5 e, }
    chatgpt也是这样的。. k% R+ s+ A: f, D
      a0 C$ y! A6 o- ^+ H  `$ J

    , {7 K1 k- y) J6 t4 N

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-21 07:32 , Processed in 0.050110 second(s), 29 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表