设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3096|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 : T, N$ r8 A& c# h: N. J

4 \! s1 ]8 A, X5 z把PDF上传,然后让他抓取文字,并修改可能的错误。
" E" @! |" }+ S  `然后deepseek完美的完成了任务。# o* `- x$ o% p! R, A3 {
段落清楚,列清楚,页眉页脚全部去掉。5 [+ l& S. A3 s* g& }# ?
我要疯掉了!
( Y' D+ r* }1 g1 p" A  l; [  s赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
. I$ h' H1 b5 U1 t  q% H====
, n8 J$ {: [( y! D中文也很完美。
/ V* M( [3 d2 B2 T# E# ?9 Z" a! O经验值,每次十页比较稳定。
( P( c# c8 y3 Z6 U& }9 r% B0 b现在我这里API还不能用,等恢复了,全自动了。
) f/ q. S  {; L* m, C6 H====; c  r" v0 @. A
第二次疯掉了!: U( a5 O$ T8 U! y6 b
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
0 B( n  G; K1 J) _====( D6 N9 S; W; k" o( t
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
' z) |; o6 g# L- |, f* |但是任务多了后,每次翻译的页面数是减少的。
) x1 O  Z4 O2 h$ j! B6 v) o7 h' E( z; u好吧,我五体投地,继续探索。/ c, [/ c! b* U. x8 R$ `
====
  R$ m; L  m' H5 C8 d, b& N9 m  B为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。4 f9 y  ]* Z3 w$ ?# w9 ?, {5 z
====
& F# y1 D8 k% z8 e# X好吧,有些东西是不给翻译的,哈哈。8 q3 u+ i' k$ H" Q- }( R4 H

( v& ^- @) T- l1 CSorry, that's beyond my current scope. Let’s talk about something else.% Q% X4 Q: x# O1 G( L# t
====' F3 Z8 [. S# Z3 {
然后我的英文命令也让deepseek 帮我修改,呵呵。
8 T) k5 k8 O' W$ e====. ^, g$ y; }5 V) ~: p5 z
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
- N& K) M6 D5 H" @3 L====
* P/ X% t9 u2 L6 E时间段的话,北京时间的下午和晚上用比较好。$ g+ Y5 v  {, A3 d' r
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。* C4 S3 e0 }. |1 w
====" @- ^% \8 Y8 z7 ~- o
用千问吧,非常稳定,非常强大。( \  ^/ u. U3 r0 \$ ~2 j; O/ H
https://chat.qwenlm.ai/' v/ C) X  s2 S4 F+ {. T5 t
====
8 d0 T1 F+ e7 v' T  O2 w% e1 Y( CDeepseek,API 看上去可用了,但是不给充钱。
/ t( s& c5 k2 t$ V; E' U- R* `8 t* r( V( ^% k, B

5 S& c5 J, n1 r9 h4 O' J
$ q9 s9 {% p* e! \2 O* U

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3790 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    6 E3 K& c/ ^: k这功能很赞呀
      b" K6 D9 M( v: U. w
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13" b; H* {  o- @( m! _: s
    有没有上传整本书试试

    1 v  Q% S' D' A6 y/ E3 s目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3790 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 $ A" y2 T  K/ i2 W& ~" V

    9 p) ^6 `* b: j9 C以后让deepseek 读出土的竹简/ t6 l, J1 \) A, j
    * z+ E0 v; |) g3 ^) C* i
    还有把古文翻译成现代白话# q* f3 F4 n" D( h. k

    # x$ G  c1 H+ e- Y; ?以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 04:21
  • 签到天数: 2949 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?2 w) {9 z1 V  `2 B' U; t1 b: H
    # S3 i" K8 c# j! i& Q- {$ {
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23# m1 ^8 N2 J8 `; K) `- x
    请教是如何实现的?. q/ C$ i  R; T% Z
    ) C% o% K6 I: G) _8 e. y1 U
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ; z7 t( u: b7 Y5 [
    : u! x, Q; R4 D* ^2 r6 {
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。8 M. k$ m" d* U* ]6 @
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。* X4 S! D- U9 \1 L8 s
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。2 [8 }$ k8 A  f* A" i/ K" B+ D+ M# h

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ; y7 f  `9 n  `请教是如何实现的?
    + N$ h, s  ^+ E3 C8 e6 }3 h0 y, Y' M3 A' @/ b
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    1 |% {" l9 a. F, A
    https://chat.qwenlm.ai/* B% i4 c6 v. x0 _  x8 ^
    试一下千问,估计美国人没有攻击他,所以资源敞开用。3 k3 g5 A2 x, D  z  `
    很稳定,质量不错,好像最多一次处理15页。3 p/ d- q2 I3 f" P4 J9 i5 I
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3062 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ' I/ _5 e' X8 |' y& }  V4 A$ }处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    4 \: o( l6 L4 V& |4 r. F这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    4 j; W  l( f; Z5 Z' i
    0 \/ ~3 L3 `2 P3 q. `https://github.com/oomol-lab/pdf-craft
    ) l; T  Q+ K) D" T9 {! {  w) w# `5 w. \& o
    1. 这个工具要求装 python3.10
    $ }1 }( I* E; l9 |; O- ?7 n! u$ o2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    3 n: ]& }% ], C1 t" p& b3. pip install pdf-craft! n! }# Y  C9 M' i( H
    4. 把下面的内容写到一个文件里,例如 a.py5 h4 r& z, L/ Z; Z1 g0 x. y
    6 Y% ]) T9 R- Q6 H+ X& c7 `* |$ _
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      / ^) ^+ o  V' J) f( z' Q% K4 x
    2. 8 o$ c5 J. ~! H1 \% D5 P1 s
    3. extractor = PDFPageExtractor(
      ; |+ r, m) [  i. g8 [1 g$ }: i( t; N
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format./ d. R' E7 @+ g- X4 f' j% B. e# i
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      0 {) F) q( l0 Z( G& |1 D
    6. )& r5 t. c0 j3 X6 L; u6 u
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      : k; _' F, G9 m) O
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      8 |, j$ S( u% p
    9.     md.write(block)
    复制代码

    5 s4 F! F0 ~  E/ h, C
    & s9 L' C" H! f6 X4 H1 F要修改的内容:
    0 F  I2 b- e3 K; n& u- J1 g4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    9 V" K5 h$ L) _4.2 markdown_path:输出的 markdown 路径文件名' |: ]0 _6 g& L. W
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    # T+ S4 y0 q" o8 w( h4 X8 R9 b0 i% k0 q" T3 h( G
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 2 r+ R7 n( S  H6 E3 E

    6 D; i* B" \+ u. a3 Z! p目前为止PDF转纯文字的最佳办法。
    , \* E, L+ _# M/ n先写个小程序,把PDF按章节切成小的PDF。7 P9 R8 i! F+ i
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    " @; Z! D; n# d' Y) c; q效果非常好。0 u3 ]  q8 \- [* k5 ]/ P
    5 e1 K( ]: n2 q! o# L
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ' u6 }, T7 X) t$ {6 r9 I3 m
    1 I2 o6 q8 J$ kdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。- }" d5 d! Y1 }- n  K
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。3 d# w7 ~! Q3 R' e9 M' k
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。7 M' j  c" d) K0 L( g, E* k% B! q/ x

    $ v& j* h0 x2 ^7 v6 ^: W. `API到目前为止,差强人意,不如网页版本修得干净。
    ' c3 N* K7 }6 t, }5 Y' N. |) u* W1 \4 V0 B& G" P; L
    deepseek可以同时开四个。: O% S+ t: A3 e; M

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    8 e5 i  o0 q' v" F1 Z- b4 i) H4 Q$ `% X6 S, h3 w1 w* s4 _9 G  x
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26  i2 `% m0 F9 _; O3 ^
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    0 \% q/ m4 f; S" |  o3 h细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    % |' h6 H! `7 V! a; _细说一下,听上去很不错,多谢。
    . Y+ H4 e5 g) c4 y5 ^
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    7 t) k5 l( ~  K) s% o4 e/ {5 M+ Y7 q4 o. _9 I
    已经搞定.
    0 b! Y+ g4 q5 b( s6 [
    5 P0 n( P/ c" w' `, L' L' j首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    9 b! _- Y! B9 ^  [$ w! r1 A) e! `- J) s8 z3 Q( n
    1, python + pypdf 按章节拆分小的PDF
    ; Y% T7 b" s# o9 A% f: J: a( H. Y' Q
    " ?' i+ m, q8 c9 g+ Y2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ( N7 `5 L! J- ~. p) Y/ s7 @7 F
    , y9 Q2 \9 D! v) R得到text file
    " ]! t4 ~' S; _$ r. H: l3 _# U8 p( ?4 ]9 p- p, f, v; o
    3, python 读取整个outputfile,丢给deepseek 矫正。# T4 u; k( R0 b  t( p( O  j  O

    * o; B& U7 T& R1 G- n6 |) O  S8 ?模型是 deepseek-chat5 m4 [  S% {2 R( |  ]. ?! o, R3 G
    7 R$ Q, P' P* Z& I  y
    max_tokens 最大是 8192,别的不用改。6 S3 y$ U: c7 d" T; ]; }: R2 S
    4 K1 Q; r2 [, d0 O& O
    参考:1 y2 z9 [# V  G3 n" W1 ^
    https://api-docs.deepseek.com/api/create-chat-completion' X' S: Q+ o2 G7 T3 r$ s0 h

    4 Z+ P+ m7 c# M4 _$ w, @4,费用:7 `- l8 D  O* P( ]  j
    / J  P; [& P% I
    实测:
    8 g. x& A3 R. O$ P/ E/ w2 E$ w  N' f' V5 c, D1 D/ u
    296K 字母,用了 9 美分。/ I  {8 }/ S$ {/ n1 c  t

    % G2 h1 i1 S" G3 a6 l英文字母 到 token 用量大约 1/3- }( ]% p8 o  y5 L0 f3 a
    % U/ s5 J6 S, t! g% ]4 W
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ; o7 J9 x& g# F# `
    - X' }  S. X1 ^32899 个字母花费 11782 tokens,包含输入输出的 tokens
    ) ~% |$ _) k- ^% c6 ^" j3 T' C
    1 m6 v4 A+ h) L6 H8 x% ^价钱,非常非常便宜了。
    " A+ j3 ]7 E4 M7 D' n
    + [5 x7 t5 X, k) w参考如下可以计算,懒得算了。# w# y3 Y/ h0 H8 W& g

    - V5 Q, e4 l# B' i6 v8 u4 U, e9 Ahttps://api-docs.deepseek.com/quick_start/pricing7 \4 r: k- h# l2 o/ n& N

    . b" X+ q+ b* Q) z! X5 p1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    + I, [& Q" N- z0 }$ Y1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ; z/ }( g* I; W$ e7 x( R1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    1 o  I. F0 S/ X; T5 l2 H
    ! g5 ?+ W$ U+ _3 ]0 W5, Balance
    9 l5 z# R7 y. v2 S7 F0 b6 d/ ~; d
    ! m! q6 Y1 w/ W- B. G0 `, S可以在程序里调用,知道每次运行结束后,balance还剩多少。
    0 _, }$ l- j0 k  Z8 p& u参考:6 X" x( }8 J# L+ X1 O& J, I
    https://api-docs.deepseek.com/api/get-user-balance
    ( V, u: S% R3 \6 q  m' q- f# u: G6 u1 o: e
    6, Models
    4 p) u2 l: w8 @0 n# N( [
    6 k/ T- `" Q$ }8 U) [$ L目前就两个
    2 V' \8 A+ A( ]# deepseek-chat. z) s; ^8 j& y+ N, z7 ?' h5 B6 l, \
    # deepseek-reasoner1 s3 g1 c! U' f2 U8 }

    9 u) a+ ?/ z3 F  L参考:
    7 h& u0 ?. B/ I6 X( R3 Bhttps://api-docs.deepseek.com/api/list-models' ?' \8 R( ~. x- q$ s( g
    . r! ^) k3 n0 g) Y
    . |& Y/ v: S4 S1 O- T1 r& k
    7, 问题
    ; w8 @- `, A1 s% E$ |
      K1 {/ o: C7 |# Wdeepseek 会将前后两段合成一段。
    : U( }) b. |* ~# U' h- Z特别是那种大量的对话的段落,deepseek会给你合成一大段。1 w4 H9 q7 h/ I  @
    2 o% R% i$ N9 V7 o6 v2 Q- r, U& V
    8, 钱说了算。, c! v- L$ F3 N' R

    ; S" W5 b+ L+ D2 Y3 @deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ; Y( l1 k$ J% w4 h但是API就不会出现这种情况,毕竟我们给钱了。
    5 [% N/ `% i- E3 D" g; kchatgpt也是这样的。
    % p4 H6 ]9 f( N1 @" H
    ) u: v6 u7 F8 H  I4 c0 }) S+ V
    / u7 \  F. W- r# ~$ N+ n, Q

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-20 01:58 , Processed in 0.074699 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表