设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2620|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 3 Z" Y  k& y* E& {( n
' m) U5 \4 b9 ^% U1 k' A
把PDF上传,然后让他抓取文字,并修改可能的错误。
" G" a2 z; k9 ]: f然后deepseek完美的完成了任务。
  {* ~" v' p2 S6 v+ k段落清楚,列清楚,页眉页脚全部去掉。
1 n' u  D7 U2 q* }我要疯掉了!
( S: ~9 l- t% U2 u" d/ `; |赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!  m) K" c; C6 ]4 o, V
====# Y1 b/ X) B* F7 p7 t
中文也很完美。# w4 u* e' S/ o, o& l3 K) l! O# v
经验值,每次十页比较稳定。
3 i$ H% G2 U9 J- r$ q/ }现在我这里API还不能用,等恢复了,全自动了。
/ t  E% J7 H5 Z  h====% m' F4 E" {3 ~8 @# i
第二次疯掉了!" ~2 I) Q$ E$ v. f# R! n  W+ h
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。( ~1 n9 {6 n) q9 _* h6 g
====
# j/ \; _, j1 m$ F: O* X现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
' R6 O) w5 C& p但是任务多了后,每次翻译的页面数是减少的。
" V5 K4 w: Z& Q8 F- X" U! k好吧,我五体投地,继续探索。! Z' T4 L& L* y. b3 P
====
( J7 M8 x( O% l3 H为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。' |0 g- D' Y' T8 |2 e* z
====5 Q* n$ C2 x$ e7 |; X+ W/ S
好吧,有些东西是不给翻译的,哈哈。
& |' ~* L3 Y% j7 E* C5 l9 ?, \
& ~! M4 K6 m: E' JSorry, that's beyond my current scope. Let’s talk about something else.1 b0 |& w$ s! I# a3 V! \4 n
====
: t; ?4 q. [& R: `3 k6 f然后我的英文命令也让deepseek 帮我修改,呵呵。2 L- v2 f  c1 M% ~: F
====$ F# w$ q% a, U+ W, O* S
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。8 Z3 x4 ]2 X  H$ ^1 E
====8 [5 ^; U- }; ^3 L- i/ S
时间段的话,北京时间的下午和晚上用比较好。0 ^- s( i) l8 i
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
7 X. v1 m+ L) ^7 A====( b2 g0 ?, c9 [! u* R6 [0 M
用千问吧,非常稳定,非常强大。
2 U6 e8 U; x- {; g* o! P" lhttps://chat.qwenlm.ai/
: Z3 `  y9 k! p====
& w9 z+ K& J5 q' ~Deepseek,API 看上去可用了,但是不给充钱。
5 P/ U4 s- h' Y6 r8 m/ @: O  u( o1 x* b
* a1 {: w  ?* E7 i( Z* G# U# q0 D7 q, Y2 |

( J: d+ s0 T6 {& _

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3685 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:533 d6 R; [/ c% [  I4 j& `5 J
    这功能很赞呀
    # N3 h5 H  Y/ A6 |
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    0 P5 ~+ t& N" @# w9 A有没有上传整本书试试

    ; a9 y: F; [, j4 c& H' g目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3685 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    9 Y7 y" N# F; k8 X7 l: B
    ) N; ~; [: ?- s) I% e& Z2 q4 s9 ~以后让deepseek 读出土的竹简8 Y& f! K$ Q: U3 `2 {+ ~- }

    : p: D; {& P7 V还有把古文翻译成现代白话. W# C# H2 J1 i; J* G/ e

    1 e+ \/ h; W% v: e/ u以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2846 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?2 F3 }0 I1 S8 j8 F' V5 T  b
    9 |, o$ {: L: ~
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    9 f  {: L6 o- H4 x9 @# B请教是如何实现的?
    8 z: i' n0 K2 o' X! `6 |- W, y, N% x4 w* R; U- R, l
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    8 T% `( Y/ }8 h! I3 b9 j: V3 e% Y( u' n3 ^5 y' ?; k6 U
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    . s+ P! U8 a& F! L. B文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    + i& U+ a% w$ f, z: O+ M0 b美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    " k! e" k1 M: K$ n

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23% P9 G. o/ s4 E% [( O7 L( {0 k
    请教是如何实现的?
      o$ v. A% X) A$ J0 l# I6 F, j, [
    3 i3 D7 ?; q$ z; b, @: d& B$ y+ `8 X我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    # ]- x# r3 D9 y; ^2 w- x
    https://chat.qwenlm.ai/
    , m" l7 f6 ~0 J: d6 D  K( H试一下千问,估计美国人没有攻击他,所以资源敞开用。! V7 z) O: R3 j. ^- h4 Y6 R. ?
    很稳定,质量不错,好像最多一次处理15页。
    & a; m. r! q+ ~8 O5 H$ X我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 2960 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。  S2 w' L6 {3 Y% O! v
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    , ?6 S$ P1 ]  M  E# s9 J7 ~+ O这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    / t8 ~, y- X2 _( n
    . \: g* G0 M2 Ahttps://github.com/oomol-lab/pdf-craft
    ) }/ y* }* ~$ I# n  i
    $ `( R9 ~9 b, z7 A, y$ U* z3 W/ f1. 这个工具要求装 python3.10
    ) E! [/ ~2 {& k' r* `* N+ q2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0( X5 Y) ~  J* L- H, {7 S: D" a
    3. pip install pdf-craft3 c- }1 ?. M& |( B" g4 N+ ~4 |
    4. 把下面的内容写到一个文件里,例如 a.py' h; `5 E" E! I8 R% f. W

    # Z, g$ w0 v. b9 k
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      + n$ F5 m* p/ m2 M7 M1 u" R6 ]
    2. & X& l" W7 |) e! T1 H- k
    3. extractor = PDFPageExtractor(5 i/ O. L3 X# W8 \& a. l& l1 B
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format." w* o) _8 a8 c( p
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed& n$ s5 o: G6 n* s
    6. )
      : ^; ~- }# F4 I, D2 k' U8 g% Y. V7 Y& B
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:3 b0 e" A! ~$ ^* Q4 W% d
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      * z+ U* k; @: T" V: S! F
    9.     md.write(block)
    复制代码

      H6 {3 P5 g: P5 W& k5 Q. ~5 V, P) R2 D$ A. e
    要修改的内容:9 q2 r) r, }) V/ b8 J: n
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型5 X% c. ~, `5 W4 g/ ?9 v7 P9 o
    4.2 markdown_path:输出的 markdown 路径文件名
    + D7 {# X2 y) `1 f0 Q' V) J4.3 /path/to/pdf/file: 输入的源PDF路径文件名6 v: L+ e' m  l5 k' u0 f7 Z

    ; [$ h' z8 m2 K; o/ B5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    0 z: _: w% s% l/ H2 g9 e: _0 o7 a8 x: y& |: O8 S8 g" M
    目前为止PDF转纯文字的最佳办法。
    . R+ [% b$ J" _% c! {1 T先写个小程序,把PDF按章节切成小的PDF。
    1 ]3 [1 m( A2 v) ^; G然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ) G7 c7 v$ Z& a( X效果非常好。( t$ }( i" w4 p" ~* p! q1 P: f; Y

    0 N9 n! Q  W/ ?. j8 _deepseek,qwen,chatgpt 三个,deepseek是最好的。
    . Q5 P' Y% j" b( G0 d7 |
    % k! c- Y2 y+ j0 Kdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    2 g2 _' ~3 G2 ?9 i. N而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。" P, t  N4 k5 N& x! l$ t* s8 m
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    7 e7 h: [/ Y+ F9 c4 V1 k, j/ q& g. n  F) |9 F8 m; k3 ?
    API到目前为止,差强人意,不如网页版本修得干净。4 N1 E5 |6 a. `
    5 U- b8 G' q$ Z" |: G# J! A& j
    deepseek可以同时开四个。
    # Z7 h, f# T5 p9 J

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 " J" C- Z( _7 ~) K. }' R
    - j- ^) d$ Q& e$ g) f
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    2 Z+ E  U: d$ y让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    " T/ f6 _, s) o  L& M
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33# r. |' k4 t3 T7 O! Q
    细说一下,听上去很不错,多谢。

      C  B6 @/ ~: R4 q直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ' P5 o$ q- F; s( `% i# \# w2 s) z, E" y4 z! b7 _
    已经搞定.
    8 Z# `! j5 U2 Y( Q4 H/ ]
    4 \9 z7 m* u0 x5 [5 H首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ) I3 i5 d! I) _& f4 `% N: l. _8 t8 E. S8 U1 ^5 P
    1, python + pypdf 按章节拆分小的PDF  U2 i( |3 e7 i3 E3 d
    $ b0 X1 _, w9 b; U: b) w
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    , _& A4 k+ i4 a# |& V: Z0 b! i( P- u- H
    得到text file
    ; N" N5 ?! b0 w' F& H6 p( a8 Q9 c3 I
    3, python 读取整个outputfile,丢给deepseek 矫正。
    . `1 N7 _3 R1 |- r& G
    & O8 ?8 V4 B. n5 J" E7 X$ m  S模型是 deepseek-chat2 C3 T* S% G  ?
    * w0 n9 n, e. z! G" _
    max_tokens 最大是 8192,别的不用改。
    ; [1 j! m' F& [/ F" _
    ' o1 r) V% J, a" J7 k/ q+ x参考:, L8 G0 [; G" V5 ?# [; f. a
    https://api-docs.deepseek.com/api/create-chat-completion" p3 i- Q# A# D+ F. Z4 f

    2 P3 ]4 ^; q! {) s8 r/ w% W  Q4,费用:
    6 |6 P2 v" o- ?; S# U
    ! z) q& b- f1 x( b! ~3 l3 F实测:4 ^/ y0 ^7 n/ I7 P- r1 Z, F

    " E' Y) e/ Z# R+ r1 \8 D296K 字母,用了 9 美分。
      B1 V; a4 V+ y- b" r. \. m1 b2 x+ P' ~, |
    英文字母 到 token 用量大约 1/3
    3 o/ o7 w2 X( X. h2 e: H) Z" m1 K1 F! S% J
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    0 k3 Q2 F: n  Z3 X/ M1 s" Y; u0 r4 w3 D2 [% p- J
    32899 个字母花费 11782 tokens,包含输入输出的 tokens$ l  h3 [2 V0 p$ ?) _$ ]6 Q
    / q3 S  `' u' A; o' X) A" Y
    价钱,非常非常便宜了。& x! |; ~8 w& c$ ]* E( c: b
    " e  i4 H  i  z: C
    参考如下可以计算,懒得算了。
    7 |- f! r5 [8 o( b  G- [  p; o: c) I7 w8 a2 F+ ?$ T4 u
    https://api-docs.deepseek.com/quick_start/pricing! `5 I' ~3 e/ S  W3 H+ }
    4 X2 q/ d7 Z; u) s+ f6 _
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14% H9 P/ K% P+ ?  o' M& W
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    3 g' u1 l- E* q3 H) l1M TOKENS OUTPUT(5)                                              $1.10                $2.19) l7 n. W% c8 ]

    4 [! c) ~/ x; X$ N( g7 ]5, Balance) {8 {. a/ \1 V  t
    0 }0 W& E! S7 X
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    " U: M2 k: z, s7 R' j参考:
    4 e4 }" j6 L( `https://api-docs.deepseek.com/api/get-user-balance4 n5 I; y* ?9 X/ s) b* `
    , w: ~; ~+ \) |, X
    6, Models
    * `; P* ~  Y" }0 v( ^  Z3 ^4 y% ^2 O' Y; @* N  a+ F3 J
    目前就两个, I0 G8 J# f7 M0 Z
    # deepseek-chat
    ( p- T$ \" _" T' F: s2 q: g$ y# deepseek-reasoner
    . t, c$ Q1 m7 g/ R, a$ G) e3 j; v8 I: z' _$ d1 _
    参考:( a  H6 B. a9 p: ]+ L" o% Q5 K
    https://api-docs.deepseek.com/api/list-models
    9 u8 c6 a& [1 b. Q' L: |+ k! d
    , O" U6 I6 A' U2 h, y) W. E4 y4 X5 C) t6 ?4 V& c: P
    7, 问题
    0 {- E/ V2 z7 L% l
    7 t/ t8 f* b: wdeepseek 会将前后两段合成一段。
    / M4 b3 S: G/ e! E特别是那种大量的对话的段落,deepseek会给你合成一大段。' g+ _( _! K8 }" b# c' G) [, M  L

    % h+ ~0 J& T' p; p( X" {* E8, 钱说了算。
    6 H- O, t/ F+ O$ g3 R2 B
    6 Z% D& X* `6 S% w) R& [1 p2 Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : B% I% ~  y& d% H5 j  F! T. d但是API就不会出现这种情况,毕竟我们给钱了。( {+ h! q, g+ q* u! V3 B
    chatgpt也是这样的。7 x* D" h% {* U! e# l; T7 I" g" S
    5 V- r0 @6 X4 U: W2 n2 O+ f6 [
      b0 B( v% r. c% [" A" O* v

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-3 14:53 , Processed in 0.060113 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表