设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2183|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
4 ^2 N) ?. D+ t, _# V4 h' u0 m
, W8 J5 ^: {7 k4 h把PDF上传,然后让他抓取文字,并修改可能的错误。. v0 o+ }- e4 c) ?
然后deepseek完美的完成了任务。8 e: i. i" I* @( P& K
段落清楚,列清楚,页眉页脚全部去掉。
1 M( g/ g2 M3 n/ N& `2 L我要疯掉了!" M8 J6 C$ y3 D
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
8 s+ o* z3 E/ n3 J====
" ^. e# s# D1 r. H7 L) W中文也很完美。* M1 y" v2 n# T! O
经验值,每次十页比较稳定。
4 J) J- x4 a6 P# S4 Z) q6 _  E7 H现在我这里API还不能用,等恢复了,全自动了。
- I8 M7 }' o- V4 R% t) h====
1 e9 ^6 J8 c; D2 {4 |, |第二次疯掉了!4 y/ }: P& j' ?* q" j
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。0 `) O3 n) t8 W) C3 |( {. t: g
====0 ^3 F, i$ K$ P; W6 U- U
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。5 C3 p' q) o3 y
但是任务多了后,每次翻译的页面数是减少的。( U. K1 Y3 \$ `- L% k* ^
好吧,我五体投地,继续探索。
7 w) k0 I4 e( D8 N====0 t$ Z; c9 F& d
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。" w3 }. B8 G. g- y+ e* F2 ?
====
2 @& R, B, @  o2 L$ S) i好吧,有些东西是不给翻译的,哈哈。
2 Q2 y3 p8 h/ T* r& T' D$ Q- J: p+ Z+ E- Y3 W0 `  |
Sorry, that's beyond my current scope. Let’s talk about something else." g  ~, L4 E1 c
====
, J8 d! n4 S4 p5 _4 B/ p' x然后我的英文命令也让deepseek 帮我修改,呵呵。
7 `  g9 m  p4 J# Q====9 }$ [" |9 }5 O) K# E
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
4 c+ ]# a3 A9 ~====0 A) O. ~2 H# `3 U$ H& A
时间段的话,北京时间的下午和晚上用比较好。
) M6 Y0 r7 w% k7 |; R/ E! u后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
( f8 c* |9 I; j4 u4 F) A====+ G$ E4 Q$ h! k$ Q. R6 q) k3 R
用千问吧,非常稳定,非常强大。
1 w, ]: l  Y  Y3 O4 zhttps://chat.qwenlm.ai/) g" E- C3 H' M
====
2 J9 F3 p6 d8 SDeepseek,API 看上去可用了,但是不给充钱。
, k7 u8 u+ ~; ^  y1 O# Z
8 h' D/ q2 o+ m8 v/ B  G9 [+ @: Q* c8 Y! S  L4 n/ s4 ~; O
+ l" ^- U- ?* v: v/ s

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3596 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53& K: L4 S0 f, B" R" i: U
    这功能很赞呀
    # H' W  c7 v# e/ Q  o
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13' N$ o9 p3 ?1 Y9 P, K6 U/ x3 [
    有没有上传整本书试试

    ; t3 d  `1 [1 q2 `目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3596 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    & n+ v. P# `6 P1 J' p. f. y: V; X2 o$ [, E3 X' c
    以后让deepseek 读出土的竹简
    / }2 z4 [3 a7 B8 w$ L) I
    + e( o' D! |6 z3 [还有把古文翻译成现代白话; ]  D" o. R! H+ p5 j

    . C% h+ k$ s: I! X: K, Q- Q/ K以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2760 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    8 G# `/ c  m" {& Y$ V/ f1 z, Q: c- r6 _( T# M8 s
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23+ N0 T5 B  ~7 s8 Y; n7 r
    请教是如何实现的?
    4 S' I- w4 Z6 S: f! v2 i" ^# K6 C9 m9 S0 ~# N2 e" C
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    9 z& T: ^: C% D2 H

    6 t- @6 i( x8 v我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    0 n' p% l/ J7 t# l  f文字之类的没问题。估计deepseek现在暂时只保证主要功能。* U# n2 x6 ^" L1 j+ l1 q# K/ }
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。: U. M8 W9 h3 k

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:231 A/ Y2 T9 g$ M4 x* B( g: Y
    请教是如何实现的?9 O- n6 {4 S% O3 x0 q" Q

    " O# _) e  Y8 n2 o我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    1 S2 t# F: D& R& c
    https://chat.qwenlm.ai/: v- C. a- E3 z! D
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ; D3 t4 K* C" G( q" Z. f' {很稳定,质量不错,好像最多一次处理15页。3 H/ h" a6 m4 l0 n8 e) J" m
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 2876 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。2 a$ y: m0 X( ^5 X" S
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。2 g& m8 l! g) u7 b1 m  S6 ]
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。6 c8 I  X' r$ O' w" ]& H+ ]5 F$ L# P
    1 d/ e/ [9 o; @0 {
    https://github.com/oomol-lab/pdf-craft8 F3 j" I" C9 R; b9 R
    0 p5 R* s6 S; Y3 U. Y# i7 p
    1. 这个工具要求装 python3.10
    $ ]8 l% @1 I+ J7 D" _2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    6 o+ b2 u9 \: V3. pip install pdf-craft
    4 P2 S$ C1 v# B5 I) Y, j4. 把下面的内容写到一个文件里,例如 a.py' _0 a! \" e' e% P

    3 b& @7 T+ g, a9 A1 u; }
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      : D) G$ |( n4 F4 h% l
    2. ( Z* M. ?% `4 D+ a% A
    3. extractor = PDFPageExtractor(- Z8 V& f9 w. g: ^) H
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ) o/ G, P  n% C( E/ S( E" M8 x0 ~6 L
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ' w: ]2 Z6 w+ F; {  B8 N
    6. )! _$ d3 h* A# [; I! _3 d0 g
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:' _( s# L1 I9 \1 _  `. t2 G- e
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      # @% t7 h9 f8 ]; N
    9.     md.write(block)
    复制代码
      {/ M5 N+ v. {% u$ m" Y, U& ^

    . Z1 A1 r* z3 ^3 y, `要修改的内容:3 m; D6 D5 G- z2 h& h$ _( R1 e
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型; F* G3 T: F7 B6 `5 `8 F" {
    4.2 markdown_path:输出的 markdown 路径文件名# p! [1 L4 K; b2 O# D: M
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    8 p4 G* S/ B0 z3 d& p
    7 E5 J8 Q2 {. i5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    ! f0 r* ]6 L. ]* N
    9 D1 d$ O1 v; [; O2 K# m* W目前为止PDF转纯文字的最佳办法。
    + V3 ]7 P+ x6 C6 J3 o. P0 M先写个小程序,把PDF按章节切成小的PDF。
    % d; T+ b& b# m" U4 M0 D然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    1 n5 e: x0 n. H效果非常好。
    ( @# T9 \( X9 i* w, Y) G! L( p1 F; j5 }% W# Y0 n; C3 H8 @5 |
    deepseek,qwen,chatgpt 三个,deepseek是最好的。8 m; I$ ?8 i- Y( f& X6 Z( X1 P+ w3 c
    8 j  j0 D# i5 q( R1 @! }2 M
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
      ?( @1 ]2 `, ~而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。0 e- A6 `3 L" D. C7 C% ^4 B
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。0 B2 w' ^8 q5 H$ K/ ~- n
    3 v) D- d; d0 ^6 L% ~) @2 f
    API到目前为止,差强人意,不如网页版本修得干净。: U5 P6 M8 {2 ~1 s+ d  m! m" N, X

    $ {2 \, \. p7 T4 m1 x% [- R; sdeepseek可以同时开四个。
    3 Y! t8 ?+ U  ~, J! l

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ; I. Q1 W2 O3 p  K
    , S+ @( i$ h7 j$ g
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26; a- C7 Q/ h; ^& ^8 I
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    % S# i6 A  h: C/ {6 g+ _- X: V
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ! q5 L, L# y6 f) G$ g, H细说一下,听上去很不错,多谢。

    ) ^, F& ^: f( |! E" O; o! H" e直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ) p& x1 \" B9 K7 k  l0 ]" I/ _0 p4 @9 \$ ~4 l' Z# {3 Q
    已经搞定.) J8 |) D6 w' ~
    1 W. V( [$ @" {4 P8 c( U6 c
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: l8 a" B* T$ C/ A0 c+ c' C

    . N+ g) Z4 E2 G( _7 R- p1, python + pypdf 按章节拆分小的PDF
    1 V& d" z, m, O; l
    ( b/ m3 G# S& [$ E! i+ X' E2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    - K: b/ g5 ^* m0 K( W3 I! i  i8 L, b; y/ u0 p
    得到text file
    ; l6 {9 q3 t# D1 d! h+ C( o0 Q+ f( l- v3 M5 ]# a1 F
    3, python 读取整个outputfile,丢给deepseek 矫正。
    2 Y8 y' L6 e7 y5 G4 i$ t+ i$ m; d, T2 g7 b$ z& [6 K
    模型是 deepseek-chat+ I' m4 I) Z/ q* `, n0 Y/ ?& T

    2 |1 `. {8 |: }4 K4 ?/ ?6 c! Cmax_tokens 最大是 8192,别的不用改。1 A! B( j  H( }% r

    % Z# r. F- z+ k( {. s3 N6 t参考:
    ( c. Y: u7 {8 |- U2 P+ Qhttps://api-docs.deepseek.com/api/create-chat-completion
    1 q6 N( K  R# @0 q. c7 A9 g: z. d) c- O! T
    4,费用:
    / U9 q( a$ K9 j/ K3 U' o9 K: h) F/ ?# t- n/ s- s0 ?* m2 }- O
    实测:
    0 f! E/ i6 D! h) s3 X1 ?/ ?6 `' |8 n  S8 w" U9 t3 S1 ]0 L- \
    296K 字母,用了 9 美分。' M* d7 M! c/ g

    1 b/ \$ |5 x8 q% ~2 u( v英文字母 到 token 用量大约 1/3
    ( j6 {  ^( p8 X7 @  o; s$ z# M
    2 E9 }$ Q1 @0 F, ?2 Ytokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ; X5 ?! g/ D6 L0 N' l4 W9 Y% l5 m" Y9 g7 D
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    * E6 `  ^" Z3 o1 d+ x0 A7 F! e, I( y" \( B8 |
    价钱,非常非常便宜了。
    ) T( d- ~* \( \! a
    4 j  r& i- }, v6 c8 I' ~参考如下可以计算,懒得算了。. u, C6 Z8 g) i: i+ Q$ z5 v8 W! _' S

    , r4 |% J% U: f# f: ~+ rhttps://api-docs.deepseek.com/quick_start/pricing
    % Q9 B$ }. b9 I. F6 d, _
    / R. f% H2 V! V' ?' y( C1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ! }3 @  ?# {$ ?- [8 c; G1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    1 X2 Q  N6 C9 u1 @# V1M TOKENS OUTPUT(5)                                              $1.10                $2.19& t( L. y2 b3 _7 d! s$ D
    ; }# W, [4 |4 J8 W, |7 n
    5, Balance
    + ]& E) q+ _4 b0 x6 F, {
    ' |& H1 H3 d2 p& d可以在程序里调用,知道每次运行结束后,balance还剩多少。! e. _# S+ m# r+ s
    参考:8 p) c* e4 G6 T' Y
    https://api-docs.deepseek.com/api/get-user-balance
    , ~0 Y4 N/ N) R% N8 I- P/ i# I. I' r: f
    6, Models' l& y2 {2 q4 d6 K3 s- e

    ) ]2 A) ?$ ^6 |' d目前就两个
    + P+ {' M" t; u9 ]* N( A# V# deepseek-chat. m, K* M, }$ E+ u' s
    # deepseek-reasoner4 `+ g3 d# G1 `3 Y
    : Y& h) Y- z7 v2 U
    参考:
    7 p1 N1 L/ u* {' Q, Phttps://api-docs.deepseek.com/api/list-models
    9 \2 \$ B2 I) |8 Y5 a6 s6 _2 i4 s
    % A) e. P+ ]9 R1 [/ t4 ?( C
    . Z# n9 Y6 I& d! H0 m7, 问题: r6 e# p0 X7 Z9 _& V9 F: k$ g

    8 o& q. ]! w# Ddeepseek 会将前后两段合成一段。
    1 h8 `; B' }% Q. `1 Q特别是那种大量的对话的段落,deepseek会给你合成一大段。2 [/ p4 \, b/ ^8 j! ~: M
    ( b7 Q6 x0 S7 h& k( l0 X4 b
    8, 钱说了算。2 u" r+ a9 e2 Q" Y. I; F

    4 I5 }1 p& a: t. H5 n/ Q1 wdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    - j) C# h! r/ Q, h5 K但是API就不会出现这种情况,毕竟我们给钱了。8 {6 @: p7 C- f$ w. @5 `+ @
    chatgpt也是这样的。& u9 f( K6 E) {9 I. O# H" J4 m4 p& h9 t
    " Z% M3 ?, p8 Q' ^$ ?. r
    ( a  [: j* W4 [. m1 r

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-5 19:31 , Processed in 0.039211 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表