设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2790|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
' J2 U. `* T" t, Q5 f- Z# G
" ?  j) Q, a/ ?8 w6 y把PDF上传,然后让他抓取文字,并修改可能的错误。+ S" ?6 u8 T% P+ {  h# d2 I  n! U
然后deepseek完美的完成了任务。
. m+ O* [) `! x3 R段落清楚,列清楚,页眉页脚全部去掉。
. a' R: C1 d9 U  c+ k我要疯掉了!
+ L, ^! e# |5 r" b, K赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!' H. _2 o1 b" q$ b
====
: v4 U. x$ }7 e) C  D1 p( d中文也很完美。
/ A/ ~1 z2 T; @. w' G0 x8 v经验值,每次十页比较稳定。( L6 o# Q) R0 q2 v9 x% G
现在我这里API还不能用,等恢复了,全自动了。- T" M4 Z; g! T* a
====% o0 K% y" y' m7 o
第二次疯掉了!
2 p! x$ [+ f; O( }  H% H! _( j我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。' B( D/ g3 U) O
====" O% q3 [& b2 D& L- A  i7 f
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
8 |' J4 Z) W0 q/ Z但是任务多了后,每次翻译的页面数是减少的。6 T& A8 G2 s0 g) S5 C  U, z3 s. d! V
好吧,我五体投地,继续探索。
$ v- R/ ~% ^" h! g3 |* \====
/ C6 u: b& f4 I为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。! [  A2 E7 ~" e0 O: a( L! ?
====
" y1 G+ ^7 y. z) q, T8 g4 H0 a/ s9 L好吧,有些东西是不给翻译的,哈哈。* g6 |9 V. c4 y: d8 R/ t  K# s
- }. k% Y% H+ C3 H2 i
Sorry, that's beyond my current scope. Let’s talk about something else.9 ^  X9 f( @1 j& ]8 G4 O: G# p
====
2 a: \5 e3 M/ d2 U9 a! C3 q' C然后我的英文命令也让deepseek 帮我修改,呵呵。
( A# {" n4 x; w0 N1 M& D, _====
7 X7 \( {2 z6 D2 I日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。: E, \1 }# V+ M
====2 @  O8 G, J0 }
时间段的话,北京时间的下午和晚上用比较好。8 X, N4 e! n) j- l
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
. L' N  ]$ r4 y5 }9 @* q  @====6 f2 P% ?( C; q, w3 Z+ W
用千问吧,非常稳定,非常强大。0 V" Q# L3 u2 C' b7 z! X  U6 K
https://chat.qwenlm.ai/
! z, L' F2 g3 W( x8 K' c====- f8 G% ~* I$ O1 W# c: i
Deepseek,API 看上去可用了,但是不给充钱。
$ G, R4 L" U+ I3 a! f* D+ K4 t' \" A* n8 N
6 v: N5 i3 a# O7 y

5 B! w8 N) }6 m1 d2 @& h

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3725 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    3 j8 W! y7 u0 t; _- g这功能很赞呀
    1 E! s8 E' B2 N, E' T" C* F6 a
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13# B( V' N% k7 Z
    有没有上传整本书试试

    0 y7 p* i4 ^3 t( Q, R& U1 ~目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3725 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    - S6 |6 d( F$ l1 V7 ~$ X0 i4 A$ I* b- n& C- [2 l
    以后让deepseek 读出土的竹简0 z2 J5 n2 c3 C1 i- k& M
    : Q5 Z8 M3 z6 ?4 [, B) G
    还有把古文翻译成现代白话+ i1 C2 I9 R! k4 i7 o4 l
    ( `9 I6 z0 j) x' S# k
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2886 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?% j5 s& i4 a" J7 l1 S( T( a; L6 ]

    4 I5 w  P0 h& G/ L! c4 {我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:231 W. u, l0 V+ O2 P8 D1 Q
    请教是如何实现的?: h+ v5 w1 c6 k6 e( V
    7 I8 V7 X; y. Y+ S6 V: o7 G
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    9 Z$ ?8 B/ ]  t2 r* {

    % B4 K$ M% z. R% E. s4 [  N我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    4 ]0 S, q. n; Y1 M% J" m; B% p4 D文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    & A7 T6 ?; B5 U) y" N# I美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。3 ], K. V" I4 \) @) s5 B8 w) ?& w

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 B5 z& O* b+ b* `: ?请教是如何实现的?, t6 {8 d7 |+ R

    . z" v" t; D4 V1 y; J1 J我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    . L8 S4 z# S; T5 Khttps://chat.qwenlm.ai/" s. y3 I, i8 N
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    . r1 i3 K7 S* u) x很稳定,质量不错,好像最多一次处理15页。0 q: V9 E3 h. I# x1 E8 ]" V
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 2998 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。+ Y6 f# d$ w0 `2 U" N
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    2 k5 v8 Q9 r0 }$ k8 T这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    6 C( K: a; z! g8 U- `1 T6 Y
    6 I2 Q- I4 s1 b! }https://github.com/oomol-lab/pdf-craft* S  U5 T; y4 O* T
    3 Z: ^" f; l/ Q; k: t1 X. ]! \* M& y
    1. 这个工具要求装 python3.100 o! L1 T) z& ~# `% H+ j) \# z5 \' j
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    / I+ B- |- w2 s; s+ \3 k3. pip install pdf-craft
    1 \/ y4 r3 v  Y+ F1 P5 E- s4. 把下面的内容写到一个文件里,例如 a.py
    9 K% X, Q/ v/ X) x8 w6 e& l) G% T! H2 `( u: W' g# i" ~# G! H
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      ( S3 i( A  J; i2 E* O2 b2 P+ m2 g& U

    2. + J' ]0 O/ ?* B" G  a4 I3 X( Y
    3. extractor = PDFPageExtractor(
      - i# L/ R3 u. ]! k
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.$ H2 G$ {( Q% W* Q6 ]# f; y
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed; ?) Z' W( f" }2 C: _6 ^' M2 I/ Y
    6. )
      1 A( W8 T7 z- E1 U
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ' u5 A1 t, M7 B  Z
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      1 R: y' D/ v# S' W! m
    9.     md.write(block)
    复制代码
    3 T9 k% F7 O" b4 a  Y8 X% e0 `% u4 z; D
    $ p# \# d% W  ]; G, H9 z
    要修改的内容:
    5 G& k. Y; y8 [# H! n. x4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    2 D0 a' u+ ^6 {- B4.2 markdown_path:输出的 markdown 路径文件名
    0 f. j- S4 ]& f5 N+ @) j4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ) F+ E# x: b! m- Y7 k6 c5 l. [
    5 o  s* I9 Y- ]" g3 g5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 % Z/ o. D' e( m! _& B+ W4 Y# u3 n

    0 _" M! M6 o7 R+ X, ^: e$ U目前为止PDF转纯文字的最佳办法。* z. B: Y* N, f- p
    先写个小程序,把PDF按章节切成小的PDF。
    9 x' [1 F2 ?$ x% w7 f4 n+ K1 Q3 C& \然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    # d+ }1 f: d% g6 `0 h效果非常好。; l& A1 n5 X% n2 l
    ; g1 L2 M* X) o: x
    deepseek,qwen,chatgpt 三个,deepseek是最好的。: r. @* L4 @: g1 @% p
    0 l+ {/ Y8 {, i- N+ \# `
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    . l4 e! T5 r  z) e. C& N而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。. b9 ~: F! l: W
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。+ g2 C+ l% t* y+ j0 W

    ! t! B7 S6 Q; B" S$ A! pAPI到目前为止,差强人意,不如网页版本修得干净。: ]' H/ i1 A! V& y( V/ v; E

    . \( V1 b$ q: x* V  hdeepseek可以同时开四个。4 b7 c# r8 {" L" J4 W. J6 e6 M) m% b

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ' p1 l1 `4 M- s8 l/ {" X7 C# R1 M
      k2 [  i% {$ z/ V& z( W4 N: o让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    : ?' d6 }! Q4 L让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    6 J* f% ~& U+ A  A% v细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    " v7 ]$ O2 d3 S细说一下,听上去很不错,多谢。
    ! M) ?  q; N8 ^" K1 @' v. w6 o! v
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    / l; L$ f$ A! S9 T" A" u8 _9 c+ }. o
    已经搞定.
    : U2 ?7 l' H5 H* j
    % z3 {, P) q* E3 |首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。6 Z" _& B% H- ?+ v; c3 t
    . C) C4 U; {+ ~1 [7 p1 w7 d% m
    1, python + pypdf 按章节拆分小的PDF
    - A1 s+ J8 C/ f" k/ }1 b) U  j
    ! Z7 B3 _9 ?: r2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    7 q  l' @, x* z% J% V8 Z9 s
    + i% ^/ L9 e+ j/ c4 T1 X- l# `# M5 Q# |得到text file
    8 Z* Q5 ]+ C& X( _
      I, l) u" K9 R! q3, python 读取整个outputfile,丢给deepseek 矫正。
    2 Z/ V) L4 M& F6 |$ C, D3 B, T1 U" {6 }3 b- @
    模型是 deepseek-chat6 G4 h# Q% a; e; |" P8 Z) Y+ N
    7 t. g0 M, s# w/ ^
    max_tokens 最大是 8192,别的不用改。
    , G7 G! b. M7 u6 k
    9 N0 m7 ^% S: G4 u  W+ U6 s9 w参考:
    & o" ?3 a) B5 u/ `7 W( ehttps://api-docs.deepseek.com/api/create-chat-completion
    & d8 c% D+ P' S4 r" ^) C
    : C5 g% [; n4 }. x5 W; E4,费用:1 i4 B% \" R4 }# Q8 I6 w! K# l

    & A% h" b! X9 m4 ]实测:3 O+ c& |" h! h% \! ]/ ~

    4 G: `& P! Z$ s296K 字母,用了 9 美分。
    2 ~$ m! g& y! V$ t0 m2 \( D
    5 G5 t' f( ^% a6 T& ]英文字母 到 token 用量大约 1/39 W3 G- V3 u6 U1 f6 M

    " k$ t& P6 a' _* Y! Ctokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    " j4 ]8 Q, x* @2 ^) p8 c! ?0 v$ c4 h) k! d# s5 b) e
    32899 个字母花费 11782 tokens,包含输入输出的 tokens( H! H5 r0 K0 l
    3 r4 c$ r: P7 Z% I1 q
    价钱,非常非常便宜了。' ^& o8 W7 @2 @: e* J" {" Z# Z; ^: z
    $ d3 i; i- F8 W) H/ ^
    参考如下可以计算,懒得算了。5 [6 I: Z4 L) R. G% E/ E6 @) U
    $ A' O8 s  j' n( {, n
    https://api-docs.deepseek.com/quick_start/pricing
    / K3 _& ]4 Q) K) M
    6 H8 n7 l2 u2 n. M1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14$ p# I( }5 Q* X! O4 k& L9 ]. J) d
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55: _7 A- B/ ~2 Y( q- d5 F' X
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19. ^# {9 E" u6 l

    ) G& T( W$ N3 m! R+ s- `5, Balance% b5 I: A5 L$ @  s& v
    : H; W" R+ _* E0 B, e9 N9 S9 |
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    , I  a) U8 U: W" ]" c- P$ g: v2 L参考:6 _1 f- w8 Z6 i% z: V
    https://api-docs.deepseek.com/api/get-user-balance
    * n& @2 @6 X  v% E7 m' N$ {* L' s1 V! S
    6, Models
    & p0 T$ O' |9 N5 e( d# {
    + h0 b- `* c6 x' m目前就两个+ i: L' K8 q: N& ^: q! ~! T
    # deepseek-chat
    $ O- F$ V) X6 B/ l, u! h# deepseek-reasoner
    8 E7 b5 x1 A! f1 c0 `  Q7 ~
    1 S7 |  G, O- T$ Z/ {5 ]- P& S参考:
      e( T- U' G% z9 Z) ~# ]$ U5 i& F- Phttps://api-docs.deepseek.com/api/list-models
    3 U; S, ~/ V* V! H2 q3 u+ U6 l3 r. [. k5 \
    ( @) j4 B7 j- h5 l
    7, 问题
    8 x% n8 ?( O$ x4 r$ m8 I  C, s1 W1 r: o, t2 S3 J
    deepseek 会将前后两段合成一段。) p* U$ S: _* W, y/ i+ O
    特别是那种大量的对话的段落,deepseek会给你合成一大段。% d& H# b% T6 q2 w

    : ^. a, R; {; z  c+ e$ g8, 钱说了算。
    0 l" K: ]8 c- O& g; @2 U3 w4 y8 r- B9 M9 }: H! j
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。: m6 X" {! s# S8 A; D7 ?
    但是API就不会出现这种情况,毕竟我们给钱了。
    9 s" I0 T( |4 g" Ychatgpt也是这样的。( j1 S6 {  P' d& f+ |& u. w5 W3 C
    & c) `; j  x7 ?8 v4 P

    - ]- A: I+ A! r% A

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-16 16:57 , Processed in 0.081278 second(s), 28 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表