设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3249|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
# [+ r( w1 L+ p$ ^. q
( S, ]! t8 g9 h- ]& L把PDF上传,然后让他抓取文字,并修改可能的错误。
* L- \' y5 e; y: E然后deepseek完美的完成了任务。
- S$ n" N# F9 K- o3 W" e段落清楚,列清楚,页眉页脚全部去掉。/ g9 l  K; p* f- |, v) d5 R! v
我要疯掉了!
  f7 }! ?8 e; p0 D赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
  M& Q8 v7 p" \: b8 q+ w+ g====: u6 D: f- N' P! d
中文也很完美。8 r$ J- @) x3 h8 B! \
经验值,每次十页比较稳定。: e; P: L7 m7 I
现在我这里API还不能用,等恢复了,全自动了。
  P$ L% E8 }+ L# P====, r* u' r  X$ E6 E0 j
第二次疯掉了!
3 E) L7 ^  a, U" t我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
3 o( q  F+ ]# X9 `& Z! ?====* }; P' Y  G: Q
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
" \+ V/ c1 ?0 J$ |. U! y$ B但是任务多了后,每次翻译的页面数是减少的。
2 S* ]4 d/ N& w+ `* h% E7 z# d# A3 r好吧,我五体投地,继续探索。) |5 L3 e+ J3 e* X& x
====% d! O" b6 \$ _$ C0 Z
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
/ x0 s9 o1 B( j====- s! ^5 ?7 {5 \! }) u8 w
好吧,有些东西是不给翻译的,哈哈。
/ _! d8 U3 ]& q6 R4 g. S' e2 @; U& M/ o4 J* Z% z- s
Sorry, that's beyond my current scope. Let’s talk about something else.
9 T% t! Z7 H$ c# }6 A( W) k====
! S. v- |8 ~7 o+ t3 p6 z6 G然后我的英文命令也让deepseek 帮我修改,呵呵。
9 q7 Z1 V' v5 r! N. J9 c====
* ~* J' d2 h: b( H日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
) N* E' b4 D9 A4 j====
* S5 c* F* Y; N% `6 h) i时间段的话,北京时间的下午和晚上用比较好。3 x: ~. l8 ]  R: H/ U
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。: a. |' @. m$ c, l
====# }. r  Q( I: M+ X
用千问吧,非常稳定,非常强大。5 ?0 I+ W& H/ R/ N3 t! ^
https://chat.qwenlm.ai/" u1 I' Y$ Y& A! p: A7 c  D
====
( b2 M4 p3 `$ j, i. EDeepseek,API 看上去可用了,但是不给充钱。
/ U4 b# ]: e& j9 P+ l/ V
. ?5 A. a) m8 u/ f% Z' U* J; L+ x* H7 |9 r* N+ E! s. {

) t% @3 Y; _/ H# `+ q( e

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3829 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ' O6 j5 ?% }2 h, R( E0 s这功能很赞呀

    ( X0 u( H$ \7 X' y  ~简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13. ^! [# s. D3 P) _6 }5 I6 H+ h$ d3 Y
    有没有上传整本书试试
    6 n% I& X3 n( H2 E
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3829 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    0 m* o6 [9 t5 k& w* Y; E( M% _/ l2 n$ z8 R/ [  `4 ?5 B
    以后让deepseek 读出土的竹简- I; S+ b0 X; Y9 A+ B
    / \9 C) N% c1 [. c0 x4 @
    还有把古文翻译成现代白话
    0 e4 Z! K9 X1 i$ h5 l# ~" v: C
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    半小时前
  • 签到天数: 2989 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    3 d# E7 I+ R4 D4 y; H4 b! v# B
    ( J7 F, D1 u: T0 y: a/ h. l# Z# b我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    . X( W/ D3 e2 `/ D# @请教是如何实现的?
      r( ~1 s# v4 F8 x. _1 v% V3 b' z4 N. U8 G9 f$ S
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ( A, J$ x5 h9 P- A/ f8 ]3 x: {# N' I* R  h7 B
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    # f* x, A8 r5 m7 H; C9 z6 c* y) ^文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    7 ^: P7 f! O1 J& u4 _* ~2 V美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    6 G8 x" e7 n6 M

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23/ }0 H- ^. ]% l% x
    请教是如何实现的?
    " y, E! q$ g9 Z5 C( p/ \5 R- v- @- K( V& n0 V
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    2 o( T" i$ G9 k! v' U& k
    https://chat.qwenlm.ai/' U% O! m4 ]8 r! C! [. }7 k
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    $ a- ?# ~5 C% g; o. k; j  t很稳定,质量不错,好像最多一次处理15页。
    8 G; g6 w) n4 j6 E+ Z( e我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3095 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。0 H1 V8 @' ?: v/ I- c1 S7 B9 D
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。5 f& q# u! K! Y" m& o; K/ w
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    1 z% f2 X& d/ _2 {3 v7 z) Q% J; n+ p4 j9 _# S2 t( b
    https://github.com/oomol-lab/pdf-craft( k# P7 t' \4 V  ^
    % T  Y& k3 [4 z
    1. 这个工具要求装 python3.10; k; q* x) a7 k* j6 t( f. `. m9 j8 D
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.07 {: f: ]3 N. G9 R) w# ?; F
    3. pip install pdf-craft$ ]& p4 \+ }7 V% d; L0 V2 d
    4. 把下面的内容写到一个文件里,例如 a.py9 ^3 K5 v+ N/ K3 ~" X8 K
    " e* _' A9 Y' _9 V8 k. ~  m' j6 [
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter0 v3 a3 s1 E  N' M! A& H7 [

    2. 1 {* Z- c0 A3 U. I0 P
    3. extractor = PDFPageExtractor() T8 b; `3 b/ W8 j& n
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.) z( o8 A* }5 t4 o0 S# H
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      $ L) V( Q! m# O
    6. )
      % I; d! j: h  D6 Z/ x6 |
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ; f, r4 o& S' Y; V
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):" K. L; b; l, y3 D- B* H
    9.     md.write(block)
    复制代码
    , _* K& t8 c3 a% v

    . R: d% K( I2 j" R. h/ ?; `/ R% ~! T要修改的内容:' c% z' n$ a- Q( ~7 I( \
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    0 r$ a( [8 m. J) ~4.2 markdown_path:输出的 markdown 路径文件名
    ' j. z" b2 v' k4.3 /path/to/pdf/file: 输入的源PDF路径文件名2 d& o; ?* W0 l! ^2 y5 E! s+ Z

    5 k: ^, o, K" Q0 M8 I5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑   R# U2 t/ D. G, P6 l7 A' r$ O

    & k8 L2 `: ]) \5 |0 z( e目前为止PDF转纯文字的最佳办法。
    $ z7 @- m( Q! C' v先写个小程序,把PDF按章节切成小的PDF。
    4 s- Z9 ^: y: m( s然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    - T, r* c* ?; i/ w效果非常好。
    % Z7 A$ a% A+ {& ^/ K5 h7 S: e) `& `. R$ W
    deepseek,qwen,chatgpt 三个,deepseek是最好的。( t  R, T9 a% B+ E

    1 y) T( B- |5 V- S1 Rdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。( u* |. {0 x  c6 w) d% e( h" R" Q9 j
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    # m% U& p* K1 Z我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。1 o$ y2 f) F8 D) B& {5 o
    5 k  \6 p- ?: l  m" s
    API到目前为止,差强人意,不如网页版本修得干净。
    1 H8 W$ j' a. y) a1 g) ~9 x8 n  E
    * l- r, @3 h* Cdeepseek可以同时开四个。
    ) L/ T/ z* n) H' v6 \  T: F5 o

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 6 k6 I6 J; u% I' Q5 G  e1 G7 w
    / N+ t, |( [1 H6 V0 ]' r
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26& ]. t- j4 a3 o3 L4 u1 E. T5 w
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    " }7 h1 Y/ I- q6 ?+ }- @
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ; `$ d8 M- @' D细说一下,听上去很不错,多谢。
    + r; T# N6 V4 k
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    6 B% \+ g( d3 v& V  X1 w3 p
    7 O: `. _! |8 ~( j. }已经搞定.
    5 `' K! {' ^- w" d, K+ v  A+ @) W. o5 ~3 f; Y
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。* ]" g8 I! m: N

      z7 L9 {! A6 M1, python + pypdf 按章节拆分小的PDF
    " f' B: g0 M, ^) b' r: i
    ) a* p* Y/ j  I% `2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile: R% \- g% h  s; n) o8 t+ R

    - v: z# n& r) Y# h, j得到text file
    % |4 Y$ b. b4 R: Z$ R1 m9 p
    $ R1 \. g+ C$ W3 ]5 I3, python 读取整个outputfile,丢给deepseek 矫正。
    " K8 f8 ]* [3 W( v- q1 w! k) ^' x0 y- S# i) d: p
    模型是 deepseek-chat
    8 J, h0 H- l: W9 M* m3 Q( t, }8 y  d7 v2 [3 O, d+ F" |) [4 g' a
    max_tokens 最大是 8192,别的不用改。# ~2 ?: }7 j; L# H8 O9 v  f: |. D

    0 ?5 H% @  h' C, F) N0 Z参考:
    3 S% f( R3 K$ Q/ I8 ]: vhttps://api-docs.deepseek.com/api/create-chat-completion8 T+ }* h# h+ K) w, |; n. @' @

    0 y, f2 A6 v, a( [1 R! M4,费用:
    & G! [0 I' y" ^' c
    $ `! ]: |* i! _实测:; w. _7 @3 Z% e1 f# F" [, N
    0 h# e1 h' J$ s
    296K 字母,用了 9 美分。3 J  j7 Y! c) @/ f$ `! Z
    & A9 c8 s- C* A/ A
    英文字母 到 token 用量大约 1/3
    , S* ]1 o# b6 t$ y7 H- X) y
    / J/ _! }2 x5 L% a. Z8 Ftokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899+ m, X6 H  m4 C6 N* [9 X0 F9 U, _; D

    . h' T. \! H  [$ J; I5 h32899 个字母花费 11782 tokens,包含输入输出的 tokens
    % i0 u# t+ E( S$ j& j+ \/ ^
    2 W: Z4 o0 v0 {# Q价钱,非常非常便宜了。4 T1 W0 R3 i8 Y. e

    " g4 W0 w. y* P0 _0 v0 z参考如下可以计算,懒得算了。; E" S/ Z2 w6 r2 w& B/ S& \

    ) G9 t& y% c( B& r6 [1 yhttps://api-docs.deepseek.com/quick_start/pricing
    9 ^  g  |8 D- j/ b7 G+ j# ^; ?4 {! e/ m
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14, P) v" i& r/ T$ O
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ' |7 _4 m1 M: p- e+ u1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    * m1 i4 ^1 x, |
    6 b) e% O5 p# n  B3 Y+ I  v# `- l+ h5, Balance3 J6 ?4 k# m/ o' ~
    ; ]0 m# Q( E" d4 h; K( r# `% h; ~( W
    可以在程序里调用,知道每次运行结束后,balance还剩多少。8 m/ \2 E% F6 J9 q2 |5 f4 ~; L1 I7 y
    参考:5 ?  D( U1 d7 g: V. I* C4 [* o
    https://api-docs.deepseek.com/api/get-user-balance
    3 u4 N6 c  W  y9 u6 o( C5 h5 [5 w
    . H' m; `/ e, F% U6, Models) D2 {5 L7 z) B6 G

    ' e$ E. ~# ?( ]# H( j; B" e目前就两个" D; q* U) C9 H/ o' l% d% z, Q
    # deepseek-chat
    ) o* j$ v) @7 Z' Z( D# l# deepseek-reasoner, `1 ]$ h1 V  z
    7 C! R9 H( O6 I
    参考:
    2 g. H' [( x5 vhttps://api-docs.deepseek.com/api/list-models" D* ~; m* A5 ]
    $ O7 {7 _* \* t

    ! E3 v  _4 A& J3 @7, 问题
    7 ~0 d1 r* q1 L9 e  L; k3 O" v1 {% R
    5 g6 w, e; r( W/ c6 Fdeepseek 会将前后两段合成一段。
    " E! p# I: G2 S特别是那种大量的对话的段落,deepseek会给你合成一大段。
      u' w2 ]8 \5 |; D8 R
    ' Z: t7 P- K+ P0 q( `8, 钱说了算。$ X4 `6 @) I/ H2 v- n( k" \
    / e: W- C$ i4 Z
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。" p# _4 u' P. v) ^- o% K9 B; ^! D4 z
    但是API就不会出现这种情况,毕竟我们给钱了。+ ]+ a4 p) |( ?2 B5 C
    chatgpt也是这样的。
    - m. A$ }3 u$ n- m3 e3 v" |# x# U" X6 }+ U# \6 m& _

    ! C$ |2 X5 J& F6 D. t) C4 y

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-28 02:30 , Processed in 0.078467 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表