设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2509|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
" ~5 ?( @  M' h2 O; m
' d* u9 y6 Q. q1 Z* V3 J: E把PDF上传,然后让他抓取文字,并修改可能的错误。
( F& w+ o" k2 M9 b1 ]然后deepseek完美的完成了任务。  @0 U( p% Z4 R3 l( x6 ]% ^( s) G
段落清楚,列清楚,页眉页脚全部去掉。* K) w8 I7 @* i( L; i  g& f
我要疯掉了!
. I( j( k8 c$ m' v- J; j赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
/ \0 Q& C( p! k====
6 j3 P( h( l; A( q% u中文也很完美。
+ K- P* u- Y8 U: T* x1 }0 k经验值,每次十页比较稳定。
1 X) M& @/ i3 f8 h1 e1 a现在我这里API还不能用,等恢复了,全自动了。
2 e4 y% k7 j6 L. V====; R6 K0 W8 p# \$ A
第二次疯掉了!  O7 f8 @, @, E2 G- a4 i5 V4 J
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
: _2 q! F3 h' M: o+ A& Y9 i& J& w====0 N" s! W2 M, O0 k) [4 I
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
4 C' T) b2 j5 x0 n但是任务多了后,每次翻译的页面数是减少的。
/ B1 h2 c3 I6 i* ]- a好吧,我五体投地,继续探索。
7 t7 i2 `$ `! F2 l, {# |5 _( Q====
& Z; h# \7 d- n: ]1 X, f为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。/ ~/ }! G+ t0 K2 f! S6 p- r
====* H  G* C% f/ E# |; k6 m
好吧,有些东西是不给翻译的,哈哈。
3 ^: q8 ?: \$ j6 q' x' f8 y- A0 m# p5 R# f
Sorry, that's beyond my current scope. Let’s talk about something else.2 r* _  q0 Q  u0 O6 @( S0 R
====
! ^3 J) Z, u# I. m9 v" d然后我的英文命令也让deepseek 帮我修改,呵呵。
- i# B! G+ V/ W, h( C4 N$ U/ F! e====; F  b( Q& |6 o( y
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。& y0 q( s( A7 z4 }' E
====
8 X$ g0 N& A& V3 e4 [时间段的话,北京时间的下午和晚上用比较好。! b: _0 k' B) c" }
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。& c0 `" q7 M  h
====
! Q# R1 g- C* T7 z' s, |用千问吧,非常稳定,非常强大。+ B9 b5 d* M& h* P+ G" L3 H; G
https://chat.qwenlm.ai/2 [( q3 c7 h% C7 `  B
====: b. V) W6 L/ [( i; Y" x
Deepseek,API 看上去可用了,但是不给充钱。
: L( {% ?; D2 ?
$ Y* @9 Q* `& i
9 _! i) B# e4 ^* f, a: w/ F  J2 A* n0 l8 {3 e

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3663 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    - m6 h/ ]6 c3 A0 x  R- \这功能很赞呀
      e4 u/ P. X/ _) O/ F2 k
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13& C  l, Y) W5 i& `4 e
    有没有上传整本书试试

    8 {2 L8 U: w& w0 x: c% Q目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3663 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 + Z/ X" B$ D) A$ X: I& o) t3 @3 {

    / |% N' h( w$ i( b以后让deepseek 读出土的竹简
    ( l# d0 w! D. q1 f# Y. F) H  e* Q4 F2 O* G: m, u7 r/ N6 y
    还有把古文翻译成现代白话
    . Y5 L& f6 H$ i: Q0 _
    / h4 n; B+ x4 a7 g/ @以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    21 小时前
  • 签到天数: 2825 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?% h. y4 \+ v1 }2 n, v: u2 _

    / A; j  S$ h9 t. O/ O3 r5 n8 ^1 [3 K我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ; C5 a: b! w9 W请教是如何实现的?8 I4 s! A$ y. G. ]( x, L- j

    ' \( K( ]6 H0 k( F  r5 L2 t6 [我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    % s& T" }' p/ X3 ], Q

    & V: ?/ v6 P# {我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    * ^+ n" D6 G6 Q& N6 k: u5 _文字之类的没问题。估计deepseek现在暂时只保证主要功能。4 G$ G! ?' K6 C
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。( a0 O% W" }) A; r

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23: M* q! e# Y% Z- f  v) ^* F
    请教是如何实现的?+ W% M4 ?$ L& c0 ~" S
    5 J$ {6 l- M6 N: Y1 T' o
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    7 e' N) j6 D8 dhttps://chat.qwenlm.ai/
    6 H. l  k2 G+ v0 \: t试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ! N/ t, G2 J/ }很稳定,质量不错,好像最多一次处理15页。
    3 \* [& t9 i' K$ b! P  `我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 2939 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。$ f: ]/ {- \: l. N* k: C; t4 K3 h
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。. ~, i6 B+ j2 t* h
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。0 X4 t0 T! |+ i& m. T
    4 ~' a3 U" F% `1 `& P
    https://github.com/oomol-lab/pdf-craft3 @0 n- H0 ^- c$ |- \4 E) h, _7 Q

    ! L6 C) J1 R" R5 U6 E$ d1. 这个工具要求装 python3.10
    . u: i6 e4 y  f/ e* q2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.00 V% O, C3 @; U+ Q
    3. pip install pdf-craft
    5 R; y" b1 s# Q; ?7 Z2 f7 Y4. 把下面的内容写到一个文件里,例如 a.py
    ! c( g* @- D1 t* N( ^- ?, x; A4 ~$ c/ }8 o* w
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter8 c7 L7 O1 y, X+ ~+ t* r

    2.   ?, M0 u" O' K7 R
    3. extractor = PDFPageExtractor(8 l' a0 _  [* i. \- M! z1 b! ^( p
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.3 ~, g4 ?/ @, F5 c
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed1 A1 R# h/ B# y2 I7 I
    6. )
      9 G6 {0 B6 j+ G+ U3 V# Y% g) V
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:5 J* y6 G0 q1 o3 s
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):9 x' C+ L$ u1 d" t1 T+ d, j
    9.     md.write(block)
    复制代码
    : |, \, ]+ o4 S4 \8 Y
    % Z& E$ J( Y  V8 |6 I
    要修改的内容:
    + H, x# \( t0 j' U. y4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型$ c  N* W8 E+ y  b& `0 R
    4.2 markdown_path:输出的 markdown 路径文件名
    ' F* y: ?- ^7 E3 B5 k2 G$ |4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    5 f) [1 x4 N; S0 S" p9 q6 {+ l3 H, {
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    + g% k) a: _2 u3 e% r4 K4 H5 \0 O8 k& A% c+ Y4 Z. R) T* X
    目前为止PDF转纯文字的最佳办法。. Z" L2 b8 N/ P: W6 L1 k
    先写个小程序,把PDF按章节切成小的PDF。: b$ E3 ?7 F  {( L2 B% x: w
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。- b0 f! v- r1 v0 q
    效果非常好。* v4 ]% R" C" a& X# D

    " t7 K8 W; J: {deepseek,qwen,chatgpt 三个,deepseek是最好的。
    5 l$ h7 b5 A  g2 j, n! \7 z5 J% {: O" l: @! Z2 V& u
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    8 z' z! s- R) \. f' h9 h3 b. F而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。# w7 J" m5 N. ^6 E: A/ l
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ' b" l% n6 W* h' u8 E$ N- c( a) q- w6 J1 y
    API到目前为止,差强人意,不如网页版本修得干净。% h0 ]  J, ?+ i& c, @

    & {7 g0 o, c3 O2 p% n8 P9 i4 xdeepseek可以同时开四个。
    2 K$ J3 Z- Q) Y/ Q- L) D$ ^. A& z

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 9 |( \: ?7 u  M
    $ g" h" ~# }, c, K
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:269 F% m# ^7 z( F- B
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    % ^2 ~+ m  J' A9 n
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    , ]5 S. o4 _  p细说一下,听上去很不错,多谢。
    2 Q1 l" y" t9 l1 }9 z
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ( A$ M1 U$ ~8 Y, n5 r9 \
    . _( c% E) O; x( u) Q已经搞定.! M- Z7 S6 I* C0 Q
    3 b% b$ A9 ?2 o: n
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。9 f+ M4 l# F/ v  i
    % K" _6 N  c6 _* U
    1, python + pypdf 按章节拆分小的PDF! ?3 `$ w' B$ {3 [9 Z

    2 R' r" l9 O# j; b: P2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile* ]* ]! J( s1 U" I: h8 W8 @* p. ?
    ! b+ r0 j1 K/ V4 h/ D, g% Q
    得到text file8 O* N: o& y' C1 [9 C8 o* @

    4 M; v8 j6 F, [7 k  g2 Y3, python 读取整个outputfile,丢给deepseek 矫正。: o8 t: L& m  g

    , P, W" }$ Y* ~$ y. g模型是 deepseek-chat% K$ w7 Z  [& _2 G8 C2 G, T
    ( o0 t% t) i! o3 {5 J8 y% E
    max_tokens 最大是 8192,别的不用改。. t3 Y( ~* {2 p/ q" Z9 k7 O

    # o0 k, z* U4 b2 z参考:
    9 Y' N2 I6 e0 \0 phttps://api-docs.deepseek.com/api/create-chat-completion
      W' {, L6 u, x4 d  `: t! i% F. a6 @& K7 S% T5 m
    4,费用:
    , y  [% D3 l+ ^3 ~' b
    ; t% Q7 A: P; N实测:; s% Z9 p7 A4 G- W

    ) b  _4 A* S  o" ^& Z8 q296K 字母,用了 9 美分。) U7 C9 m' x4 w; A5 N  R

    7 N, M5 Z6 V+ ]7 I: N( V8 P" Y& M英文字母 到 token 用量大约 1/3
    2 J$ v1 r# a' c& g/ H: W, e' c& B
    ! ]/ }7 n9 L' T1 i% @6 C" xtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    2 V$ `3 E) I% E4 H
    7 `( j! @* w6 g( |  F  x- i32899 个字母花费 11782 tokens,包含输入输出的 tokens
    , `1 h$ J  e8 M7 F  I
    * M! Q" s( n- _' [7 Q) }! S价钱,非常非常便宜了。8 I+ B, P: h# R: `% [) M
    , V  u( j! L  D" v" E$ N1 T
    参考如下可以计算,懒得算了。
    1 u+ S0 S/ ]  U( O7 I/ ^+ J, E6 J/ c3 O
    https://api-docs.deepseek.com/quick_start/pricing
    3 M9 t5 e# E: f1 n) _  j6 V6 w/ _) ~+ {
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14. k/ r5 Q. Z9 w* G1 f% j
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    & c0 r4 N; F3 B0 P1M TOKENS OUTPUT(5)                                              $1.10                $2.198 t  a  A$ L! D4 f. Y; O
      \' `5 n) M' i0 v  M$ L2 V
    5, Balance& c( ~+ a( [  T" q1 m$ A
    6 O3 d  e% w7 I9 l) P) i8 z& ?
    可以在程序里调用,知道每次运行结束后,balance还剩多少。7 V! `& @( O# D- S7 B
    参考:
    2 _% C5 g1 Q# s; q4 nhttps://api-docs.deepseek.com/api/get-user-balance) X" ^" T4 w  i# [: z( v  o

    : `% m8 y1 m& A' v2 I6, Models
    ) a8 f9 n2 `9 B% V( J& {  c( C6 q1 W" g# v' l/ E0 q
    目前就两个
    " e( @, @) @3 G% u5 H& b5 X' p# deepseek-chat
    " H$ ]8 Z/ ?# {# j% M  \! ?( B# deepseek-reasoner( ~# V1 G, v8 V1 v, ?; ?5 U

    8 S; r+ X4 L. N; L: ?- H' @. i参考:. H7 A* j( s: `) v, m- Q
    https://api-docs.deepseek.com/api/list-models
    ! u: N$ U* p6 |5 g9 R% B  B
    + H/ t: @" o- @" Y0 q6 g, f/ o1 P8 m( g  P9 N/ D8 ]5 Z( N
    7, 问题
    8 }8 F0 }: T: k8 V, w% ~1 b7 O( i0 O) k2 E: V" g" O0 ]0 `/ {
    deepseek 会将前后两段合成一段。0 P. f( y& n% o' z% M9 M1 R& Z
    特别是那种大量的对话的段落,deepseek会给你合成一大段。, o8 k7 f& Q2 K

    1 C8 i/ Y* _: U8, 钱说了算。
    2 x% d  w0 U6 N9 T% S' f. B' Q
    ! |  u, l# ~- b5 i* [! s' hdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 U- z: O; z+ [2 a
    但是API就不会出现这种情况,毕竟我们给钱了。
    8 |: Q- C3 g; z! u" H) Xchatgpt也是这样的。4 z  u  c. @( z) z

    ! q8 Q5 k( h# U; x/ b5 x) H; {- \) C0 I+ H, p2 v

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-12 21:37 , Processed in 0.034264 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表