设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2324|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 3 v; E1 x4 `1 C; S# E5 D% `0 d
# W$ h8 ^" }9 g3 A1 k0 O
把PDF上传,然后让他抓取文字,并修改可能的错误。9 T) t; p! d5 P; A' k
然后deepseek完美的完成了任务。# i: {7 ~0 M9 r6 i
段落清楚,列清楚,页眉页脚全部去掉。
( H0 X6 P# C' \$ ?/ z. x3 l我要疯掉了!
- R& b% I1 i( o9 r+ o赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
. q4 O- P  ~& p====
1 T" A7 G. }3 y% h5 i0 N. M中文也很完美。3 C4 G% i* a$ Q5 X% y% s
经验值,每次十页比较稳定。$ l  l1 _- }% @9 W) z
现在我这里API还不能用,等恢复了,全自动了。& {5 }: C- K- e1 M2 \: `# e$ k
====" J5 ]% d6 s' m+ P+ [8 `* ?/ P( y
第二次疯掉了!8 f& C" `, h0 W+ x; c" g
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。* j, j7 @% ~  q
====& ?0 A3 L4 z, q, X" B
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。7 N0 J' E6 C9 E. m
但是任务多了后,每次翻译的页面数是减少的。
( S3 i& d; G3 ^  D" m好吧,我五体投地,继续探索。5 V" Z3 ~0 Z2 f% Z
====# \: C" W2 D( g8 }' D
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。0 ~1 \! u7 u" T, r( D
====9 V7 o. B6 r; N( h
好吧,有些东西是不给翻译的,哈哈。
- v( u! A$ L2 P# |! V; [4 c% K3 G
8 I! i+ n: h+ N- \Sorry, that's beyond my current scope. Let’s talk about something else.! V4 q9 A! ^; B* Q
====' V1 c8 E% b2 c" b
然后我的英文命令也让deepseek 帮我修改,呵呵。
3 u" F# G  [2 g4 l====
8 U' u) v8 \% G* b日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。; Q. G( Q4 l0 F/ L2 O1 ?* B! h; N. o
====
) Y) P# x  t& ?. l! }时间段的话,北京时间的下午和晚上用比较好。4 _! {) l  }* _+ @" I
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
$ _0 Y) I* Y; Y: o6 G: u  k====
- g* o& ?( \4 Q用千问吧,非常稳定,非常强大。+ p3 o8 H# f% t* a* q1 U* f7 y, o
https://chat.qwenlm.ai/. a. W+ T3 Z' v$ C& y% `
====! l! p0 w3 w* x
Deepseek,API 看上去可用了,但是不给充钱。. |- |& y; N9 T! F/ [+ b1 D
0 G, [, A0 A7 Q2 O
% s6 i) D5 T7 X; _( e9 P8 v

% X( u) c2 E+ D1 c9 c* ?1 `

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3618 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    , E  H# d2 T+ \- s% r& b这功能很赞呀
    / C- N5 i5 r+ e# [5 ~/ `( w6 Y! x
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:136 R/ g( H% ^2 i3 O4 \" z
    有没有上传整本书试试
    8 P! s: i  l/ G& n5 E
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3618 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
      c( q# K1 y8 |/ h' |* m7 w) _
    2 v% E( a( N6 r4 ]以后让deepseek 读出土的竹简& U4 f0 J. J' ?' p" N* \

    ! P# h. B* Z! B) T还有把古文翻译成现代白话. o5 y5 l( `8 C4 _
    # e2 o; `" ]& ^9 [
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2781 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?% [2 b; H$ V% B" w

    # {! e: u) Y- s' O# ~2 i1 c0 w我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    / O3 R6 R& K0 z  L2 r0 m请教是如何实现的?
    " V- ?: Q- g5 a( Q/ L3 K
    ! o: x+ u" z% {1 @我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    % O7 D* u6 ^. C2 |- f$ }
    7 j! `, j: }' G( P' s1 J7 |' N
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    - ^& S7 ^* E; [( h6 Z* D文字之类的没问题。估计deepseek现在暂时只保证主要功能。) n4 ^0 x) |( i. b  g- I' ^
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。9 {. Q+ v& h4 @3 z4 h3 o; J2 s

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, u9 s/ D. G; ]
    请教是如何实现的?
    , I4 [" x. _* t$ l" V0 _: G& v6 q- @1 L4 |7 d
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 q  v& D' U- E* H- M
    https://chat.qwenlm.ai/
    0 ^. l4 s& `4 a试一下千问,估计美国人没有攻击他,所以资源敞开用。1 H; X$ F3 h+ l/ f+ z2 j4 z
    很稳定,质量不错,好像最多一次处理15页。
    8 z# e* b+ g+ J. ~我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 2897 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    9 y  L$ H1 c* h) R! O处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    6 v8 v# {$ f2 L2 }% d! ~5 @3 x# s这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。) q; [+ m, t7 k( o
    ! z' |' T! H, p# W1 p
    https://github.com/oomol-lab/pdf-craft! Y/ n! d% D+ z- e  s9 t! h

    5 I8 s3 h+ ], ]( @9 E+ \1. 这个工具要求装 python3.10
    3 W$ @  M% T! }, Q7 X1 R- F$ ^" z2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    3 `! k# G6 D/ {: [4 `3 d( [3. pip install pdf-craft# |6 M: y! {( I: C, k/ l, q
    4. 把下面的内容写到一个文件里,例如 a.py
    & q! [# j! E; Q0 f' F8 X$ ]/ W
    8 A& H: O& m# y/ v; j
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      - D/ ^" [/ {3 r% {
    2. ( q7 i7 {/ X/ q) c
    3. extractor = PDFPageExtractor(
      ; j/ Q2 n% N, ?& o" `" W+ ~
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ' v" j2 J- y% E* M
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed- J5 s5 g5 W- c! y6 W+ j
    6. )
      * d# C( B3 @- j% a
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ! N  a" D  F9 T( s8 G; K
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):2 ~8 U9 ^6 e/ t  ?
    9.     md.write(block)
    复制代码
    ) Z$ i) g  o( Y

    ! H" ]- b( u8 P要修改的内容:
    # L- @  {% }" f/ A9 t8 U  L4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型% m; ]1 h6 j! D4 X3 |
    4.2 markdown_path:输出的 markdown 路径文件名
    ' I8 G  }- Z& s# {- T4.3 /path/to/pdf/file: 输入的源PDF路径文件名7 {. B2 m8 P3 T8 I
    ' N' \! ^9 s  t6 s4 g' E# ~6 O/ Z
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 + ]' q; n) w( Y9 X, K0 D# u
    5 k6 u! U5 M' V. R( O& ]
    目前为止PDF转纯文字的最佳办法。
    9 {8 Z4 N1 X8 B  b先写个小程序,把PDF按章节切成小的PDF。- _$ E1 \# P8 W
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    % f" S$ E) c; }0 }7 O* }' ?效果非常好。$ y  {0 l7 ^, {: r$ S' z, O/ X) p0 F

    . ~4 E7 g$ ^, u( f9 Adeepseek,qwen,chatgpt 三个,deepseek是最好的。8 [' b9 M$ u, y. T! Z9 i

    * R+ U+ y: X1 W, G  o! Q5 gdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。" E' \% w5 }, Q3 a9 D5 @* k
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    2 {; H/ g4 k8 y! m, S我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    & J; }: T: f1 n' K
    # b* [( ]# q" I+ E2 EAPI到目前为止,差强人意,不如网页版本修得干净。
    $ S( m% f: V1 |5 s2 k* c. d2 u
    ! Q3 {4 ]4 {' J, U! @/ ]deepseek可以同时开四个。9 X$ a% f) d4 L7 ~0 b2 x

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    0 v& `3 ^' Y+ Y2 v. e- Y7 {  M. {% s. h3 F! [
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    3 ?1 E! X) @8 C; M8 T8 R让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    ' F6 P+ Q! j% ?& B6 E: A; r
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33# d& C& ^9 `2 p3 j
    细说一下,听上去很不错,多谢。
    5 y: i0 p0 e- r. g; J, i- V
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 U: G% c, a4 j$ _& w/ ]
    * M# E7 L; c' B5 ?( B3 R
    已经搞定.
    5 c5 S, R& i6 B/ C+ C% {& F. @, T) a$ @0 k  H
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! C7 ~3 p2 s- I2 ?3 n: k, V
    4 o$ f2 [, t- X! ^, G; H+ ~, ^
    1, python + pypdf 按章节拆分小的PDF
    ) W0 I7 e% `9 L; ^' u2 ]6 {9 s2 a4 ~6 z2 V
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    3 G9 Q! H# T, C- S6 A( y
    1 }+ C  {5 D& v. J4 y  L得到text file
    $ }8 D) q5 R4 Z' z
    5 S# A+ |' H8 R& S4 @! s9 Q3, python 读取整个outputfile,丢给deepseek 矫正。
    ' f3 f8 S" @: }; N/ L9 s, y
    * S1 p5 S& h$ L. z! I模型是 deepseek-chat
    : i( {# I+ Y; }* K9 {! ^" }; _$ b0 I8 x6 \& D
    max_tokens 最大是 8192,别的不用改。
    % R& B, e" A5 g/ X
    3 X1 `4 a3 X" ^参考:
    ( d7 Q7 o# _% ~  nhttps://api-docs.deepseek.com/api/create-chat-completion
    ! W5 O% T9 y& W# V
    0 b% o9 |/ q1 z# R' _  y( ^4,费用:2 j/ ]3 H% {9 M# Z# [0 @& t

    6 @. `% D3 g9 e) m+ G/ H' P* b1 L实测:
    0 L/ A9 {7 U: h) F# p1 @( _* h& V
    296K 字母,用了 9 美分。4 s$ Y1 X. d2 D" |1 F& N6 c5 y+ ?/ E
    : a% [( N. ^* O7 P' Z  c2 m
    英文字母 到 token 用量大约 1/36 G4 q! `4 `' Q; Z
    # h) ~8 z) {- y5 [; x( u
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899* c* s4 t5 U5 v& }" p# Z5 ]

    ' T2 o; _4 b* z3 }% k7 _) u32899 个字母花费 11782 tokens,包含输入输出的 tokens* ^6 r) Q3 d/ |: |4 s' p. j% m- v

    ; U5 _/ v3 @. b价钱,非常非常便宜了。# \4 t1 U" G2 Z, v& _4 i+ Y
    6 j: I+ s6 L7 x. G9 i! C3 q
    参考如下可以计算,懒得算了。/ z% O. q- M/ l+ C; f% j. T

    ; X+ P! E! g" Qhttps://api-docs.deepseek.com/quick_start/pricing
    % l7 R& ~/ j0 ~: e3 |, ?. I
    5 j$ s3 F6 _( X1 n: D9 t$ L1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14; ~/ Y$ G4 S( p' p
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    5 e. s+ ]% h- ]% e7 L- M: h( D- J% s1M TOKENS OUTPUT(5)                                              $1.10                $2.199 N8 p& _* A4 x* E+ k  i2 ?
    3 X; v" x$ S; e2 F0 M
    5, Balance
    7 T4 `, K! D4 i9 c/ S0 J' O+ C
    2 B; h5 u2 H8 U可以在程序里调用,知道每次运行结束后,balance还剩多少。5 b+ p. c  k+ F& \, X8 D7 E
    参考:% [0 w' W  x0 C8 l' ?
    https://api-docs.deepseek.com/api/get-user-balance, q2 h3 ]; Q9 f- J2 I! c

    ( y0 M% m( ~- d$ p9 R6, Models& e/ }6 S& Q$ C- \* S$ I5 v
    : q  i' i/ d2 r) |3 E1 y
    目前就两个
    ' V7 `: b' K" _4 y0 B1 V8 g- F# deepseek-chat
    3 N9 T4 s; e9 D) v3 m+ o# deepseek-reasoner
    7 ?9 ?# U1 Y) E7 A$ z1 t, G  E' q" F7 e( o  m1 I5 i5 w
    参考:
    3 s2 `+ O- _+ T+ ^https://api-docs.deepseek.com/api/list-models3 D' J9 C; m1 Q( C" F) D$ s

    6 t( m5 [4 C$ o# X& s: h' p$ J& r+ G" Y2 p1 j1 V
    7, 问题
    + L2 J( r9 D# k$ _
    6 S- j7 z* \4 D" {% @deepseek 会将前后两段合成一段。
    ! j# p) C2 v1 K" |* J) y1 b特别是那种大量的对话的段落,deepseek会给你合成一大段。
    % p4 b. s+ {; c* ^
    4 I% H2 a3 e0 F# J& a8 Y8, 钱说了算。6 J) I" [, D8 x1 m* s- a9 _1 z1 ~
    7 L9 X  z6 E3 u( j4 u
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。; [  b1 h  R+ x# ~$ c4 O
    但是API就不会出现这种情况,毕竟我们给钱了。
    4 T9 z) Q: W* I0 A4 lchatgpt也是这样的。
    5 t% D( @6 ?# x; [* H3 |) ?, y' c0 N. J

    0 g1 J# n- K  A

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-28 19:26 , Processed in 0.063200 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表