设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2957|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
( f* N0 \: y" y
' w! |" B! U9 i4 y# L把PDF上传,然后让他抓取文字,并修改可能的错误。
% n5 m, x3 w& n: U/ u然后deepseek完美的完成了任务。
3 q8 n# B+ r2 {% L9 a: J5 b7 m; t段落清楚,列清楚,页眉页脚全部去掉。
) L5 _8 L: {# v# C, ?我要疯掉了!1 d* w8 c7 F3 z5 U8 V) O0 B
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
& j! k, L4 C) a% |! s/ o====
. ]$ @! H% t) a8 w2 u- ~中文也很完美。- f, f% W* z& H, P
经验值,每次十页比较稳定。
' n5 ^4 y$ W6 E3 A( {) k; @现在我这里API还不能用,等恢复了,全自动了。4 p: W& N. ^+ x9 O8 @" v! i8 V
====8 G$ N( A& p5 m, M- d0 X! W
第二次疯掉了!
$ J: G1 W/ T4 U我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。0 @- O3 g. @: s
====% i5 W: p7 s! M  w
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
4 H2 V( Y. D( g8 J' F: w6 f% u但是任务多了后,每次翻译的页面数是减少的。5 Y( ]: t9 d  L* a  Q: o
好吧,我五体投地,继续探索。
7 L# O- V( R0 v2 ~# C) X) j====
0 n" K$ V5 ^8 R5 @7 w为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
3 `6 o; ?3 j1 L6 g1 D5 c) @====: A0 R( u2 T" e2 B$ v  X
好吧,有些东西是不给翻译的,哈哈。# l; Y" ]' ^) Z. o

* l- C: ~5 Z2 }Sorry, that's beyond my current scope. Let’s talk about something else.. _' x9 g! J! _) Z4 x; G
====
5 Y- @$ ?1 w  d! q6 P4 P& s1 I然后我的英文命令也让deepseek 帮我修改,呵呵。
7 E1 Z4 v' D/ `4 ]# a* C====# S$ I! X( |+ T
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
. N$ h+ n9 \9 y! O* L! j====
6 l( w. W1 ~/ L' u8 a% h+ S7 P时间段的话,北京时间的下午和晚上用比较好。
' ~' i7 B( R$ }& R! \" R后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
6 d  k, R8 c% U6 k  E2 d" d* w: Z====; r2 J3 A5 V% }3 N6 O8 k+ J+ N
用千问吧,非常稳定,非常强大。* v0 M: v! c& e
https://chat.qwenlm.ai/  f2 l8 r" ?  e
====
& }) z' D5 j( `Deepseek,API 看上去可用了,但是不给充钱。
+ `9 e% U/ v! E' z% y" f+ F1 K% {) i

! z* B7 r6 d# I# \/ E+ Z
) @1 l3 y7 a8 u

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53! `- G& E- W% ?& p! x, `4 u
    这功能很赞呀
    / W% C( B/ h5 x. @2 I
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:137 `" ?) N9 q% L2 T& Y# F$ C! b" l" C
    有没有上传整本书试试

    2 X5 l- t$ v) Q* A目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 ) ^, V' K6 F+ ^+ ^6 J$ e

    ! g$ G' f% J6 f以后让deepseek 读出土的竹简( ]. t2 H9 z9 h! q/ r
    : I1 j0 f9 r, C2 L" n
    还有把古文翻译成现代白话1 G9 f! K! O% ]- Q

    - @* T6 u2 `1 ?( R0 u- r/ U1 h# i以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2928 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?- R/ `: V6 ?' g) p7 `: ]

    $ x5 O7 {0 q, n7 e+ u3 z我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23. V, ]" n1 M  @: }9 P; z+ N/ R
    请教是如何实现的?
    ( D# @6 V, f: z0 _, \, V+ C' W2 g& }" F* b
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    / M" a( j& K) }% f+ m  s& Q3 e
    9 B# s/ T+ N. b% j! Q; L5 ~我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    % B* q) j8 t! I! M文字之类的没问题。估计deepseek现在暂时只保证主要功能。) O8 Y  D. J, f3 f- K) J! @
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。, [6 k0 N4 ^* E# c# m+ _- w

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    # {: r8 P2 j6 S8 @0 \& W请教是如何实现的?/ q2 R  I5 Q: v

    , h+ _9 C0 @' X我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ( M8 G! d" z' e1 m$ Bhttps://chat.qwenlm.ai/9 t$ q4 T" ^3 X
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    7 b/ N. K+ O/ S8 R3 F- l很稳定,质量不错,好像最多一次处理15页。% e$ X+ |) h! w2 Z9 t+ B7 m7 ~
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3040 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。4 q3 X1 u* W4 N2 c7 I2 `/ G
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。4 ]2 ^1 s/ e5 c# x% O6 N. K* j6 ]/ X
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。9 ~# W3 @9 N; C* m) O* X

    6 Q3 N2 M  m: O! n5 j1 m* Ahttps://github.com/oomol-lab/pdf-craft0 U7 [* g$ ~7 v6 e7 d: _
    , A- ^# w( |7 m! k) v
    1. 这个工具要求装 python3.100 ^: ]" a0 G8 S- x3 }  T, t) W
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.09 G$ T3 j" I3 [2 d
    3. pip install pdf-craft8 h9 d! }3 ~1 |- S
    4. 把下面的内容写到一个文件里,例如 a.py) @$ f/ Z, Y' a

    & p: m: s% {9 g* U( P# M
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter8 f9 Z) L) N: d/ y8 v0 c

    2. 6 @( r2 g  y( X  M8 I
    3. extractor = PDFPageExtractor(
      . I& Q# E+ m8 e4 \. W
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ; j2 C# F2 G2 G$ X. [' r# \; i
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed. h% ?# z, A- {- o) @4 V3 N# ?
    6. )
      . A# `# b! L; p4 D6 a% p
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:. F. r4 G/ U$ D$ H/ Z% i
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):; }- _# s% K7 M! h/ E! J
    9.     md.write(block)
    复制代码
    $ w" i; \1 _  I. P1 d! g' d) F

    " h7 T' u# I2 d0 p要修改的内容:  U1 @8 W3 k# T1 H; |
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    , c/ I( G. b9 C. p8 v4.2 markdown_path:输出的 markdown 路径文件名
    1 @) w" ]  x2 R, i, j) b& R4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ; G! ?1 o+ p9 w6 x# k4 o- V/ p* }4 J$ K7 _3 ?8 X. N
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    / [# q# U; @$ E( Z  w5 c0 Z! {
    - s; d8 l. b% M' @! T+ p目前为止PDF转纯文字的最佳办法。
    2 b4 a2 W. n, g# W# ^先写个小程序,把PDF按章节切成小的PDF。
    - U5 ]8 g! W% N/ k然后,把PDF一个个传到deepseek,让她抓取,除错,输出。6 {, f% s9 N) X3 h& ?- l5 {7 O
    效果非常好。
    / {9 w) p: \! x4 J; h
    5 X9 D/ V9 n7 b0 Q2 E1 b- bdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    . p6 y8 t: Y2 U+ I4 i. W  S( n2 }" ~( E6 C
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ( u* a8 L: r6 c4 {( T: G而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    * y: Y+ ]- [0 x/ z7 D, L  }' @我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    5 U4 k; m& d5 e; T9 y& ~, k0 T' F! V. K$ C, D/ [
    API到目前为止,差强人意,不如网页版本修得干净。
    3 M' J4 N) V; ~* C1 l% `' O: ~/ F' F
    deepseek可以同时开四个。
    " C7 z$ p# H, G& x4 O0 h: Y6 q

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    0 ?* d6 {! r/ T9 C
    , Z4 Y- T( B2 p4 ?- ?让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    # x1 E+ y) I1 l0 v; V' t让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    1 d- ^. U8 k% W+ n细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
      s5 x; q$ ?% e  ?细说一下,听上去很不错,多谢。
    % t: d: \, g, C4 c9 j
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ( m' e( q+ Y0 k" k
    6 c! T) O) K& G; t8 ]
    已经搞定.
    0 p5 L  w' A# c! }( @- S+ S; k" h8 s$ m
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& Z4 z" O- x5 C. K6 S7 E
    , r' h' B! T! j+ F
    1, python + pypdf 按章节拆分小的PDF# b, I- ?- F' o& }. g0 Z; Y" \
    - ?6 ^  o* s5 t6 m2 X! |7 @" F# W
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile! D. d, r$ i0 Q
    ; B2 ^7 ~) C+ M
    得到text file
    * V5 I: d( }* z4 h/ [+ ]% M6 b# J9 K6 Z
    3, python 读取整个outputfile,丢给deepseek 矫正。
    ' s# E8 c+ ~0 f* K8 P. X7 m% l5 r# M, x2 n
    模型是 deepseek-chat9 T7 G+ s' R! M
    / w7 N# j. R4 C8 g) V( E3 C
    max_tokens 最大是 8192,别的不用改。
    - `9 s8 z& n' D; [) ^8 {. \8 }- R
    参考:
    - q# t+ T4 y, G, d- ~https://api-docs.deepseek.com/api/create-chat-completion2 V1 H. X; I! t- k) X2 b9 J
    , _7 d) S" p) K) ~5 L- q
    4,费用:$ U& p+ ]3 \- v5 `8 l, P: ?* Y$ l9 b

    3 k# d. J' A) N/ a6 r9 G实测:
    ) Y7 r/ V( W" Z- W
    ( O  S; {: N; N! I" O! D5 J2 a2 F296K 字母,用了 9 美分。
    3 Y& u- E5 W% g% H8 u/ ^# v! g$ B; `) z3 f, D) _
    英文字母 到 token 用量大约 1/31 g) [0 L. Y$ j6 f* [  c; P9 v
    - a6 B' j) C1 X$ b# T' j, \
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    $ a( y6 A' Z9 z# U, Q& e, k7 t
    1 X, {% X% r1 L7 S& C& |* ?& t2 }, h& E32899 个字母花费 11782 tokens,包含输入输出的 tokens. j! y& i  k# Z
    ' [0 J: |$ r, ?/ D6 X1 l* ]
    价钱,非常非常便宜了。- v% O8 R$ E8 M

    9 s. Z. Q" E7 Q. R& K! ]# _参考如下可以计算,懒得算了。8 s" U/ k2 T6 U* W$ K' D

    . G  b# ~7 J' \+ l) W% x, qhttps://api-docs.deepseek.com/quick_start/pricing$ Z4 d8 e& L& U

      [& m- ~( }) l1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ; g& A# D6 C* }2 ]# B8 p7 \* V1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    6 ^1 a; t7 U5 ~, B% W) {1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    " W/ I1 _/ u) \. B6 y2 z1 n3 p- B( ^$ t+ |
    5, Balance" d, |7 r8 R# H3 e6 @! `
    3 @- l2 q% C0 v$ R9 G- ~1 ^
    可以在程序里调用,知道每次运行结束后,balance还剩多少。4 G, u2 ?  |' U- O- g
    参考:5 }9 q6 \* D( p  {) a! q
    https://api-docs.deepseek.com/api/get-user-balance, W# u! p/ a7 a1 b; {* L) ?" `

    1 W3 W. [& s( N0 y, E6, Models3 y# V1 H% ^$ Z4 d# O# y8 ?- Q: O1 }

    3 A: p) ?) o  s/ u目前就两个
    " M2 V2 s/ t; j: t6 C% s# deepseek-chat
    , \. G6 x) c, A) d; s# deepseek-reasoner
    $ U% {; Q1 p. D7 ?* `  J4 ?# {: @3 H5 l( l, Z
    参考:7 b% ^2 ]) h" {- V+ x& z
    https://api-docs.deepseek.com/api/list-models! t3 X; l7 s, D5 f

    5 _  k% f* ~' |; D
    3 j: o# `( j$ ^/ u) N, Q6 F7, 问题
    % F: g5 t( X& Q( r* j) I' \: S% T# G' ~% \
    deepseek 会将前后两段合成一段。
    5 O5 S3 _. d  l特别是那种大量的对话的段落,deepseek会给你合成一大段。
    - e: u2 w8 Z1 l4 V3 i5 T
    ! E0 C1 Z" q$ \' T: @, k  S8, 钱说了算。
    6 t- L* G6 d) M; Z  C
    6 |+ h8 |* i& `4 O0 \4 D2 @deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : d/ D' `; a; a3 X; C2 F) u) B! B但是API就不会出现这种情况,毕竟我们给钱了。& ]# X6 `! N+ U: x
    chatgpt也是这样的。
    9 ^6 k4 T  g0 i9 G) ?1 U% W' q5 b% {* e9 J0 L" ?3 W

    2 P' R7 X/ f& B! M/ ?

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-27 05:04 , Processed in 0.079878 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表