设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1793|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ' [' }2 s8 ^. B  |

" v: k* H* s3 G4 ]把PDF上传,然后让他抓取文字,并修改可能的错误。
* X/ J2 a' C, E% `$ V/ ?然后deepseek完美的完成了任务。. v# N! ^  @6 C0 R' q' P3 I
段落清楚,列清楚,页眉页脚全部去掉。" t  I: G3 B1 J8 |! e* E
我要疯掉了!
" H" ~! y% U$ M. A' p: v* _: Y+ A赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
$ _9 C, A% a* y6 K# t====
8 S( k5 B* R0 {+ n8 d2 F8 \, l中文也很完美。
3 [" l" T1 V& Y+ O经验值,每次十页比较稳定。
  @% ^- l" v/ o- E5 b- X现在我这里API还不能用,等恢复了,全自动了。
- \1 K! ~9 F! o$ F) u1 ]$ C$ z====8 D) Z  p2 y: I! X
第二次疯掉了!4 |* e7 z6 ]6 H
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。" p+ W! {3 Q) y  P
====7 Y! y$ s: W# v1 p% n3 H8 m
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
! Z1 N9 |3 m. N6 H/ G但是任务多了后,每次翻译的页面数是减少的。
' z2 ^' T0 j$ _5 s. `  G8 s好吧,我五体投地,继续探索。( T& f! Q) Q6 G% C
====7 f% D  P4 D4 T& {
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
' g1 e) J# t+ L- ~  c4 I====
) o' S- J6 u2 l* C% x3 w好吧,有些东西是不给翻译的,哈哈。
! q& I! |" Z3 i$ G/ R
# q- c& v8 ?4 P; Y. D" Z) GSorry, that's beyond my current scope. Let’s talk about something else.5 |6 L. e) r3 a% q
====7 V5 y7 m2 R, v' q; B5 t& y6 X9 F
然后我的英文命令也让deepseek 帮我修改,呵呵。
6 H; m. o) {3 X) R1 o& X% Z  h====
1 g8 N" @+ u- `7 N' ~日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。% d6 Z; d# k' e+ I
====$ ^; ?2 V  D' u- w
时间段的话,北京时间的下午和晚上用比较好。
- H/ T0 R/ m9 O6 {' w后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
6 b( v" a# S6 O, q$ R( @: X0 `: c====
; z: c) _5 o! I' p7 o! x$ {用千问吧,非常稳定,非常强大。$ q' o, m4 i0 s8 F
https://chat.qwenlm.ai/
& E' Q  T0 D' T! r+ \====" t7 w' X: Q2 a% y: D6 I- w
Deepseek,API 看上去可用了,但是不给充钱。
$ h- @2 A+ K- Z& |4 \6 ?- C' n
$ ?5 r5 ^: U6 R: L
0 ]3 \: g) v3 d* i- O. s% O
/ Y7 m* b: G3 _% A8 P$ i/ G

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3550 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ( w) x0 {$ \6 {6 j这功能很赞呀
    9 B- F- `$ t# e" J
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13. p0 {6 |4 V  d2 `
    有没有上传整本书试试
    % P7 r6 {6 H, W* `8 c& W: c) H- Z
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3550 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 # e+ j6 y1 o6 o: _% h' t

    - b+ ]8 }  q. }; h以后让deepseek 读出土的竹简' B4 u) }3 P$ k5 c& J

    : N8 t! P  l# J  K& ]8 v2 i9 j, I还有把古文翻译成现代白话
    8 R9 G! q; q. [9 H8 B
    5 d, R& d# e7 L/ d; E+ L, m! V( k以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    6 小时前
  • 签到天数: 2700 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    , k, A5 @$ M3 {" z) z
    7 b9 u/ Y7 L& A4 D% S" E+ D我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    - r& M, E/ A4 k1 }. E# r0 e* Q请教是如何实现的?
    6 w" l: p& r& U6 a" x
    3 T2 I/ I9 s; |) z我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : j* o& l6 F/ q$ N0 v
    ; b' n. u1 O1 r2 n
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    $ {8 R+ ?( s; R. H; [' t文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ; V) a: O) Y% y+ t美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。. V1 k4 p3 ^  Y' y- R) ^5 G

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    " k8 G7 e9 U% J2 ~" u) }( S2 v% Z请教是如何实现的?9 J, `# `: K6 h- }: m+ {

    8 f% L0 u% I" ^, v6 f9 |我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    3 a" @* f/ T. Ihttps://chat.qwenlm.ai/
    . C: J  q3 H) T% k) V5 g6 c+ h试一下千问,估计美国人没有攻击他,所以资源敞开用。" ^3 o: p$ G" M$ Y% m) ]3 {
    很稳定,质量不错,好像最多一次处理15页。& K$ s9 T2 f( Q  l
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 2836 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ) q4 L" [/ h' s7 j处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。7 q3 {3 P7 C  ^
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。6 G3 i+ a: H1 l+ M4 \
    % g$ W4 W  {3 A0 J2 k6 W. T
    https://github.com/oomol-lab/pdf-craft
    1 `8 T* N$ D3 O1 _5 j; h
    % K5 E, t2 U; w! C1. 这个工具要求装 python3.10
    3 Z4 F" q, n7 l2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0! R- L# `+ a5 y  k" s
    3. pip install pdf-craft
    " F6 J8 U3 o. T) D- b5 r+ i& f4. 把下面的内容写到一个文件里,例如 a.py
    . A: l) ]  j4 z. L6 }$ ^7 T
    ! T# g* x/ ?  g2 C! s" [! d, y
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter" c! \+ @5 C, N5 K& b% n% u7 W
    2. 1 y' x" l. @+ I9 b8 _. O& S+ A
    3. extractor = PDFPageExtractor(
      # T4 D& G4 D& n, B
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format., U) ?+ h. J' a. A
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed  t# M1 `+ s1 P' O
    6. )+ N% b) O9 m7 `- n' L+ v
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      " B+ _, B4 Q1 `+ N4 Q  q
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      % _. o- `( ~$ I% t5 j
    9.     md.write(block)
    复制代码
    , M) n6 z- ~  \* g

    / c9 Z6 \8 [+ [% G$ f( w/ Z5 B要修改的内容:
    - i" e9 T" o# F. a8 H% G4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型$ E3 [" R0 f4 V) h: k
    4.2 markdown_path:输出的 markdown 路径文件名. W: L2 Y$ u8 ^
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    / m8 X5 \. ?1 A6 `! H9 y& f1 ?5 f- Z$ q1 W6 m
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑   j" |) \: j' Z2 g. H

    : V8 ]( a0 C1 R5 d% a; b( \. U目前为止PDF转纯文字的最佳办法。
    5 L& f* e9 k, M; Z  c; \先写个小程序,把PDF按章节切成小的PDF。# V1 }$ H' ]5 A3 H+ `" Z4 K
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。6 I9 D8 S" b5 P& d6 @
    效果非常好。: _* P! [! ?3 X- }% P# G

    / B7 o0 P& [* x$ k% ydeepseek,qwen,chatgpt 三个,deepseek是最好的。. d* y6 _4 |8 P. m8 Z
    $ ?& K. z% t( ]+ s- \; R, h
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    $ c$ r( X, e' S+ g' x而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ! n4 T; l! m- u我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。% g7 d8 Y; p" v5 W) ^

    * `* s- @$ `: L9 h- _9 k: WAPI到目前为止,差强人意,不如网页版本修得干净。
    % {3 i% |5 A7 t
    ( \  Q- u& k5 |- k5 K, z" odeepseek可以同时开四个。8 f$ _# a# n$ `  J" x7 N* t, ~' X

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ; a' K: x. u# ~9 z6 A
    5 u  m* T5 l  X* M7 a, G让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    3 Q9 ~  D& h2 N/ V$ I让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    4 _6 l& J5 k; U1 C$ M9 c) P细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    # v3 G8 K" E9 J( L1 @" i% q细说一下,听上去很不错,多谢。

    3 j' p& [  T) n  R" L8 y; U直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    . e" o% P% {  f8 s/ E) p; k2 |" L0 q" E  c8 f. f
    已经搞定.1 _/ L) k& @3 d) e  c
    & h+ _0 o, g4 c* j
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    & t0 E( G( z4 s7 I9 E, ^. s2 y% z* ]$ w9 p2 b. l; ^& Q% j
    1, python + pypdf 按章节拆分小的PDF
    8 R9 m2 g, J2 W0 {$ l
    5 E3 M, k6 T, {. L* x0 m2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    / u2 X6 K" R* T& \6 n- f' Q) ^  S' ~* j& C
    得到text file. [# X: {) I# G$ P

    ( }6 f) [3 K! T! W* M3, python 读取整个outputfile,丢给deepseek 矫正。
    / o, B: D! X% x5 q' X$ r# K
    . a4 [# d2 L8 j% i: e8 d模型是 deepseek-chat
    # D2 X8 w  T" t2 y% y5 w6 {2 _/ i) c) b) `
    max_tokens 最大是 8192,别的不用改。; n8 i" _0 q. T" L# w

    ; J3 D* `4 N0 h9 {参考:
    ) J: K( J4 v  K2 x/ L! Khttps://api-docs.deepseek.com/api/create-chat-completion
    % M3 J' n) h9 _1 J+ y. K
      A, o) H. h2 O# W4,费用:/ N) `7 t: @- N: K
    / r! W! W) Z: `4 t( e3 q5 g) u2 M5 X
    实测:& R" p; Y/ I: a6 R1 p9 X$ ^
    7 y1 {! Z0 K' w& t9 g
    296K 字母,用了 9 美分。
    . H" s/ H2 v+ q. d3 v# m; g" W9 m2 g6 ?* K. `
    英文字母 到 token 用量大约 1/38 Y# g; X0 b2 d0 d

    ( J% @- d5 N8 m8 A* `8 O( S% z2 ytokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899* X! q. A5 @# M* Z7 p

    2 j( P/ V4 Z# N32899 个字母花费 11782 tokens,包含输入输出的 tokens0 a3 Y1 k/ c* N: e6 f
      u9 _6 R6 {: ?# X5 f
    价钱,非常非常便宜了。- K7 F) H6 W0 n/ {& x4 T

    0 \8 @1 J3 s. W, `! u/ o参考如下可以计算,懒得算了。# o3 K: a8 q& M) e0 {/ y6 @
    6 z" t9 Z! ^; g7 j3 E
    https://api-docs.deepseek.com/quick_start/pricing
    $ W* z2 r: N4 r1 \& B5 a2 x6 t$ ^" f; w4 \! n- n% H2 u* P9 h
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    * g& V$ h6 Q+ S: k5 L& l$ ]1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.552 w4 |8 x2 u4 Q0 s
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19/ l7 D, R2 U; C$ ^  v

    , a7 m  O" E6 D0 v9 d' \) |/ [5, Balance6 p' X- G) e) c2 ?7 ~- ?0 [

    5 `8 S; ~/ z2 I! d$ Q" {* _3 n) k$ {可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ) O* d7 t: r! S3 }8 G, }# z参考:
    / z9 u# g6 i9 z. D3 Nhttps://api-docs.deepseek.com/api/get-user-balance
    8 y. u  m( ]- N# v. t, Q6 a
    - j' w- h5 u" v0 A0 I6, Models$ f3 S8 C5 ^9 D

    ; z2 V% j4 o- Y目前就两个# Z( ]$ `& h) |0 n
    # deepseek-chat
    . K+ M. K+ x8 r$ n: ^0 [# deepseek-reasoner
    + l& O+ ^5 j, f/ a1 l* t
    5 u% T. e+ D% J% j1 L1 `" H参考:6 l; H) a4 c( i6 Q5 m+ {& P- h: ~
    https://api-docs.deepseek.com/api/list-models' |4 H: D5 W  c* ^# v( U

    3 }- ]; X7 C- K4 [- l8 }4 y1 |. G% O7 X  V- Z! A% m
    7, 问题1 {1 t/ P" z; s4 P5 E
    1 _6 X9 H* ?9 f
    deepseek 会将前后两段合成一段。) A$ q% P  O& |8 F- ^9 c$ V
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    0 J3 W) d% S: y5 ?3 Y; }) p8 U% [: H/ b+ P2 i/ P
    8, 钱说了算。- C" l4 n: Q3 D' b' o

    + @, ~- o2 Q/ z! sdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    4 W2 {5 e) Q% _% [. J9 |但是API就不会出现这种情况,毕竟我们给钱了。
    6 Q7 l& N; o' m9 Ichatgpt也是这样的。
    ' d/ f1 h: M- ]+ ~7 m! M
    # b$ z9 L4 o5 B' T6 p* C8 R" f* A$ ~. P7 ~8 A  B

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-8-23 06:34 , Processed in 0.045194 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表