设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3081|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 & I& m- {  c. A2 F

" @+ L0 V9 w* ~) @- m7 W! E5 e& Y把PDF上传,然后让他抓取文字,并修改可能的错误。
! t! [/ U$ `+ q% r. q然后deepseek完美的完成了任务。( d( P- y9 |( Q- [
段落清楚,列清楚,页眉页脚全部去掉。% c3 G; ^8 l* E' a
我要疯掉了!" X# @$ ~# U9 c) k  p( D
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
: C+ V* \. ]+ {* \0 l) F9 `====
+ U8 i) ^5 \5 I! G- @中文也很完美。$ {5 g! L6 Z1 ?( S: y
经验值,每次十页比较稳定。
7 i  C0 v0 L0 S- q9 }4 U% r2 n7 t现在我这里API还不能用,等恢复了,全自动了。  h- z, o6 j2 s6 [# n! H1 k3 N
====
$ F* C1 m& l! e0 n第二次疯掉了!
5 u* a9 Q4 Z; a我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
: {+ B* P1 G  B0 `5 p: `- a/ T. B====
) n0 Y/ _9 j" a) o8 J! a现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。8 s$ Y. p/ d! o1 x, {- _
但是任务多了后,每次翻译的页面数是减少的。: ]0 J. @' w8 S3 k9 R  ?) W/ M# S
好吧,我五体投地,继续探索。/ l3 j$ O! \! ?7 W1 [$ l5 x- {; Q$ v2 _
====
; h: d, U: r4 \% f6 x为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。1 T: ]0 S- R3 }+ o' s& h  _  ]) d) l
====
; u, M* p  g$ L+ N7 v好吧,有些东西是不给翻译的,哈哈。
0 w1 w, X! i$ D/ J: U# K8 m8 |9 U8 j9 r* B
Sorry, that's beyond my current scope. Let’s talk about something else.3 ^3 `0 t/ P0 E4 g# f; U! J( f  l
====* y8 C. Q4 U8 j  U) u% _
然后我的英文命令也让deepseek 帮我修改,呵呵。# I$ U* Q% f! n3 L
====
- U  c5 b: |2 i8 w! \日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。$ c2 M. y8 }% `6 C  q4 C3 b
====
( S) t& c& A6 r0 h时间段的话,北京时间的下午和晚上用比较好。
% K. K0 A6 T' G! I7 u2 l后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
7 m) E9 m" E, H5 l====8 v4 A8 ~" Y7 [
用千问吧,非常稳定,非常强大。
. t7 Z, X9 q! ?4 ]" C" u$ q  xhttps://chat.qwenlm.ai/' |, }2 O1 i/ f7 D2 E- E8 i4 T+ ?6 X& ^
====
. K6 G8 @/ m# Q( ?1 c8 sDeepseek,API 看上去可用了,但是不给充钱。
  b& Q0 C2 V9 g: R! q; J* W* W  H7 W3 n; W
4 f8 B0 Y+ _) {& n

) i# C9 N' t$ Y+ g' x' G0 @9 b

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3787 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53& l2 }- X; I/ }& z
    这功能很赞呀

    3 F6 C' G. L7 e, k, ?  m简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13" O0 x. `1 E" m0 ]9 x& E) r
    有没有上传整本书试试
    * ]9 N0 u  f! i: t" i) Z
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3787 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    7 u) ?0 m& h9 e2 J  D1 m
    ) a# \$ U" u* u- I以后让deepseek 读出土的竹简
    ; t- l/ Y9 Y* Y# Z: l: Q# z1 ^) z0 C* N$ a% j! N. L4 x/ B
    还有把古文翻译成现代白话4 V. P) F# Q) r  ?; B
    , E9 D' f2 _/ m; v3 M% P- @
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    21 小时前
  • 签到天数: 2947 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    * g% c0 C" x; ^( @# j% C1 @  e4 Y3 s
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    . ]8 U% \9 W$ |! {请教是如何实现的?
    ) J0 L& a- }  Y, G5 i% o+ u
    & n$ Q5 z8 l7 b我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ! Q1 X4 v( b" r5 o' A
    2 U3 i5 A% N1 o2 C" o- Z我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    / h# @- E2 f9 e/ a" e7 e4 l文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    $ A1 \+ D, v, M( G  [$ t; \, z美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。0 `. I6 }, M, R

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 b* |5 a2 m/ T' M$ k请教是如何实现的?
    $ X9 F- [( ~9 `( I7 t0 q
    ! W4 ]0 G3 h+ }8 S' v( ]0 \+ n我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : \+ ^, J" v/ }8 T+ N4 K
    https://chat.qwenlm.ai/& k+ h) Y8 P- q# @3 c1 ?
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    . A; B% R. b  {3 k* l很稳定,质量不错,好像最多一次处理15页。, i0 h, v! c, ~4 S# j& h$ F5 O. E
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3059 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。2 I* f$ {0 }5 N5 v
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。& W# B) s% l5 x4 Z0 _+ {
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。: |, z( r8 s/ M

    % B' c2 B$ }& E! U5 f  j/ p, [) ]https://github.com/oomol-lab/pdf-craft, _. ~1 w0 G( B  G3 Z; M8 \* \

    9 z$ l4 l$ z5 H* f1. 这个工具要求装 python3.10
    1 P/ J) }7 p- z- a, P2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    & j- g6 F8 @! h3. pip install pdf-craft
    : ]8 ]( x4 G& J' A- w- z, M4. 把下面的内容写到一个文件里,例如 a.py/ Z/ W3 {9 s5 j4 ~# v9 g; w( s) o
    7 u, k, c0 w( |" i/ m: J
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter/ w, @1 X' {) C1 @( H1 F
    2. * `# C# y/ W: s, \3 E, Y
    3. extractor = PDFPageExtractor(9 d: r- [( ~. N$ o
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      & e1 p1 @2 }  O: ~4 S- ~
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      3 x! H1 c& T! H, \9 I
    6. )
      ! X9 y( E: O3 H% \( H" c- W$ n
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:6 H9 Z  E1 {+ \) N
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      8 D: y9 G1 R2 ^2 A
    9.     md.write(block)
    复制代码

    $ M6 r" i' X# x" g9 {, o" g# N" z% P  ~# ]
    要修改的内容:
    * R8 S/ ?/ k0 X# m! }4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型+ m, o: i+ G/ a7 ^5 [
    4.2 markdown_path:输出的 markdown 路径文件名
    $ |% x/ b% S1 X+ t" b" f4.3 /path/to/pdf/file: 输入的源PDF路径文件名" Y3 b& }: t, N* q9 w8 }

    * c" X) Q- x; X7 g5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑   H- M- F+ V  D& L3 K
    5 L7 ^9 U* P# E, ?
    目前为止PDF转纯文字的最佳办法。
    6 z* _, L! Y+ w7 `' d' o" p# ~先写个小程序,把PDF按章节切成小的PDF。
    & Z" e4 l# X" c+ u! _2 }, r+ P8 t然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ' k8 O  v) B& n0 d效果非常好。: |( x' j- s0 `) n/ C  f6 k# d

    0 O. u6 w8 Z, N4 gdeepseek,qwen,chatgpt 三个,deepseek是最好的。. {8 d! O+ y3 }6 }
    6 Z$ s! A$ w# j4 K2 r  F1 D7 e$ b* l
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。/ f" O! J4 I9 e
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。# r: Z3 g* r5 s3 c/ e3 z2 y
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。4 F, c/ O/ X# l) T
    ' N8 T6 M* h4 q- h$ E2 u
    API到目前为止,差强人意,不如网页版本修得干净。8 F4 u1 s" e$ f/ k6 ]" H3 A

    % B- u% q2 ?6 m2 P* Z% d9 ~) S2 }! F6 rdeepseek可以同时开四个。4 y- Z/ f! D* o

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 0 U5 F+ P" ~, u( {  ^
    , ]5 Q( @$ V7 s5 ]! R% w% E
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:265 W4 B* S2 u6 T% X
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    . a4 ]6 r' ^. v$ H7 \5 }/ b
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33# r* v) h2 V9 `  K  r& L/ z* Q8 O
    细说一下,听上去很不错,多谢。

    . s# Z( ]/ G1 Q直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    : e9 J, W  C: }$ j+ I
      F% V2 C4 l! u9 x9 j2 W2 `已经搞定.+ L2 s* {9 X; u2 D! i2 ]& g

    * {9 B) b5 Z. R$ i0 P' s首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! y/ C% w& G) A3 J  }

    " f6 E( K9 [" o5 l2 V# i1, python + pypdf 按章节拆分小的PDF
    # l$ F( ^: `/ L0 C" }5 O. g" P1 Q" n
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile5 O5 H% N) l: A& \

    0 c4 u  I& c  H, Q! m得到text file; C" D+ A0 X- W4 {

    . D: q+ I: K' U/ h+ @6 J3, python 读取整个outputfile,丢给deepseek 矫正。; ?/ z* l- `3 a
    7 y* ?" n8 ^. k# ~; W
    模型是 deepseek-chat5 o- P; D% Z" N+ e

    ) R$ B" S$ o2 Q5 m  V: _/ r% smax_tokens 最大是 8192,别的不用改。
    ( U5 h- J& [/ W( `& u& O5 A. d0 M( j% W# g$ r! ~
    参考:( X: b7 H7 W% v; I2 O# x5 o
    https://api-docs.deepseek.com/api/create-chat-completion4 P  I6 ~5 M4 ]3 e* a+ j. P

    ) P4 E0 q2 P$ U/ M$ ^4,费用:* z& j! H0 @4 w+ ?0 ^
    $ f8 C. u$ B3 @
    实测:# c2 t* {% s1 D" \8 z- V( W

    - U: z6 n! G4 C6 i8 p296K 字母,用了 9 美分。3 o; I% g1 l) c5 Q7 Y% N
    / |  E) x* s9 J# n* c1 T& q$ r/ o
    英文字母 到 token 用量大约 1/3
      X3 }7 k2 T) E, P) h! e0 O* n, p
    - N6 c# j9 d& f0 B$ t% G3 d5 ], M+ ~0 d# htokens: total, 11782 completion,  3729 prompt,  8053 | s:  328994 D9 \8 O7 r# V3 g
    ) R$ y' F) K; m) N( D9 o% d
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
      G# v: t. i8 ]# M
    * A. P0 G3 s* T. f) X价钱,非常非常便宜了。: @, l# |5 C% P4 J( E) ~+ F

    + `# B: P: I& J. n参考如下可以计算,懒得算了。
    4 q# e+ e+ P# _9 N7 H, e( G/ }9 R7 O: L0 V; q% \" r
    https://api-docs.deepseek.com/quick_start/pricing% d4 k- q" m5 o8 T) w1 `8 b* ]

    ; S9 N4 N2 q" Z, S5 p, f) ], P: f! o1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ; o% W" D, x* t6 d0 f1 e1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    $ N# y2 K1 k6 z- A1 @1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    / k( a' m- d! j
    0 b0 ]: Z* \* H% y8 E- r5 r5, Balance
    . h: @5 Q, A( C! N/ g1 Q# S  Z6 t0 l( l& @
    可以在程序里调用,知道每次运行结束后,balance还剩多少。2 ~! F$ f* |& U* L1 I* P9 N
    参考:
    5 y0 g$ }/ C9 Lhttps://api-docs.deepseek.com/api/get-user-balance
    1 U# |  W6 ]6 L# A# j; C4 n8 K7 {; t5 d7 Z# ^' ~  t" f! D
    6, Models: }2 x4 G$ A, e
    # g# I% m% s# T/ U/ N- h
    目前就两个
    & m! `" |+ s- k# M# |# deepseek-chat
    ! l2 L/ D  }- x0 z# deepseek-reasoner! R# k- d+ W! a0 K! I( {9 X
    " ]$ l1 m0 [( \& ~! d% q" E4 q
    参考:
    / X0 Y+ V2 T& l8 F8 E5 |4 l% ]) Fhttps://api-docs.deepseek.com/api/list-models, b$ W" H2 O; ]6 b: a2 N

    9 f" \6 \' k" n3 P& |3 v$ E1 O0 ?3 r: \* S1 ^  Q
    7, 问题
    : H! p! ~! V* N* T# J2 M: B
    - }, J2 n, X4 jdeepseek 会将前后两段合成一段。
    5 i- O' L/ W1 _特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ! ?2 Z) m8 E, b9 {# l6 v( I1 d1 v4 a) T+ V9 r
    8, 钱说了算。# }$ T6 @; V. ]) y; {1 L! [+ }

    0 m) |8 G9 j% q7 ]1 l; y, Ideepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。3 A- m9 y2 _1 q4 h
    但是API就不会出现这种情况,毕竟我们给钱了。* `* f% l) ^* \0 [! A2 S( Y' z
    chatgpt也是这样的。
    % l0 P' L" I' X( }' }0 i) i# o5 l; {1 T* y7 H8 E" K/ p

    ' D5 @, K. q4 i' a4 g  }( \$ F+ ?

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-17 23:00 , Processed in 0.068922 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表