设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1918|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
& ]( `6 r( b0 ?  x" N: v( b/ X4 K- A1 T# b0 B  P  z
把PDF上传,然后让他抓取文字,并修改可能的错误。
7 }/ r% S$ k, B! [) b9 m然后deepseek完美的完成了任务。
. O8 |* x) D) w: z) i9 H段落清楚,列清楚,页眉页脚全部去掉。
& |, w+ W, A( E- o3 h我要疯掉了!" Z) z+ E8 d3 u! D! F
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!1 u3 C0 N2 V' {
====
/ N7 j7 x6 o8 ^8 d- t* H( i& v中文也很完美。
6 R* C4 a7 z( n6 _! O) J6 R: U& w经验值,每次十页比较稳定。
& z5 Q9 e. @  k现在我这里API还不能用,等恢复了,全自动了。7 X' G9 J2 s' R2 A- a6 O
====' W+ v% c2 r4 Z, g& a' x% w
第二次疯掉了!5 R' j( y8 q5 Z- x9 w& W! _
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。( V8 S- j( s: D2 F
====6 A) p' C5 `7 ^7 F6 c9 S
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
9 c8 m6 S. m# N( r/ f+ l但是任务多了后,每次翻译的页面数是减少的。
# P8 v6 e. J. ]* b6 ]- N5 U7 D6 F好吧,我五体投地,继续探索。! J' G* e$ v* B/ T$ e+ b7 D
====0 C2 H) I5 C9 Z% |: @
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
5 i, ~  C1 {. W5 p, S  c" u( N====" k9 s' j) |: n1 z4 w
好吧,有些东西是不给翻译的,哈哈。
; H  I( O3 r  j( s& K" y
% p& `% q" B1 w; u9 w- MSorry, that's beyond my current scope. Let’s talk about something else.9 Y& z# g, M! o- \' Z0 l
====
1 Y7 r+ `# M- T& Z# B8 {9 _( Y) i然后我的英文命令也让deepseek 帮我修改,呵呵。
) Q5 A1 s( Z. e1 E( J====' r9 ^- @! `0 R
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
# Q! M1 O$ `: F4 Q* y( V====  v  i5 u0 b8 ]5 o* U3 q" A0 P: m
时间段的话,北京时间的下午和晚上用比较好。
) f; F- e. O2 `' ?7 g, k0 y$ W后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。! Y6 D1 f: a6 p  R
====' [( N: v* [2 F& A+ l
用千问吧,非常稳定,非常强大。; b, ~  G* q. M) V/ b/ v+ m! _" J
https://chat.qwenlm.ai/! b+ ]4 I+ j$ ]# t
====$ \% z8 s( D' E8 Q0 g
Deepseek,API 看上去可用了,但是不给充钱。
- ^7 r" {- @+ M$ {$ n6 c) q  Y+ R/ B9 s  l( x  u3 r

$ [; D8 x( ~8 U$ _  f& F; }
# {  S5 b( y, Q5 ^8 c, I1 v

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3570 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ) E  d7 \7 ?- G3 z这功能很赞呀

    2 W  O( V  M$ [简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13# [/ ?- j; |+ ~  f* p+ j
    有没有上传整本书试试

    % e" f/ s9 }. G# v  @" X目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3570 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    , }' [2 y  [5 c% U" Y$ s- e) q( e8 A0 {1 m. j! J
    以后让deepseek 读出土的竹简( ]! g. `& T; C1 T/ g- j$ r" H
    / d) N. ~2 V, w) p
    还有把古文翻译成现代白话
    % W7 g! _; ^$ D4 U8 q2 \0 N1 J% c/ k5 K
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:23
  • 签到天数: 2718 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?, l1 q; n& ~# w2 _! R( R
    9 c3 Q0 Z2 b0 g$ a
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
      a5 e) J$ D$ w, ?请教是如何实现的?9 k" m% \- w1 C
    4 `. {4 C2 i7 @% b
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    & j( }; _* g, _# M2 v$ f

    ; d4 G/ w) a  p; _* U7 C& E, ^* c我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。# @! H; Y1 x# M
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。% d, D' v% I: }1 C$ M/ |! M
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    5 r' P; t; C* W* x

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:238 {1 @8 q4 w+ y
    请教是如何实现的?
    % L2 G0 d1 _# i' A0 Z6 q# x' Z/ M) `7 n  a+ e7 V3 L8 O
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    9 q7 K+ p# _5 _3 x  J; L
    https://chat.qwenlm.ai/
    # I, Z" n+ d1 q0 G; p& R试一下千问,估计美国人没有攻击他,所以资源敞开用。: Y8 r* E9 L; A
    很稳定,质量不错,好像最多一次处理15页。  j+ P* O) s# z5 p
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    半小时前
  • 签到天数: 2852 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。9 r% j0 f/ r8 O' O0 g$ K7 j8 @
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。. C7 f. X/ n" f0 L/ D) m* f* r
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    ) c4 v& q3 T* r( p& ?( s9 {3 [
    1 g. I5 o# r5 U1 o9 khttps://github.com/oomol-lab/pdf-craft
    1 [9 Z$ h1 l4 X: m' [( ~" e8 Z$ }0 }6 F5 ^1 [# n
    1. 这个工具要求装 python3.109 ]- U; A5 K3 c
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    " C) m0 E6 `3 g) x6 b5 P3. pip install pdf-craft' I3 |) L  m3 F, ~' [, H
    4. 把下面的内容写到一个文件里,例如 a.py
    2 K& {3 [/ {, k! k( m$ ^
    3 ~! l) m/ V$ a1 A
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter9 v8 `& Y6 y- r6 L
    2. / U$ j: h, W% T0 F1 g
    3. extractor = PDFPageExtractor(3 d& b1 Q2 j6 C1 X
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.+ R) H$ w) ~& w4 |$ D! z* h4 A
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ) R4 @' h! ?4 }, K' X5 j6 T, K
    6. )( ^- I( w$ ]2 a; m
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:0 [+ I$ }" r* @+ y# r
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):5 z  K6 E7 u/ P7 x: B
    9.     md.write(block)
    复制代码

    2 ]" E6 j* B) ]1 c$ h; C& P5 J- d4 n& U
    要修改的内容:
    - N# n* u- I! s. g# s9 {  G9 V" O4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    , [. [4 f& F/ b5 O# @% z4.2 markdown_path:输出的 markdown 路径文件名
    , Z9 F( f& y/ G4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    7 s. B* n; |+ d6 b* D( R* P
    / v4 [2 b- S) A: F, E0 _5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 % E( y4 w( q& g9 m/ ^* e& B

    # f* B' k2 n; Y; s目前为止PDF转纯文字的最佳办法。, b6 C  ~7 z6 x% C9 _* M, e
    先写个小程序,把PDF按章节切成小的PDF。
    - q5 r& l+ Q  m: C5 X4 s然后,把PDF一个个传到deepseek,让她抓取,除错,输出。- U6 J2 W' |1 v# L- ]
    效果非常好。
    ; A  k) @) w8 ?2 B6 I6 i
    ; x+ I, n, v; z! U  |. m& _deepseek,qwen,chatgpt 三个,deepseek是最好的。
    2 h# D3 H8 M- P) `; \/ Z* B  r, v' V
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
      |; @! ^9 ^# p4 x4 M; i而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    / w! ~, s* c3 ]! W: `我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    1 G" d9 a6 C* @! ^  N9 D
    6 y5 K+ V& h* B& |3 HAPI到目前为止,差强人意,不如网页版本修得干净。
    9 h  [; ~! [4 o, s% |) {  }. j' }% E
    . ~# E# U; T" s% S; S) kdeepseek可以同时开四个。- w. j8 j% G2 K+ n- `4 S

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ( U+ h+ m+ a6 D' K# I  q

    ) [+ R, j1 t4 x+ @7 L* j/ D让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    - b, g  N. _" g, z0 L6 K4 t让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    2 E6 m/ d7 T7 F) ?% V  H% Z
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    + t! ?3 P! h  g( O细说一下,听上去很不错,多谢。
    * Z: ~8 P( ], E' A
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
      U" Z9 E6 {  d* j& Z7 z0 Y% `& ]: n( U/ f2 j
    已经搞定.4 A& l# e7 z8 j' p, Q. d$ d

    - P8 M8 @0 r5 R4 r5 n, G首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    % [+ h; u- x# R; O
    2 Y! B. F# [! \( @& C5 K4 W1, python + pypdf 按章节拆分小的PDF' x: H4 B: h: I: f, S! O
    1 \; G; r1 D7 F! ?; S# V) q( Q
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; Q5 J" D* `+ z& h

    ( P* U" w/ n- p( d, N得到text file
    " Y& Q! u2 x3 z" i' T
    5 \+ \% \, @/ H7 W) {9 S3, python 读取整个outputfile,丢给deepseek 矫正。9 Q0 K( C5 x$ j% c7 C" k

    ! _1 T9 B& z( w6 M) Y模型是 deepseek-chat4 l$ Y2 _0 {4 R- k/ d

    ; C. C0 \% `# z6 c1 V- Rmax_tokens 最大是 8192,别的不用改。
    3 A- a, d0 b$ b4 Y  o" `, y& {, c! @  \# `) A
    参考:
    1 m$ {/ Q  Y9 jhttps://api-docs.deepseek.com/api/create-chat-completion
    3 z4 H2 `! F. Q$ L1 [0 h- _  I1 ?" S3 _; `$ t
    4,费用:
    / ^) r; u& F4 f0 `4 B
    . O3 J5 ?/ j. S实测:
    3 K8 g% q3 H) N( D/ `4 }8 Q5 h+ N
    5 t& k# ~+ e9 X, X( `296K 字母,用了 9 美分。- E. G+ c' W" i2 _; }8 n
    ) x3 T& W* W' K9 a7 o0 f
    英文字母 到 token 用量大约 1/3
    9 o4 f2 s- |$ v5 h1 K! r& V2 s6 x: W$ p" ^& `. b" J& [& X
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
      q9 F8 b- w3 X! {4 f/ F# w& S" V% k5 C/ @& K5 k
    32899 个字母花费 11782 tokens,包含输入输出的 tokens# E- G) w& |9 R
    ! c5 H$ y  B( R8 _7 L) `; ?
    价钱,非常非常便宜了。
    + M1 o2 i" f3 h5 d$ D9 x$ U, r% Y+ Z; z+ y
    参考如下可以计算,懒得算了。
    . M  J. t8 k  ^( X5 G7 F6 y* E9 [' ^( ^  @" u, Z
    https://api-docs.deepseek.com/quick_start/pricing
    + c- m4 @; F9 O) U, Z0 [) Z. r
    2 \! F- M8 ]/ I# o9 M# B1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.149 V2 ^5 o: r% [( p$ R/ s* q
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ; L9 u; k2 }& ]1 l- p+ \9 F1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    8 @, [  h% q/ Q( a  B
    2 u  u8 n! M# T5, Balance9 U8 B: Z4 h9 }+ t3 \& w( e, h

    9 x4 G6 B' [% ?* p, ^可以在程序里调用,知道每次运行结束后,balance还剩多少。
    " ?- y3 Z+ [6 W: d! u) ~参考:. s! {) R3 n  G* T( R
    https://api-docs.deepseek.com/api/get-user-balance4 q3 \; X$ t9 p4 U
    ; s: W- z2 d. O, |9 b$ f! S  N8 b, F
    6, Models! @, ?% l" ?& {/ \
    ' ?& w. U/ M, }6 W* A( t
    目前就两个" C7 F% c) q5 [( p* Z" H7 H8 K: Q
    # deepseek-chat$ O7 u$ {+ ?  l, T3 n
    # deepseek-reasoner+ l% K- B; q0 d

    ; H/ c8 \+ `5 z7 c6 _- i4 x参考:
    # E7 d) U$ ^0 R; u; _$ `https://api-docs.deepseek.com/api/list-models0 C4 @( X. g& a% m3 f

    7 X* x9 b! c. c
    3 Q; [% h) A. j( ]7, 问题, b  e" R2 p6 Q) J5 b! @8 O/ S
    # C# ^& \# m( U
    deepseek 会将前后两段合成一段。& I( o8 \3 M* D3 l# [& x7 z
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    , [% Z; }% m3 x6 @
    2 \. |4 s7 F$ s. a! ~' X2 i( f8, 钱说了算。
    : B0 Z: Y3 u. G4 }% Z' y2 s$ s) \* D3 f6 O' w- E
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    8 v6 F! `+ k# \0 F: f5 p2 Q但是API就不会出现这种情况,毕竟我们给钱了。
    ' J0 ^. E; K, U+ T+ X) m# }4 @7 vchatgpt也是这样的。0 g0 Z; L% ?3 ]/ |

    & q: X- i- @8 F9 L  ^, S. s! |) j  M8 i4 i* z3 E

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-11 06:24 , Processed in 0.054960 second(s), 29 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表