设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2621|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ! b; v* d+ q: }. ~! Q0 k" c  ]5 |/ ]7 w) b

& D& B) q  o4 |7 c. i( L把PDF上传,然后让他抓取文字,并修改可能的错误。& H2 z& A9 k. m  s( ]  [
然后deepseek完美的完成了任务。
) A% g8 |6 c5 Q0 p段落清楚,列清楚,页眉页脚全部去掉。
2 p  F' E7 k3 J我要疯掉了!
& L! V7 e. ?9 g赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!' Y2 T  c% a  A; s
====* B5 ?" ]6 I: Y+ X1 ^7 Y% @9 e
中文也很完美。
, [" @3 p& h! ]经验值,每次十页比较稳定。
0 x% D. F4 X/ _) f! P" n8 z现在我这里API还不能用,等恢复了,全自动了。  w7 a) C2 o% |+ h" H
====9 J0 M  p8 F+ _/ |9 T! Y3 V% d
第二次疯掉了!3 O* J6 Q5 u9 D, q9 p# r
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
7 G) z6 f2 A( p0 n# X7 }====/ T( ]" v$ y: L
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
% Q; K3 I. R- `3 e0 c* t' E$ `但是任务多了后,每次翻译的页面数是减少的。
9 R# c7 ~" Q: p  i  r好吧,我五体投地,继续探索。
4 E! z3 M; P8 {$ N====  b. B: `( i5 R) C; K
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。- P4 t! K# r) Q9 g3 B. N
====3 A' F8 }; E" O9 e9 ]3 J
好吧,有些东西是不给翻译的,哈哈。2 |3 R: Y" H* `; G* Z" _
1 H' o) \! k0 Y3 ]. P" T
Sorry, that's beyond my current scope. Let’s talk about something else.* W1 F1 e% s0 c( ?
====2 \9 T4 H8 z! s0 `) m0 F' @* k# h
然后我的英文命令也让deepseek 帮我修改,呵呵。
4 _5 _/ b1 I( H1 k$ }/ H4 S1 x! M3 `& D====
9 D6 x2 {" E$ p5 M日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
: [2 `" U* c9 ^* P====
) E5 l& t1 q$ Y时间段的话,北京时间的下午和晚上用比较好。
0 T& \3 J2 y2 l/ U' R( `* @) |后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。+ R( f9 r, }7 r* I
====
6 i$ U9 F7 P0 H8 r; j用千问吧,非常稳定,非常强大。
( O0 J& ]- ]3 v: F% ]https://chat.qwenlm.ai/
( F+ J* H& h0 ~7 b====
( Z2 E" n4 H4 Z& _Deepseek,API 看上去可用了,但是不给充钱。: j8 ]6 |; e9 q
1 i* s1 i4 |, ^7 i# [" S4 |

8 u& F$ k) o, c% a& o7 r! N; O0 j/ E; Q/ e( d5 X1 b6 |6 A6 b

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3685 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    4 w+ z) P1 Y' r8 C8 l. ~" o这功能很赞呀
    4 o1 @6 j& }3 \" }
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    2 f9 b+ H; J2 l" l; D# f1 y有没有上传整本书试试
      B2 j% g, u7 g( k( ?& b, d
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3685 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 / M' R: k4 K) U) L5 D# N
      W7 E0 |  w3 O% T1 l
    以后让deepseek 读出土的竹简  D+ d4 B6 y+ L

    " U) K  v$ {7 t# i& l% W还有把古文翻译成现代白话
    8 K, y3 ?, U: J
    & `+ B, I! [. o3 T% H以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    14 小时前
  • 签到天数: 2846 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ) q, F9 _) ?% c# N/ C0 K6 h! N; X
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, ~* M3 Q5 L0 W2 I
    请教是如何实现的?0 W& _  [3 x1 C$ Q( ~. H1 m
    9 b+ ?4 ]5 g+ I7 f9 t+ `7 t$ M$ Z
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / p& D; a$ y6 a3 |7 Y

    4 [6 b# F9 M1 u0 S+ a! r" b我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。( i6 ?% q' }3 X# R8 W
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    8 J9 c, O; l% M! y+ }: z美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    4 R9 n* Y8 e& ]/ N. ?

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    2 C: L( W, L& k& _请教是如何实现的?: I: b2 |$ H6 ~$ h. g- Y, a
    1 J1 }7 F. `! u* [& j- C2 M2 U
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : v: `3 Q2 A) O4 x- D5 t
    https://chat.qwenlm.ai/
    ; A$ ~" s  C# P! Y& R) u试一下千问,估计美国人没有攻击他,所以资源敞开用。
    " ^% _) [+ F+ l很稳定,质量不错,好像最多一次处理15页。7 U  b4 T0 U; s/ ?2 L( V, `- J
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 2960 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    , U# r/ M8 g0 K) D$ v2 a处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。& s& x# F0 c  O+ }9 H6 _! D% g
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。7 v9 b6 O3 y, Y7 A
    7 ^3 o$ C+ K% i+ N
    https://github.com/oomol-lab/pdf-craft
    ) |% S& G- l' \5 g) M
    - t3 ]$ J+ _- Z! C* b1. 这个工具要求装 python3.10( z0 `# l; t* A0 o* V. a
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ' f; j8 p. T$ e) E3. pip install pdf-craft
    & ]; B) c' j2 `6 q# N4. 把下面的内容写到一个文件里,例如 a.py9 |4 C( [( O' I
    . G9 Z7 s$ G" z
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      6 \9 }1 Q$ [1 y

    2. # Y( _( n7 k2 O+ c5 k  A3 B
    3. extractor = PDFPageExtractor(- |$ p( b6 B  h0 z4 K+ I
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.0 B. _" Q  j0 p7 G- [
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      * b0 R. q, k: j3 G
    6. )
      ; z0 t- }4 Q: t$ ~
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:: v  W) j6 X: K* X
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):# i1 p0 ?3 |& f4 ~9 A1 }
    9.     md.write(block)
    复制代码

    $ ]# c& [! S0 t( H% g, E
    ( {! K4 B6 \. e6 J" _5 u要修改的内容:
    $ B) F" _6 c* m; z2 P' Z4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型9 r, q" t1 M, u% t5 \; s! @
    4.2 markdown_path:输出的 markdown 路径文件名
    ( F% J$ t5 e' Z4.3 /path/to/pdf/file: 输入的源PDF路径文件名, L/ j: t& r' }. P

    / Z/ Y, F5 R* l" D9 z8 _- q' `/ G' |/ g5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    9 Z' h# b4 T: [  H1 w2 l1 q6 R
    2 K8 I, x3 W6 a6 y. [$ O5 t目前为止PDF转纯文字的最佳办法。6 C. Q4 C* D& B* P& m
    先写个小程序,把PDF按章节切成小的PDF。
    ( Z3 v5 F4 P4 f8 B3 L然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    . R( ?% w' _: ]; o. q5 k( N效果非常好。3 L" a2 M* z1 b8 `
    . |3 Q1 U" z# q8 M# o( k
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ( _. [2 P. N  W( U" k$ {8 `* P1 J* H5 X4 {" O7 m
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。  D! F8 @3 @/ H. p
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    1 i+ L0 ~0 ]  G0 K3 g我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    # O: \3 C7 h0 @* a0 d
    " z3 K" }  a1 X# S; S  N2 U: YAPI到目前为止,差强人意,不如网页版本修得干净。6 h, B- |6 L+ S9 n( J" S  n8 c

    6 p# A' I, m6 Rdeepseek可以同时开四个。
    - R* |0 e( Z7 P' z  y5 D5 X# Q. t

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 / j% R- J: o; ?% \. o- Y

    8 q2 F" B  j8 E& z让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    5 h$ ~  V/ h! }# a  |8 ~让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    : K9 m; p6 U. J+ {4 F
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33' X3 \. N; z2 |% w( w0 F* n2 C/ t
    细说一下,听上去很不错,多谢。
    ) D& q, D# \$ V) \
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 3 n6 q$ K8 ^% s& \! z

    3 W4 X7 K( v  @. U. t$ `已经搞定.! U5 u+ j( q+ e# S
    9 W1 N2 H+ |& C. ~1 c% v
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。, H6 v' v$ V/ u# i! }* @
    7 n; F1 z9 f! Q% F  o- O* k! K% A
    1, python + pypdf 按章节拆分小的PDF
    0 S; `& p# A$ k+ o; Q# N# B( X
    : I( Y- l  D, h) |; \& b: I2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    1 P! [5 v# y4 o3 n* l& Z7 y  Z  C
    ; s  P5 B" Z7 n+ V; j& L得到text file3 b1 _- I$ r2 X2 i! ?

    # z4 J1 D' S! i+ `% n* N3, python 读取整个outputfile,丢给deepseek 矫正。
    7 u4 J# X  r4 u: @( b- y0 }" R1 a; @  `$ r! T' i3 e# S! H3 a
    模型是 deepseek-chat! W. A* |+ f. y. e8 z
    3 v- K: x, y  j& W) T/ n
    max_tokens 最大是 8192,别的不用改。; I, h8 F$ g3 f1 f
    & I# I1 q7 C( [
    参考:* X% a- k3 y9 V- o) e2 c( U
    https://api-docs.deepseek.com/api/create-chat-completion3 j, z5 e7 m/ |! [! |

    & O) U* j, p& g7 N4,费用:. f9 n$ x" c" n3 L0 g

    ) R; Z8 B  J/ {% {, e实测:+ G6 |$ s) D: N7 M

    - W1 ~1 o( x( \7 @# l' f. \$ n296K 字母,用了 9 美分。
    / L0 Z6 R8 O- f' J+ W' ~
    ! V; a- j9 v, B. \! f9 ?0 `  L英文字母 到 token 用量大约 1/3/ c8 g! V4 i  K. W
    ; o7 Y% v8 W) r; ~5 \+ M$ k# E
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899. {: b- U7 U* |3 M' \% l) I
    ( f2 ^2 n/ N' q6 Y' o
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    " ?* g$ n0 L6 g: c
    * l3 @' V2 p+ c, X& ~& |2 x价钱,非常非常便宜了。
    - c  M; i& s% O  R+ q  v, y
    * S# o5 E0 r; w) h参考如下可以计算,懒得算了。
    1 @+ v- [9 M' n3 ^" _5 }4 n) P2 {: f5 ?* ]; N/ i
    https://api-docs.deepseek.com/quick_start/pricing5 h( N& B1 B$ I0 T

    6 c9 K8 _! S  u. ?( Y" f1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ; e/ Z6 L3 f2 a! `1 Z; }1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    + P% {: a, U6 A4 I2 }1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    : ]3 @: P6 m' s% Z* J
    4 p$ x& N. V7 Y/ X+ X& R: Q* u5, Balance
    / M! Q% H1 ]3 f: h: ^& p
    " m6 r- H, B# M/ a可以在程序里调用,知道每次运行结束后,balance还剩多少。
    & S; }6 w& t2 v( z0 `4 N参考:. [# w4 Q4 N9 ]% c7 V
    https://api-docs.deepseek.com/api/get-user-balance
    / h4 R8 T) t1 e! i0 a" h3 H9 a0 }' c, h3 O/ O/ r
    6, Models
    + q& A  w; u/ \4 _( \/ D' {1 v5 x0 y4 Y8 Y" w! D& s; @
    目前就两个4 ~0 ?* }& }2 R5 E( q; @
    # deepseek-chat
    9 b3 \* c+ x# S- r# deepseek-reasoner5 S" Z& H* V0 \# ^4 t
    ; s' E6 X7 U' }" h' i2 ~
    参考:. j: n4 [$ |  d9 b
    https://api-docs.deepseek.com/api/list-models
    + ^, k; D) M! L- M& m8 j8 q- V$ |5 i1 S, a

    " G3 L* Z2 P4 g. C7, 问题
    7 R9 I. b: C* e1 h3 U% v
    ; S7 S" ^+ @$ k4 ^* Ddeepseek 会将前后两段合成一段。# l% ]: G6 Q* C: J+ E8 i2 {6 I  a
    特别是那种大量的对话的段落,deepseek会给你合成一大段。9 K3 K! o8 Y: R( V8 A1 ~7 {

    5 u. X' X+ k1 g8, 钱说了算。& X. {  w* U: p. |

    7 G/ T7 e, u5 r1 E1 `deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。' [% B4 a. @$ Y6 Q5 d( E$ H( D
    但是API就不会出现这种情况,毕竟我们给钱了。+ Y2 Y, v8 Y0 K/ {& ^
    chatgpt也是这样的。$ W& @; L; b% m& I3 f8 O% r% j$ [/ ^$ l

    0 i. a! ~$ y) c( ?
    * V+ i! v. ~4 N# a' ~

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-3 16:05 , Processed in 0.062996 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表