设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2615|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 6 C+ j9 V5 J, g& M! |
+ w5 @+ O! G, b1 s9 R7 E7 ?6 Y
把PDF上传,然后让他抓取文字,并修改可能的错误。
% L8 z- s5 ~0 M! @0 G4 W% N, q5 X$ |然后deepseek完美的完成了任务。  h% W) M1 Y" c# J4 S
段落清楚,列清楚,页眉页脚全部去掉。7 q& d: c  |: D# v' A7 |6 c7 k
我要疯掉了!, `/ p/ w/ }# }. F2 ?: m/ F5 p
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
: P6 q# a4 W/ `+ _7 n====: W9 H% F4 n7 ~! H! y2 U
中文也很完美。
7 I  s$ B6 \0 T% E经验值,每次十页比较稳定。3 P+ i- P! u. s2 y
现在我这里API还不能用,等恢复了,全自动了。: t% r* O8 }( x, N
====
+ l0 Z. y9 }' ]( U( r第二次疯掉了!2 g4 i: Q' i& n( }* ?, F
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
" U4 ~) F. K( B; p) V, n====
0 \1 W, R. g  m" H1 ~2 f现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
  f1 ?4 P# H! Y/ d; L7 T' G. E9 R: W但是任务多了后,每次翻译的页面数是减少的。) F/ j# h0 t- L8 {! c) u+ n5 F0 w
好吧,我五体投地,继续探索。
5 x/ `# Z& l8 B# k0 |====
  C8 j3 n" D5 V# R为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
* h- p2 {: U+ I, u====
/ I! Z7 e* f; P% h6 @  d0 h好吧,有些东西是不给翻译的,哈哈。7 r/ l$ Z, _6 N! P9 W! p

  E, A+ A! {/ V5 B8 [Sorry, that's beyond my current scope. Let’s talk about something else./ C( [8 x! _% U9 \8 v. X3 m
====1 S9 W$ W) J$ F, n" n1 L7 u
然后我的英文命令也让deepseek 帮我修改,呵呵。
1 W6 d+ H6 o. k9 P====
, }: @. C/ `1 K, i+ i7 o; N0 {日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。3 Y  @  V5 f% u$ j' U# y1 Y
====0 o* V# T; @7 j
时间段的话,北京时间的下午和晚上用比较好。
6 _) ]% x7 n: L+ F7 ?$ L2 ?* ^% Z后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。' o! p* E: s! x. t$ e  {& g/ f& ?2 `
====( z7 o; ^1 Q" j1 d- Z+ ?9 k+ C, }$ j4 X
用千问吧,非常稳定,非常强大。
5 p' T( `8 f/ v- a6 V% O( Jhttps://chat.qwenlm.ai/
/ h1 P1 J8 }$ i  m====- R& o. r0 E( Q& f2 [# |, c" ^
Deepseek,API 看上去可用了,但是不给充钱。. x# U6 O5 t( c4 k

& L5 ]  k0 F' x1 p; @7 ]: q7 F( S* [# Y# z5 k

2 @( H" `# U5 `* X

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3684 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:533 S- X$ C2 A/ H* P! Y/ }" W) X
    这功能很赞呀
    , S& N4 \1 K$ O* L
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:134 ?3 u) {; m  H' R. s$ g
    有没有上传整本书试试
    - @& ~6 l. K( l) f" {( y
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3684 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 : Y5 B' J! A! b% y

    9 V6 Z& z% l1 h9 f& U以后让deepseek 读出土的竹简) E! g% e5 ?6 a3 i' k( j
    3 e+ E: r- o$ M
    还有把古文翻译成现代白话
    . V8 c6 j0 q- x& D# j- b' P/ K7 Z; s- b2 \
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    19 小时前
  • 签到天数: 2845 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    8 _% O  k) Z9 X4 @  p6 J: A! Y8 t8 ~6 D3 t( B
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23  d! b! ~1 U& m- f. O- h8 l
    请教是如何实现的?
    . \# u4 z; m( U* Y+ H: h% ?/ B2 w- n1 _* {' W
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ' l+ o0 w  b/ z/ K2 c3 f
    0 o, q& `8 U- T" p2 }. K3 A' ~2 W
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。; W9 M4 Z0 D* X0 c: g; f% E
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。$ t! F$ C, m) Y7 N- V/ z0 y$ K
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    : T$ i! h6 `: S* q& i  \3 ^

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    0 o4 t( A: x9 l6 R! R  Y; E" q9 L" u请教是如何实现的?
    / H1 W9 z- ]. K! x  g
    . m2 {2 ^0 u5 l. S) L( Q- F我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    * h. N$ _4 D2 f; Q) X$ N
    https://chat.qwenlm.ai/0 O: X3 M) y, V0 M, x' x
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    $ ?; W& \8 s% p3 P; C/ S很稳定,质量不错,好像最多一次处理15页。! h" ]1 m) K" H2 n
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 2959 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    : ~! L6 g  E8 _' X- S处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    $ O+ E* b% b0 k! B/ @这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。% c# H" ~' _) ^+ O2 h

    : E& S9 F* @; W4 E/ z. C2 a7 Xhttps://github.com/oomol-lab/pdf-craft
    1 S1 d2 v) Z. s! q5 ~2 D& q
    . O+ H( B8 a& }  m1. 这个工具要求装 python3.10
    # k' I4 E! ~, r! j$ w2 p: ^2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ; r; S1 C% s6 f% x5 v. l. ~3. pip install pdf-craft
    % R. Y  e  m5 j9 v( D! i$ q4. 把下面的内容写到一个文件里,例如 a.py# R% F8 H& j6 k5 ~  T8 O) {

    , O( I9 a. ]$ r' z
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      8 n& A" r4 f, y+ d5 c) A

    2. . p( @. H1 Z: ^* b
    3. extractor = PDFPageExtractor(
      7 T- o4 O$ V0 t. Z7 \  I5 {
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      3 f7 b2 v3 f$ V( w: v5 W  j
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      : o2 S8 c. E1 L% T* [2 S; B3 I! z
    6. )2 m* A+ N7 |: c5 C: s- n# i
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      - S, d4 o- d4 Y5 c" u
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      , I% P) v& k3 Z( o: o
    9.     md.write(block)
    复制代码

    + }0 a2 x0 U" o
    2 D# f9 @0 \/ M; w+ z* g/ A要修改的内容:
    # i4 N) }# I; r" T6 f  @4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型$ L* b$ v; J3 I( u/ G) e+ }' x
    4.2 markdown_path:输出的 markdown 路径文件名
    ; w& T* R6 }' ]/ F4.3 /path/to/pdf/file: 输入的源PDF路径文件名& C+ T  ^5 }; t; {
    8 {" f) z7 H6 b/ t) ~$ v
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 $ ?3 ?2 @) t7 m: `: H! O% [

    7 n' V4 I" |6 h: r$ {, b& X% w目前为止PDF转纯文字的最佳办法。3 |3 w8 i. t0 Y# h: H
    先写个小程序,把PDF按章节切成小的PDF。5 ], d2 k  p' r! c4 O
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。/ F# B3 r  J+ E% {  R5 Z+ l
    效果非常好。. _7 f0 }7 {; b9 \) S, D
    / E9 _2 z8 ?' W& [
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
      R8 [$ `; u) m) u% o
    2 z# I- [' e( t' \) ^) f& l: Hdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。# w. ?1 b6 }. b& Z
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    . X+ q1 |; B6 m我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。2 S  h( K! r3 L1 M

    4 {" l# ~9 |) q1 }7 C" `API到目前为止,差强人意,不如网页版本修得干净。3 S* I1 z8 u, I. M& N2 d' T

    / W$ u8 N' F# @7 b4 Y' U8 j9 t  }" Udeepseek可以同时开四个。
    6 p0 Q; j! J" `" {: s

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
      j( K! _/ L8 h$ C
    ( ~9 l- e0 M2 R$ d8 ~5 {让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    3 W4 A; R" P: y/ M! u/ o4 ]让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    * c! k* j- |, c- X$ O8 p5 W细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    , w1 T, a6 E/ V: |细说一下,听上去很不错,多谢。
    1 f7 X' ^8 i* |5 q1 Z$ ?+ W
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 * G1 a5 }8 H: {. W6 ?9 F# @
    % V; ^/ E, k$ [3 o6 h- H+ z
    已经搞定.
    8 e( U5 J9 d$ b2 y7 W
    6 O4 C/ s7 m! T$ D8 z& W; m首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。2 V2 H) i8 m% H4 h3 R/ x
    " t& |- X3 ~, n& y! b8 n& s- U
    1, python + pypdf 按章节拆分小的PDF
    2 L7 d( Z( D2 j1 ]+ n/ B- o) o+ H8 W# g. S. b) \9 g& x% Q
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    & ~) d0 o! o8 a0 J9 t/ X; T2 I9 ]! B
    得到text file
    4 S+ r! Q0 S3 ~
    % E8 Z2 G" a: |  o) V3, python 读取整个outputfile,丢给deepseek 矫正。0 w# H1 G1 R( |

    8 t8 G% O- s$ O, J0 N1 O8 A% m模型是 deepseek-chat1 e( Q8 Z% r: r

    / u# G$ g  B$ j( ymax_tokens 最大是 8192,别的不用改。
    3 Q/ C0 W$ b# M3 g" v3 _/ e2 r$ u9 }  z- s
    参考:7 Y5 T( z4 i) Y9 S
    https://api-docs.deepseek.com/api/create-chat-completion
    ! ]: N7 [8 V. J, J' {" v/ n2 p9 p" Y. Q* Y0 R3 D
    4,费用:. q0 l4 r! z) X- I4 @) h" V
    . H! P( s6 Y3 v" V' Z3 D
    实测:
    ' _. F9 j5 b9 d4 M
    . a# ]; Y) U2 M+ z296K 字母,用了 9 美分。
    1 ~$ n3 u1 \7 W1 J( o& {. N0 t' \% u2 u$ _+ \
    英文字母 到 token 用量大约 1/3
    ! a! Y9 u. m4 Q/ |6 N+ v
    * f4 ^7 K5 H( n0 s( y* P4 ttokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    1 U. e% @/ ^( C3 n* n+ b1 B! f3 [( r
    9 z6 ]4 |& C& G1 P  @32899 个字母花费 11782 tokens,包含输入输出的 tokens. q/ p4 v, a( x" s

    ; n) o" }" V& j# P% u7 r价钱,非常非常便宜了。' s5 v. O/ K9 ^: P7 u

    " `4 L! t- }) \6 j% {参考如下可以计算,懒得算了。
    - B: i6 K8 a  A/ p# A: c% n/ Y- w/ r" N& B
    https://api-docs.deepseek.com/quick_start/pricing- O" E( `, q  P0 q; _% X. K7 f  ~

    : S5 \: y. P# e5 D( r1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14; o! j$ o& [9 a
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    9 J  S5 z* z0 t2 `' D4 l$ H1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    + Z7 R" v4 v6 A/ Z: k8 C" j" j
    4 a7 ^# p# S- l5, Balance/ X$ M& _, h' n3 _6 y7 |
    $ b' O% Y" h0 S3 I  A
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    " [9 |" ^8 ?1 c3 O参考:
    " P8 {9 y5 S2 w8 i% f2 ?https://api-docs.deepseek.com/api/get-user-balance
    8 G1 A$ ^* Y$ ~( {* w9 C2 P+ a& d
    8 ?- T- C" I8 z3 j, ^: |6, Models
    * T5 d; }9 T* v  V2 [' I( Y* H/ w2 j- c0 S+ O) e1 ]* f
    目前就两个
    . A! f; B) }1 m1 d* P, G# deepseek-chat
    - l2 C' D% \( w# deepseek-reasoner, P! l3 b! O, {1 G! S9 r
    ' A6 K$ J) W4 V+ {, T
    参考:
    7 H5 d2 D* h& Z) o* e2 I/ s3 |* P4 lhttps://api-docs.deepseek.com/api/list-models5 o6 |! v0 t+ H5 j0 H

    ) l& U' |, _/ G- M: B8 {: q% r+ Q" a' n: Y# V
    7, 问题4 F3 a& ^2 {9 b) l; G

    0 c3 h& ?3 N3 |7 }- E) n- Ndeepseek 会将前后两段合成一段。4 c5 W8 F/ E7 z5 p. y7 x
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    0 ?# J. V+ y2 s9 O( y. {/ G6 w/ z  d, g7 n$ K% ~( v
    8, 钱说了算。
    0 Q. U7 e: i4 i$ V3 y- c2 {7 ~( _% o) v& Z
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    + h; Y* d8 F! z+ I0 M8 f9 L. N但是API就不会出现这种情况,毕竟我们给钱了。- S  _2 X3 Q/ E( P. O# f* E# ?1 @; r+ g
    chatgpt也是这样的。' y- K8 T; ^, ~1 {

    9 q8 t: j3 o' V9 \6 z  A$ D7 [2 T. m+ ~, \0 c. c. g9 o  X5 j

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-2 21:21 , Processed in 0.062001 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表