设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3161|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 & G0 Q$ k  j) Z5 E2 \% W8 M

; P. I( G( j1 G4 i  @( X把PDF上传,然后让他抓取文字,并修改可能的错误。( ]* q! A% v3 O6 Q* t. F/ F
然后deepseek完美的完成了任务。
0 e9 |3 O' W6 n! h8 [段落清楚,列清楚,页眉页脚全部去掉。- a3 i: ~% e# C
我要疯掉了!8 t3 ]9 X' v2 c
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
( z& ]* Y4 }  y7 y# `1 Z: s6 B====
8 p4 S7 {8 ]2 L7 N# `中文也很完美。
. U& S2 O7 R3 f  e# ]* o/ P! o4 [经验值,每次十页比较稳定。
* S" L) H5 q7 o/ A9 [现在我这里API还不能用,等恢复了,全自动了。6 r4 P- W0 F6 j: U
====
# q+ }" h/ j3 E4 [- S/ B, J第二次疯掉了!
0 r; B  c8 j, S+ m# D4 R我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。! A1 u$ N5 u1 G7 p
====9 L3 K; |5 ]+ `0 v# o: ?% F' |0 l
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。; H6 Z  r" M, t- B3 z
但是任务多了后,每次翻译的页面数是减少的。; Y. l) c$ U6 d; Q2 e
好吧,我五体投地,继续探索。
6 w! T' m" d! H* k/ ]9 M( D====
9 Y0 ^$ h# N& G/ Z为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。3 n. X9 J$ H* v- c0 I) K9 d$ y5 Y
====1 X" ]: r$ G6 y1 S! @+ d0 h" B: ]
好吧,有些东西是不给翻译的,哈哈。$ o* y# [9 a5 r2 a& k3 Q. c& ~
% m3 S8 {, n4 M8 u7 A4 D; M+ ~
Sorry, that's beyond my current scope. Let’s talk about something else.
$ [! b$ L. Q4 J5 }; e  A6 o; {7 t====
3 J' J+ L8 Q0 x% z+ |8 O& a然后我的英文命令也让deepseek 帮我修改,呵呵。% ~+ d) ?/ W$ r
====
2 [2 n; I" z( K" c, s4 a  Z/ }日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。& N, P$ X. C; W* M4 c9 @
====2 Z  h2 C4 T7 k" t
时间段的话,北京时间的下午和晚上用比较好。
& l0 ~# C+ z( J9 I% l) A3 n后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
/ s$ I6 Q: V' a* C& ~9 ^( u====
) n. d7 t! B8 L8 u0 F用千问吧,非常稳定,非常强大。# Y% p9 U' \* y  ^0 l
https://chat.qwenlm.ai// e3 i" d' p9 X3 G  y) b$ Y; Q
====/ _; D' V  s# ]7 V  e
Deepseek,API 看上去可用了,但是不给充钱。
: ]3 s/ x! P  i4 c+ |! B8 X4 k. v2 p) c8 \6 D! q" r6 M
1 U# |7 _7 Y: P. E

8 E/ E5 s/ O: C7 p; @) Z# D2 g& e

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3808 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:534 `" M; b- c$ M# L( ~$ \, ]
    这功能很赞呀

    9 ?) G5 {* l2 T3 B! Q9 z) l简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13+ t3 K0 u, d( m' d! b& l' E. s
    有没有上传整本书试试
    * V# o; t; {6 ~# ^4 g5 x
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3808 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 # Q0 f$ Y1 l) Y: [
    1 Y0 f$ k- t7 B6 j
    以后让deepseek 读出土的竹简
    5 ?; R! H" e7 q) a3 I: A0 e% X7 T/ q- C. K4 S) L7 Q! i+ [
    还有把古文翻译成现代白话
    # n4 @0 a% \- g. B0 T" @/ W" b
    4 R0 n& R5 x4 r: Y# D! X以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2 小时前
  • 签到天数: 2968 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?1 Q* e8 g. E. M6 l$ u$ z

    # k# x: `* v, X我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23  u4 k* }: T$ N
    请教是如何实现的?/ x! s8 t; S9 [/ o
    $ o. [0 b/ H4 T
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    $ E; q& a$ e* ]4 r  Y0 u3 J
    $ q# m) o  I; L3 C
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。2 l+ t- j9 C! D: i# X- ~( h; b
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。1 @/ r$ j4 Q+ d: w& k  w4 h! W
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。# h+ `! P% L1 z9 d. u

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    + @. F( ]# I  }0 J% I请教是如何实现的?+ O$ M" g% B. Z7 j

    5 L/ E" h, e0 |% V% @" R) @我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / j2 l+ p$ e) j" M- M& b; l
    https://chat.qwenlm.ai/3 S$ c# }2 H5 j" c
    试一下千问,估计美国人没有攻击他,所以资源敞开用。2 M, a# W+ l( M1 O/ P: q
    很稳定,质量不错,好像最多一次处理15页。
      d1 W5 n/ H; m7 R$ Y& D2 |我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3077 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。6 z. {% x0 q+ |% O9 A& {2 Y9 Z; o
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。2 l1 N2 I0 [5 {! n+ n  {* s
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    9 v& b' J# ]+ g* d0 a% O4 J0 M0 X* \. x" L: Q$ t
    https://github.com/oomol-lab/pdf-craft+ S4 A2 x2 B' I4 @2 m+ o6 l
    ) {. n- T) T; V5 ?% o( q
    1. 这个工具要求装 python3.10
    & J. l, J3 Y. O3 }1 E7 f5 q2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.03 C1 `2 i* }' r, w# T% P
    3. pip install pdf-craft
    & N0 w8 M! _, u4. 把下面的内容写到一个文件里,例如 a.py
    : Z; b' f& f4 X* V* I
    $ U3 n: P: [& Z8 u" h
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter& Z1 J1 ^% m4 \$ B
    2. ' b( Z" a$ W% f/ p
    3. extractor = PDFPageExtractor(
      4 ~: K: o6 {7 U
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.; {+ L  U" ^  h
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed: P4 y/ J$ L7 ?  c' X% e4 Z
    6. )
      ! v6 X7 n( \8 Z! \1 m
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:" q9 G$ M% a' f* w) x2 F, \$ s1 Y
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      / e1 _, I/ B+ d5 b, G
    9.     md.write(block)
    复制代码
    0 E4 |. _% [7 Q# J( ~0 g
    / g% _' }, t* U6 y
    要修改的内容:" O0 A6 C6 V0 c/ q1 C
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    5 S1 ^" k  \" R' x4.2 markdown_path:输出的 markdown 路径文件名
    % ]7 H! ?5 E9 J+ v2 [1 F0 \4.3 /path/to/pdf/file: 输入的源PDF路径文件名0 c; ]' b3 y- W% x, m+ N

    6 F/ l* o2 X0 I: [/ K% i. a0 R5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 , O$ b2 t& p* w+ m# G; Y1 e
    , h  I# }6 x; U- _- ~  D
    目前为止PDF转纯文字的最佳办法。5 H0 p$ J3 B! w: |  W9 C8 g) e
    先写个小程序,把PDF按章节切成小的PDF。
    & c7 |! F# ?- T' s$ l: S6 f然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    : A) J7 \9 D% W% L* W2 q. A效果非常好。
      n3 t0 H! W5 Q. ~( i" d6 i  o& x( ?$ M& ~
    deepseek,qwen,chatgpt 三个,deepseek是最好的。  f7 [+ W/ ^$ ~* ?( }( ^* Q) E  \

    ( ^9 E7 R) C! _deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。& A$ J$ @8 [" K/ T* D7 z$ s
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。7 [; K, Z/ R- D1 q) }, Q& {
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。! e) j4 [* r& o6 L2 B

    % Y' Q2 }  h1 ]! a0 fAPI到目前为止,差强人意,不如网页版本修得干净。" `, Z6 }* L' p$ C3 s

    5 v  a. d0 x  D2 Y' E' Cdeepseek可以同时开四个。
    ' `; \5 X9 Z8 I- X  N6 t% H

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 " w: F0 R0 P2 S  h! R5 _/ h
    $ K7 i" _9 O; H3 q- ~/ |4 B
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    * k2 i: c4 C6 \4 {. d( P; T' I2 E让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ) [4 t. {6 r& C细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    7 h* H7 G# M( p' `' z细说一下,听上去很不错,多谢。

    1 g( T* M- ~- M8 R! _$ h( Q" T直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 & p  j! t* K5 m2 ^9 O: N

    6 u/ V$ A) ~2 I1 N已经搞定./ f% T" K3 ~) l
    7 L0 x# {4 y3 q  F
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% Z5 G: T# o) i  _6 e  s1 d9 ?+ n
    1 F" K+ x# a% o( S
    1, python + pypdf 按章节拆分小的PDF
    : V2 J/ o6 `6 s7 i  T
    ) n2 P" H" L! }: P8 T! R2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile  _: E5 A8 ~* {( ^- o1 o0 R+ w
    2 Y6 f, Q! ?7 [3 f" {% c, D
    得到text file& C4 L) u% q( W: \: k% d

    " U2 a/ ]& _& C- C  @3, python 读取整个outputfile,丢给deepseek 矫正。
    3 d: V# D: l/ g" X7 {! W! ^. S
    2 S6 ^: R" G+ x, Q+ K模型是 deepseek-chat
    5 F% {% n& V4 r0 k4 v) [) U. ~5 a9 Q( W7 E( Y; ?
    max_tokens 最大是 8192,别的不用改。  Y4 C& B6 J" D
    2 ?2 I1 ?- ^4 |! O9 q. ?
    参考:( ?  d# u0 {1 F7 `9 ]; l& j
    https://api-docs.deepseek.com/api/create-chat-completion
    4 s4 o1 m7 ]5 B4 f, c0 D- Y4 ^( N8 f. M1 C4 A8 }9 [
    4,费用:5 g+ a1 [$ ?) Y) O! X4 P# Z" P

      w6 C$ q7 |8 T) B' J; k* ~实测:
    2 z2 S6 i) @. h
    ) J) j9 s% I* p, N2 |4 ]296K 字母,用了 9 美分。2 c; k2 \, _7 P. H
    2 y2 L+ P, r! F( u$ A6 }
    英文字母 到 token 用量大约 1/3, U% H$ ^- G. e! w: `" N6 U, R/ G
    ) X  ~- }0 G: U0 _. E( M
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328997 n& u8 R3 U" N6 _% `

    7 }0 t) y" v2 I2 u32899 个字母花费 11782 tokens,包含输入输出的 tokens
    9 ?' D9 a8 L8 V0 M( g' @3 y1 R: _6 Z$ t* D) o4 k- h! D( X5 v
    价钱,非常非常便宜了。
    , }7 ?+ f/ ~2 O* T$ s8 {( ^6 S  e1 {/ ]5 u  Y
    参考如下可以计算,懒得算了。4 z8 |% K( x. t4 B$ q4 l2 X
    & B  D; W8 e" t
    https://api-docs.deepseek.com/quick_start/pricing
    $ s# Y; r2 x+ L2 k( N7 A. i: V# j
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14" b1 i7 J7 ?$ a8 F9 G4 k
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55; h) y$ {' g5 X4 y+ H/ b0 U/ N" s
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19  j3 B( H; g( Q4 l1 e  |

    " ^$ f& _! |( ?5, Balance6 ?8 C4 g4 i* Y- T, |" Q

    % ^# l5 w( N, P4 g可以在程序里调用,知道每次运行结束后,balance还剩多少。
    / [8 Q9 v- S% o# k& N参考:
    3 N+ y  ?0 n) U. Y0 Z/ ehttps://api-docs.deepseek.com/api/get-user-balance: j* I: p" ^5 G  U: R1 P7 o
    9 n1 o  {+ M) d: R
    6, Models
    / L- e( Q" Z% d* H& x" H% L0 r
    ! }3 ^3 ]& Z9 i# J目前就两个5 C2 j3 y& `" M, R+ L
    # deepseek-chat
    ; t! G! g5 U& l# z2 u: A& F# z0 y# deepseek-reasoner
    , C! U& ]$ Q# s3 O9 Z& H) i2 m+ j2 w
    参考:5 @5 ?" M, w, M" g' m. P
    https://api-docs.deepseek.com/api/list-models
    ' V7 o# t4 p# h4 I' n( t$ v* Z
    2 m  Y  w: X3 {& C# b, w6 c6 u1 s: T7 r4 S  J
    7, 问题9 Z( T3 Z0 |) F
    ( p$ ~  Z6 ~3 I& o' V9 ~
    deepseek 会将前后两段合成一段。
    , k3 |6 s0 }+ ~# o特别是那种大量的对话的段落,deepseek会给你合成一大段。1 h' d* g* f! {( N" `! B: P8 D- u

    2 y6 N2 d- j& |- C4 I8, 钱说了算。9 y2 w) d! s# v  H) i% m

    0 j! M/ }2 ?! o0 L) C/ _7 p2 _deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    8 z; B' j1 y; @- J* P* K但是API就不会出现这种情况,毕竟我们给钱了。- v/ P$ ~: f. c7 H" J' K4 y  [
    chatgpt也是这样的。
    $ Z$ R1 C! T5 m, W" D2 I
    ( L# V2 z, W7 x. q. }# n3 ], u8 T# M" C2 [

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-7 06:54 , Processed in 0.090992 second(s), 28 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表