设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 645|回复: 11
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 9 d6 t9 k2 O- x9 a
) |  W  R4 B: z
把PDF上传,然后让他抓取文字,并修改可能的错误。
5 u/ @9 V- z) [" X5 ~6 f然后deepseek完美的完成了任务。
7 w  c6 k: Y; s段落清楚,列清楚,页眉页脚全部去掉。3 {+ `) E& ?2 `. Z# q# L5 Q
我要疯掉了!' o5 _3 T0 e1 D2 V- k
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
" r8 I( e/ a7 ^4 D6 _2 g) {====" H. C+ [& i9 U( K6 J* g! \: C
中文也很完美。  v6 x5 P+ i" ]5 f6 K) i3 L* r
经验值,每次十页比较稳定。
; @9 Y) t- R9 ?! ?. F: R' C现在我这里API还不能用,等恢复了,全自动了。2 O# q0 W& O+ ]4 a, o% p/ Z
====" c8 Y9 O4 `) i( U- k3 z. }+ L
第二次疯掉了!$ d( f( h0 k( _+ f# @
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。* E) t# W$ D$ g$ D+ f
====
( I+ i! u9 f" M5 w1 K) o现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。' v& c: T# I( c/ S% h- K
但是任务多了后,每次翻译的页面数是减少的。
7 E& n0 Z) J# p; N. Z# j6 k; Z好吧,我五体投地,继续探索。0 R, _8 H9 t  a" Z" y- N6 |
====
. Q7 U4 Y0 A2 F. C( q为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
. q6 K, G4 E; i3 D====. ~2 _0 {$ j: M, z" h/ v. o
好吧,有些东西是不给翻译的,哈哈。6 Q( T/ x2 n4 w3 @- v" q# [: d
- @& ?! _) b) [; `' ]7 i( v. }. J
Sorry, that's beyond my current scope. Let’s talk about something else., e7 A0 r8 w$ l: B* D& {
====
! _! z- A, B$ M9 M+ C. M* Y然后我的英文命令也让deepseek 帮我修改,呵呵。$ W# l7 s  p! O2 s' f6 v0 w
====
7 ]# v9 T/ l) I& t9 O9 `: f3 z日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
) {  _% K) n# a6 v4 J0 v# L====) J6 x( H. z( y! r) }
时间段的话,北京时间的下午和晚上用比较好。
# P) K! T7 {; v: p- E6 o后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
; S2 I/ k6 L7 O, Z9 y; T( b====8 w/ L9 v# v; y% D' [$ w
用千问吧,非常稳定,非常强大。& v4 l3 d% T7 W7 n. v5 p+ ?
https://chat.qwenlm.ai/8 D6 x: t8 R' e& t  Y! B0 i  E
====
7 P; v* V- U$ e& FDeepseek,API 看上去可用了,但是不给充钱。
# ^' n3 j2 \$ q7 `4 h+ H4 X
$ e% S9 Y3 T# i( t; X! q
; Y+ q7 m$ b; m. C" h8 b( p+ X& q2 @- ]" M/ Z" |- C% i* g

评分

参与人数 7爱元 +62 学识 +2 收起 理由
笑羽 + 10
老财迷 + 8
唐家山 + 4
pcb + 4 谢谢分享
老票 + 2 给力

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3407 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    7 d. z8 k' C+ j/ Q6 x这功能很赞呀
    : E  P7 k8 t9 e: q1 S' C
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    * q+ ]; Y/ r  D有没有上传整本书试试

    2 h9 s& K2 ~; m1 ]. P. T目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3407 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 , B3 H( b" t  Q5 K# D$ C

    $ e/ j$ t: g# c8 y6 ?以后让deepseek 读出土的竹简
    7 w# b  k( O. k( b& X. J7 l3 K
    7 F2 Q: B5 `6 h0 j还有把古文翻译成现代白话. G! }. m7 u( |* }+ I! B7 f

    8 n+ K: N6 i+ R, M4 d* M以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    11 小时前
  • 签到天数: 2561 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    + ?) A  J1 b7 `$ i- `$ w* g/ F# L9 u
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23+ N; s5 \6 Y" `  i, ^
    请教是如何实现的?
    9 P2 m9 z# M" p  O5 |* s/ W. M* q2 E" E% |
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ' b* V5 A* i% }; D: `6 C$ b) F3 u9 q9 E
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。8 _3 L- p. G6 V* G' j# w( ^
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ; D9 _: ?; T" K! Q% \. e美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    1 G& S. \+ v0 D! z: ^; O7 ]9 l

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23* U. M. T$ C: d. m
    请教是如何实现的?7 R/ b) p# T7 E* P1 f1 z/ Q. X. ~

    0 l% O6 F/ q* N+ @# Q( D# E我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    " C7 b; S9 s' Whttps://chat.qwenlm.ai/
    ) o% h- L# }$ B* A, @6 c' ^5 ]1 v8 k8 }试一下千问,估计美国人没有攻击他,所以资源敞开用。
    # k) {* o1 R# [; d很稳定,质量不错,好像最多一次处理15页。7 U+ J# s* z  E0 ^" @* A
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-4-2 16:18 , Processed in 0.034805 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表