设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 492|回复: 11
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
& Q; X) `& i8 v* Y( V! N7 e; L" z: y
把PDF上传,然后让他抓取文字,并修改可能的错误。
, ~# o5 q1 c/ M然后deepseek完美的完成了任务。
4 \$ o5 u- r: P3 N+ @# M* u0 G$ T段落清楚,列清楚,页眉页脚全部去掉。
: d% M& K7 @+ O8 X( o3 J+ S我要疯掉了!. q' n% _+ E/ E) J! \! [0 I
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!) Y9 E; |" p6 S; h
====3 P. n4 `, C5 C+ ~+ K8 B
中文也很完美。
# t, _& ^6 |. V+ A* N经验值,每次十页比较稳定。
& P2 T: U6 e; K) S1 @8 A现在我这里API还不能用,等恢复了,全自动了。
2 y+ M% g8 C# l====4 N% `" m% N! [. ]  m
第二次疯掉了!
& b/ ^- z% H( M  x: ]0 q3 I" z7 t我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。. j; p! }. y+ b
====8 O  M2 }, m  z8 p& E/ {8 ?
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。9 `* U' ^4 y  p  p
但是任务多了后,每次翻译的页面数是减少的。
" w+ a% l8 f' Z* [- _$ G1 a& f好吧,我五体投地,继续探索。9 ?! h  @6 G3 e% `) P9 Z
====& `) s; g* Q8 Z! N
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
! k- j' N) H8 ~0 V, q- a3 M====
. a/ \  K* {4 y4 D! q+ ^好吧,有些东西是不给翻译的,哈哈。9 |$ y5 r& [. Y% i! I6 [* |

5 e, ^1 W# S' Q) z$ G" HSorry, that's beyond my current scope. Let’s talk about something else.
! H; {3 Z; P* {' l1 O5 N. o====
% x. I  n& f! V# T! z7 j然后我的英文命令也让deepseek 帮我修改,呵呵。
4 m% A" j2 N/ a% e====
6 V2 j8 v" ^% A! g+ o1 ?日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。5 p, B* {6 q5 i. w
====
9 C# ]0 v2 ?4 i4 C! E7 A& B时间段的话,北京时间的下午和晚上用比较好。
0 p2 E. E  f1 s后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
8 j# W7 ^  V7 ^" F0 P$ L2 [====( ~) R3 S" S4 x
用千问吧,非常稳定,非常强大。$ W$ \) O4 C2 n2 C, \8 N2 p
https://chat.qwenlm.ai/1 t' E8 A4 m% x
====
( z. C" y" N' Q! ]; TDeepseek,API 看上去可用了,但是不给充钱。& _/ T* d. m2 u8 s; |; [

4 r. m( q6 ?( m" f9 I- }( f) @
5 v/ g, `5 T' t% G
/ m1 Q+ d3 [$ \8 N. O

评分

参与人数 7爱元 +62 学识 +2 收起 理由
笑羽 + 10
老财迷 + 8
唐家山 + 4
pcb + 4 谢谢分享
老票 + 2 给力

查看全部评分

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3370 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53. @( _2 O" H. s/ }0 R) f
    这功能很赞呀
    3 ?; N  a, s4 q8 A) H0 g
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    9 Y# L8 n+ y7 a7 W( g4 A有没有上传整本书试试
    ; C' `3 s  F9 u/ K0 u3 K
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3370 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 8 l9 @. N9 a; Y8 m9 |
      F9 S  i: Y3 e7 l1 n/ |
    以后让deepseek 读出土的竹简- ?( Y% O' Z2 p# t

    ) m- @" l  q3 k6 s8 C# L还有把古文翻译成现代白话, n. h9 ~4 b$ D7 B7 I
    6 R4 l* h# T3 K5 G9 u* N
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2 小时前
  • 签到天数: 2530 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?1 e) p0 h# N! Z
    + ^8 W& Y  M- \" O) T
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    1 ?) Z" s3 v! l, d! X请教是如何实现的?
    7 H0 _, Z) A0 L; |. t  g# A5 o6 J/ o+ W: s  u6 B
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    / r" z$ I( d: B1 g. ?" s  d: F
    ; Y( N  s" L5 p' |6 G- g我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。! L' O& h" [8 G! C2 F
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。' J" Q; U3 H' Y
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ( b9 {" c' V, [; J: B

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    2 V3 j  ]% U: i  p9 k6 j2 {. l; I2 I请教是如何实现的?
    % \8 U$ v9 `1 ]
    & F2 l& o$ U3 p5 t3 ^" X0 {9 V( q. M我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    * I7 V& F- b! v8 \$ @( D
    https://chat.qwenlm.ai/6 a$ b9 z4 m) V* U1 @9 i1 g* G8 ]3 g
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    & L- }% v/ u. Q) [* J! p很稳定,质量不错,好像最多一次处理15页。
    + c8 q4 t( g8 Q( }5 K2 n我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-2-23 03:42 , Processed in 0.036264 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表