爱吱声

标题: 利用 Deepseek 抓取PDF的文字并矫正。 [打印本页]

作者: nanimarcus    时间: 19 小时前
标题: 利用 Deepseek 抓取PDF的文字并矫正。
本帖最后由 nanimarcus 于 2025-2-2 13:41 编辑 8 n5 u3 o* Y: j. E) Y- v
# c) K' H" z8 P3 h+ J
把PDF上传,然后让他抓取文字,并修改可能的错误。2 e' A/ \. h- q& O
然后deepseek完美的完成了任务。6 {0 [( t1 P1 V% J1 K& j
段落清楚,列清楚,页眉页脚全部去掉。5 k' ^; ^* n6 P, G# x
我要疯掉了!
# e8 }% \0 Q! m  |6 ~2 f赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
! t# ~! \  i" [7 g/ f. ]% v! n====
, s( |6 F% Q1 F+ X  n/ ~中文也很完美。
8 q& x" h3 ~, K- ~( V# Q+ C经验值,每次十页比较稳定。
# m2 K( a! g2 c( R2 x1 o3 o1 ?( Q现在我这里API还不能用,等恢复了,全自动了。" |% d1 v$ B0 I9 m) |$ F& {
====
! q9 c* ?* Y4 Q  h第二次疯掉了!4 Z9 r& f$ s8 w0 o% m2 a8 M+ @0 {
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。' I! A6 y3 K, u" h* E3 S' n1 }/ \
====
& T% [& }: w' b( ^' t5 H) T现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
# c. |7 ~, U8 h& d但是任务多了后,每次翻译的页面数是减少的。
- V8 `9 k) w  N2 L* Q' z好吧,我五体投地,继续探索。
) x& B3 y- A% u1 A# q2 W====2 {8 I. {, i! h( d
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。, g- u' Y* ?, a/ A. O# b& t
====
& o: |, m, O( L' B9 L" f6 Z好吧,有些东西是不给翻译的,哈哈。# v+ C/ R* h5 ]

( `4 Q% q  z4 x' q, D9 l  `/ ~  y3 dSorry, that's beyond my current scope. Let’s talk about something else.
6 w& W1 d  f6 p9 v& z, y/ ]====) K6 d9 ~; K, c+ J" M
然后我的英文命令也让deepseek 帮我修改,呵呵。# v  a" x8 K2 w: h! d( s2 W1 p' a
====$ t/ m9 j: U, K: f8 ^
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
2 J9 N" _$ [; a: X/ _0 Q; i2 n1 W====8 Q+ W9 U% f2 j2 g  ^  i
时间段的话,北京时间的下午和晚上用比较好。
, _' m; _: F" E2 a# r" A后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。8 r0 [8 p4 ~4 A6 C5 n9 ?

6 J/ L- b- n. g  f
8 {( w" _( N- @0 m
  H& o, S6 F4 m1 Q+ s
作者: 马鹿    时间: 18 小时前
这功能很赞呀
作者: nanimarcus    时间: 18 小时前
马鹿 发表于 2025-2-2 03:536 C6 C, o/ W. f. ?" n% j- ^7 ?7 h
这功能很赞呀

! K, j6 Q7 X5 B; k% d9 q) }简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。
作者: indy    时间: 18 小时前
有没有上传整本书试试
作者: nanimarcus    时间: 18 小时前
indy 发表于 2025-2-2 04:13( T- M! k) b4 o$ _: }
有没有上传整本书试试
- q& S7 ~* u+ L5 g& f8 N
目前看来,差不多十页左右就停止了,看看还有什么诀窍不。
作者: 马鹿    时间: 18 小时前
本帖最后由 马鹿 于 2025-2-1 15:43 编辑 # `9 v! x& q0 }7 H7 u+ J
7 A. J$ J* U- x$ j: c5 ?
以后让deepseek 读出土的竹简6 M2 N$ ]5 c0 N! P

  e8 N2 q8 {& h+ M还有把古文翻译成现代白话
# D9 f' O# {  k2 v
. J9 D( a+ t" u1 S以后不认识的字不查字典了, 直接问deepseek




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2