注册 登录
爱吱声 返回首页

唐家山的个人空间 http://129.226.69.186/bbs/?1830 [收藏] [复制] [分享] [RSS]

日志

AI帮忙捞河泥

热度 18已有 136 次阅读2025-9-17 18:22

西西河不想去了,但是这么多年自己发的帖子还是想收藏一下,算是敝帚自珍吧。
在DeepSeek(元宝版)的帮助下,生成了一个抽取脚本,把自己的所有发贴都下载下来,转成了一个pdf文件。
先是做了一个可以无需登录的python脚本。方法很简单,告诉AI索引贴网页的url和DOM树结构,某个贴子的标题和内容的块结构,以及单贴所在页面的url和DOM树结构。AI很快就生成了一个能用的脚本,可以下载所有公开发表的帖子。
现在西西河有一部分内容需要登录后才能查看。为了这一部分的帖子下载下来,还是费了一番功夫。大模型提供了一种chrome远程调试模式,可以在chrome driver环境下,用户自己登录后,脚本采用远程调试的方法抽取帖子内容。开始是想把帖子全下载下来,但是脚本总是有各种小毛病。后来干脆生成只下载单个帖子的脚本,在踩了几个坑后,终于调好了。
然后让大模型把两个脚本的功能合在一起,就可以生成一个符合要求的新脚本。

附:这个版本的DeepSeek果然出现了各种“极”字的错误。
10

膜拜

鸡蛋
6

鲜花

路过

雷人
1

开心

感动

难过

刚表态过的朋友 (17 人)

发表评论 评论 (5 个评论)

回复 马鹿 2025-9-17 19:52
求帮助把马鹿的帖子整理出来, 或者开放脚本?这个要求比较大

先说明我不是it的, 给了脚本也得给使用说明
回复 唐家山 2025-9-17 21:13
马鹿: 求帮助把马鹿的帖子整理出来, 或者开放脚本?这个要求比较大

先说明我不是it的, 给了脚本也得给使用说明   ...
那我直接帮你下载吧
回复 马鹿 2025-9-18 01:09
唐家山: 那我直接帮你下载吧
好的呀! 谢谢!
回复 伯威 2025-9-18 11:14
膜拜。你这和网友生成的忙总全集是一个技术吧?
回复 唐家山 2025-9-18 11:52
伯威: 膜拜。你这和网友生成的忙总全集是一个技术吧?
应该不是的 。我是昨天才让AI生成的。之前网友做的忙总全集是正儿八经的网页抽取技术,我这个是沾了大模型的光。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-9-18 15:29 , Processed in 0.026840 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部