0 l9 @( d* @, t* R0 m) j+ G e数据收集流程包括几个关键步骤。首先,研究人员定义了与 2024 年美国大选相关的一系列关键词,例如候选人姓名(如 “Biden” 和 “Trump”)以及政治议题(如 “election” 和 “debate”)。通过 Telegram 的全局搜索功能搜索公开聊天频道,并将搜索结果作为种子节点。接着,研究人员从这些种子节点的消息中提取出指向其他聊天频道的链接,递归地将其添加到待抓取列表中,从而形成不断扩展的聊天网络。最后,使用 Telegram API 和 telethon 库抓取聊天频道的详细信息,包括个人资料图片、消息内容和用户信息。Telethon 是一个专门用于与 Telegram API 交互的 Python 库,非常适用于这种规模的数据收集和分析任务。! e' b; M, \* V. e. ^
5 E r% S& n- @# {/ K * V( W) I% E/ Y0 s" i: F! |' F该研究中的核心算法是基于滚雪球抽样的递归爬虫,解析消息中的链接、提及和转发信息,逐步扩展待抓取的聊天频道列表。研究主要集中于大规模数据的收集和初步的探索性分析,为后续的深度研究提供了丰富的数据基础。通过这种方法,研究者构建了关于 2024 年美国大选的一个庞大 Telegram 数据集,这对于理解政治话语在社交媒体平台上的扩散提供了独特的视角。+ V: ]9 k& t7 K7 t/ w1 I: O" k. }
) t0 Z* V: q' d