首页 > 其他分享 >一个批量爬取微博数据的神器

一个批量爬取微博数据的神器

时间:2024-08-30 09:03:39浏览次数:10  
标签:神器 weibo 写入 用户 爬取 微博 文档

100.一个批量爬取微博数据的神器

分享一个能批量下载微博图片/视频/评论的工具

起因

偶尔玩玩微博,最近看到了一名专业的 coser,因此想要下载一些她的微博,方便观看,也避免以后平台倒闭/博主退坑的情况导致无法看原微博。

专业 coser:鲨鱼 SAME

项目介绍

然后我在 GitHub 上搜了下,发现一个高赞项目:weibo-crawler,新浪微博爬虫。

项目地址:https://github.com/dataabc/weibo-crawler

简单摘录下项目的文档:

连续爬取一个或多个新浪微博用户(如迪丽热巴郭碧婷)的数据,并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称、关注数、粉丝数、微博数等等;后者包含微博正文、发布时间、发布工具、评论数等等,因为内容太多,这里不再赘述,详细内容见输出部分。

具体的写入文件类型如下:

  • 写入 csv 文件、写入 json 文件、MySQL 数据库、MongoDB 数据库、SQLite 数据库​
  • 下载用户原创和转发微博中的原始图片、视频、Live Photo 中的视频、一级评论

还可以通过自动化,定期增量爬取新微博,非常方便。

实践

实操起来也很简单,官方文档写的非常详细,字数都上万了,配图也很丰富,我这里就简单说明下,其实就三步:

  • 首先,该项目基于 Python,因此得安装 Python(具体步骤就不展开了,网上很多教程)。
  • 然后,填写好要爬取的微博用户信息(例如用户 ID,Cookie)
  • 运行项目:python weibo.py

具体操作文档请看官方文档了,我会在下一篇博客转载它,方便国内的读者查看(想看最新版还是建议去官网看)

效果

将所有图片、视频等数据分别存储,并且都是原始文件(高清),文件名也已经重命名好了:

如果有下载失败的情况,会将情况写在 not_downloaded.txt 里(若图片全部下载成功则不会生成该文件),非常贴心。

——完——

标签:神器,weibo,写入,用户,爬取,微博,文档
From: https://www.cnblogs.com/PeterJXL/p/18387925

相关文章

  • 厉害了!字节又放大招,coze智能体可直接发布到抖音,秒变私域转化神器!
    今天在扣子上撸Bot,突然发现coze支持发布到抖音了!!!于是立马写了一个智能客服智能体进行测试。先看看测试效果,可以看到,这个智能客服智能体可以很好的引导用户留下联系方式,一秒化身私域转化神器!那么如何创建一个抖音智能客服呢?一)登录coze官网Coze官网网址:https://www.coze.cn/点击链......
  • 短视频平台(某音)自动化运营神器,7款RPA机器人上线
    前段时间,八爪鱼RPA应用市场正式上线,为爪爪们提供各类免费、开箱即用的RPA机器人,......
  • 微信私域&SEO运营神器,9款RPA机器人上线
    上一期我们分享了7款抖音RPA机器人,很多爪爪们都开始用了起来......
  • 偷偷用了这10款AI写作神器,再也没加过班!
    前言[自2022年Chat-GPT在全球掀起AI革命浪潮,AI开始在内容的生产方式进行颠覆性改变。其中,AI写作工具的崛起,为内容创作者打开了一个全新创作世界,无论用户在办公写作、自媒体写作还是兴趣写作,在效率方面都得到极大提高。可以说,一款好的AI写作工具,可以为你的工作实现“事半......
  • 【爬虫实战】——利用bs4和sqlalchemy操作mysql数据库,实现网站多行数据表格爬取数据
    前言此篇接上一篇的内容,在其基础上爬取网站的多行表格数据,以及把数据写入到mysql数据库中目录一、定位表格查找元素二、提取数据三、写入mysql数据库四、附录一、定位表格查找元素首先打开网站,如图需要爬取多行数据的表格,利用查找元素定位,看图中分析得知我要爬取的是tr......
  • 用Python爬取地图信息被捕了?Python主要有哪些用途:Web开发、数据科学和人工智能、科学
    近日,一起关于导航电子地图“拥堵延时指数”数据权益的不正当竞争纠纷案在北京市朝阳区人民法院落下帷幕,引发热议。 爬虫确实是学习Python最有意思的一件事情,也是Python很擅长的事情之一。很多铁铁日常使用Python爬天爬地,也还有很多想学爬虫来自动获取数据。如果你正在学习......
  • 网络爬虫之scrapy爬取某招聘网手机APP发布信息
      本文采用scrapy爬虫框架爬取前程无忧手机APP发布的招聘信息,重点对APP抓包分析、爬虫设计思路进行介绍。1引言        过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧。目前主流的招聘网站包括前程无忧、智联、BOSS直聘、拉勾等等。有段时间时间没爬......
  • C/C++开发神器CLion全新发布v2024.2——更适用于嵌入式开发
    CLion是一款专为开发C及C++所设计的跨平台IDE。它是以IntelliJ为基础设计的,包含了许多智能功能来提高开发人员的生产力。这种强大的IDE帮助开发人员在Linux、OSX和Windows上来开发C/C++,同时它还使用智能编辑器来提高代码质量、自动代码重构并且深度整合CMake编译系统,从而提高......
  • 用ComfyUI打造一键换装神器,轻松搭建本地工作流!
    前言最近快手推出了一个一键换装的模型,还原度还挺高的,效果也很不错,于是自己上手用ComfyUI也搭建了一套这样的工作流,练练手,搭建出来之后发现效果也还挺不错的,分享给大家:我们先来看看快手实际演示的效果:通过上传一张模特图,然后选择一个想要替换的服装;就可以将服装替换到模......
  • 效率神器!一款方便、快捷的数据库文档查询、导出工具!
    大家好,我是Java陈序员。之前给大家推荐过一款简洁好用的数据库表结构文档生成器。永不生锈的螺丝钉!一款简洁好用的数据库表结构文档生成器今天,再给大家介绍一款开源的数据库操作工具,功能更加强大!支持文档导出、SQL查询、代码生成...以及十几种实用的工具!关注微信公众号:【Jav......