GitHub 上这款新浪微博爬虫项目，‌让你轻松掌握微博数据！‌

该文章为 weibo-crawler 的官方文档，为了方便国内的同学阅读而转载。

原文地址：https://github.com/dataabc/weibo-crawler

源码我也下载了一份，读者可以在我的公众号上回复“分享资料”来获取，路径如下：

‍

以下是正文：

功能

连续爬取一个或多个新浪微博用户（如迪丽热巴、郭碧婷）的数据，并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据，主要有用户信息和微博信息两大类，前者包含用户昵称、关注数、粉丝数、微博数等等；后者包含微博正文、发布时间、发布工具、评论数等等，因为内容太多，这里不再赘述，详细内容见输出部分。具体的写入文件类型如下：

写入 csv 文件（默认）
写入 json 文件（可选）
写入 MySQL 数据库（可选）
写入 MongoDB 数据库（可选）
写入 SQLite 数据库（可选）
下载用户原创微博中的原始图片（可选）
下载用户转发微博中的原始图片（可选）
下载用户原创微博中的视频（可选）
下载用户转发微博中的视频（可选）
下载用户原创微博 Live Photo 中的视频（可选）
下载用户转发微博 Live Photo 中的视频（可选）
下载用户原创和转发微博下的一级评论（可选）
下载用户原创和转发微博下的转发（可选）

如果你只对用户信息感兴趣，而不需要爬用户的微博，也可以通过设置实现只爬取微博用户信息的功能。程序也可以实现爬取结果自动更新，即：现在爬取了目标用户的微博，几天之后，目标用户可能又发新微博了。通过设置，可以实现每隔几天增量爬取用户这几天发的新微博。具体方法见定期自动爬取微博。

输出

用户信息

用户 id：微博用户 id，如"1669879400"
用户昵称：微博用户昵称，如"Dear-迪丽热巴"
性别：微博用户性别
生日：用户出生日期
所在地：用户所在地
教育经历：用户上学时学校的名字
公司：用户所属公司名字
阳光信用：用户的阳光信用
微博注册时间：用户微博注册日期
微博数：用户的全部微博数（转发微博 + 原创微博）
粉丝数：用户的粉丝数
关注数：用户关注的微博数量
简介：用户简介
主页地址：微博移动版主页 url，如 https://m.weibo.cn/u/1669879400?uid=1669879400&luicode=10000011&lfid=1005051669879400
头像 url：用户头像 url
高清头像 url：用户高清头像 url
微博等级：用户微博等级
会员等级：微博会员用户等级，普通用户该等级为 0
是否认证：用户是否认证，为布尔类型
认证类型：用户认证类型，如个人认证、企业认证、政府认证等
认证信息：为认证用户特有，用户信息栏显示的认证信息

微博信息

微博 id：微博的 id，为一串数字形式
微博 bid：微博的 bid，与 cookie 版中的微博 id 是同一个值
微博内容：微博正文
头条文章 url：微博中头条文章的 url，如果微博中存在头条文章，就获取该头条文章的 url，否则该值为''
原始图片 url：原创微博图片和转发微博转发理由中图片的 url，若某条微博存在多张图片，则每个 url 以英文逗号分隔，若没有图片则值为''
视频 url: 微博中的视频 url 和 Live Photo 中的视频 url，若某条微博存在多个视频，则每个 url 以英文分号分隔，若没有视频则值为''
微博发布位置：位置微博中的发布位置
微博发布时间：微博发布时的时间，精确到天
点赞数：微博被赞的数量
转发数：微博被转发的数量
评论数：微博被评论的数量
微博发布工具：微博的发布工具，如 iPhone 客户端、HUAWEI Mate 20 Pro 等，若没有则值为''
话题：微博话题，即两个#中的内容，若存在多个话题，每个 url 以英文逗号分隔，若没有则值为''
@ 用户：微博 @ 的用户，若存在多个 @ 用户，每个 url 以英文逗号分隔，若没有则值为''
原始微博：为转发微博所特有，是转发微博中那条被转发的微博，存储为字典形式，包含了上述微博信息中的所有内容，如微博 id、微博内容等等
结果文件：保存在当前目录 weibo 文件夹下以用户昵称为名的文件夹里，名字为"user_id.csv"形式
微博图片：微博中的图片，保存在以用户昵称为名的文件夹下的 img 文件夹里
微博视频：微博中的视频，保存在以用户昵称为名的文件夹下的 video 文件夹里

实例

以爬取迪丽热巴的微博为例，我们需要修改 config.json 文件，文件内容如下：

{
    "user_id_list": ["1669879400"],
    "only_crawl_original": 1,
    "since_date": "1900-01-01",
    "query_list": [],
    "write_mode": ["csv"],
    "original_pic_download": 1,
    "retweet_pic_download": 0,
    "original_video_download": 1,
    "retweet_video_download": 0,
    "cookie": "your cookie"
}

对于上述参数的含义以及取值范围，这里仅作简单介绍，详细信息见程序设置。

user_id_list 代表我们要爬取的微博用户的 user_id，可以是一个或多个，也可以是文件路径，微博用户 Dear-迪丽热巴的 user_id 为 1669879400，具体如何获取 user_id 见如何获取 user_id；

only_crawl_original 的值为 1 代表爬取全部原创微博，值为 0 代表爬取全部微博（原创 + 转发）；

since_date 代表我们要爬取 since_date 日期之后发布的微博，因为我要爬迪丽热巴的全部原创微博，所以 since_date 设置了一个非常早的值； query_list 代表要爬取的微博关键词，为空（[]）则爬取全部；

write_mode 代表结果文件的保存类型，我想要把结果写入 csv 文件和 json 文件，所以它的值为["csv", "json"]，如果你想写入数据库，具体设置见设置数据库；

original_pic_download 值为 1 代表下载原创微博中的图片，值为 0 代表不下载；

retweet_pic_download 值为 1 代表下载转发微博中的图片，值为 0 代表不下载；

original_video_download 值为 1 代表下载原创微博中的视频，值为 0 代表不下载；

retweet_video_download 值为 1 代表下载转发微博中的视频，值为 0 代表不下载；

cookie 是可选参数，可填可不填，具体区别见添加 cookie 与不添加 cookie 的区别。

配置完成后运行程序：

python weibo.py

程序会自动生成一个 weibo 文件夹，我们以后爬取的所有微博都被存储在 weibo 文件夹里。然后程序在该文件夹下生成一个名为"Dear-迪丽热巴"的文件夹，迪丽热巴的所有微博爬取结果都在这里。"Dear-迪丽热巴"文件夹里包含一个 csv 文件、一个 img 文件夹和一个 video 文件夹，img 文件夹用来存储下载到的图片，video 文件夹用来存储下载到的视频。如果你设置了保存数据库功能，这些信息也会保存在数据库里，数据库设置见设置数据库部分。

csv 文件结果如下所示：

本 csv 文件是爬取“全部微博”(原创微博 + 转发微博)的结果文件。因为迪丽热巴很多微博本身都没有图片、发布工具、位置、话题和 @ 用户等信息，所以当这些内容没有时对应位置为空。"是否原创"列用来标记是否为原创微博，当为转发微博时，文件中还包含转发微博的信息。为了简便起见，姑且将转发微博中被转发的原始微博称为源微博，它的用户 id、昵称、微博 id 等都在名称前加上源字，以便与目标用户自己发的微博区分。对于转发微博，程序除了获取用户原创部分的信息，还会获取源用户 id、源用户昵称、源微博 id、源微博正文、源微博原始图片 url、源微博位置、源微博日期、源微博工具、源微博点赞数、源微博评论数、源微博转发数、源微博话题、源微博 @ 用户等信息。原创微博因为没有这些转发信息，所以对应位置为空。若爬取的是"全部原创微博"，则 csv 文件中不会包含"是否原创"及其之后的转发属性列；

为了说明 json 结果文件格式，这里以迪丽热巴 2019 年 12 月 27 日到 2019 年 12 月 28 日发的 2 条微博为例。

json 结果文件格式如下：

{
    "user": {
        "id": "1669879400",
        "screen_name": "Dear-迪丽热巴",
        "gender": "f",
        "birthday": "双子座",
        "location": "上海",
        "education": "上海戏剧学院",
        "company": "嘉行传媒",
        "registration_time": "2010-07-02",
        "sunshine": "信用极好",
        "statuses_count": 1121,
        "followers_count": 66395881,
        "follow_count": 250,
        "description": "一只喜欢默默表演的小透明。工作联系jaywalk@jaywalk.com.cn 
标签：weibo,GitHub,url,爬虫,用户,微博,user,id	

From： https://www.cnblogs.com/PeterJXL/p/18389861

GitHub 上这款新浪微博爬虫项目，‌让你轻松掌握微博数据！‌

功能

输出

用户信息

微博信息

实例

相关文章

赞助商

阅读排行