首页 > 编程语言 >【Python爬虫案例】用python爬哔哩哔哩搜索结果

【Python爬虫案例】用python爬哔哩哔哩搜索结果

时间:2022-11-10 08:44:48浏览次数:70  
标签:视频 请求 Python python sec 哔哩 data

一、爬取目标

大家好,我是 @马哥python说 ,一名10年程序猿。

今天分享一期爬虫的案例,用python爬哔哩哔哩的搜索结果,也就是这个页面:爬取目标

爬取字段,包含:
页码, 视频标题, 视频作者, 视频编号, 创建时间, 视频时长, 弹幕数, 点赞数, 播放数, 收藏数, 分区类型, 标签, 视频描述

部分爬取结果:部分数据

这里,我一共爬了30页,每页30条,共30*30=900条数据(当然,最大爬取页数可自定义放大)
下面,开始分析网页。
打开开发者模式,在页面搜索关键词,并进行翻页一次,如下:开发者模式

看到了result节点中的列表数据,就是我们要找到的视频数据,依次查看每个具体数据:json数据

json数据
分析到这里,就可以开发爬虫了。

二、讲解代码

首先,导入用到的库:

import requests  # 发送请求
import time  # 获取时间
import os
import pandas as pd  # 保存csv数据
import re  # 数据清洗

下面,开始发送请求。
请求地址在哪获取呢?请求地址

请求参数在Payload里面:请求参数

请求参数代码:

# 请求参数
params = {
    '__refresh__': 'true',
    '_extra': '',
    'context': '',
    'page': page,
    'page_size': 30,
    'from_source': '',
    'from_spmid': '333.337',
    'platform': 'pc',
    'highlight': '1',
    'single_column': '0',
    'keyword': v_keyword,
    'qv_id': 'dHavr2spEK3TphPa54klZ6svdhBYOlyP',
    'category_id': '',
    'search_type': 'video',
    'dynamic_offset': 24,
    'preload': 'true',
    'com2co': 'true',
}

请求头,在Request Headers里面:请求头

注意!cookie很重要,如果不传入cookie这个参数,会返回412错误码!

请求头代码:

# 请求头
headers = {'accept': 'application/json, text/plain, */*',
           'accept-encoding': 'gzip, deflate, br',
           'accept-language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
           # cookie必需,否则返回412
           'cookie': "换成自己的cookie",
           'origin': 'https://search.bilibili.com',
           'referer': 'https://search.bilibili.com/all?keyword={}&from_source=webtop_search&spm_id_from=333.1007&search_source=5&page=2&o=24'.format(
               v_keyword),
           'sec-ch-ua': '"Google Chrome";v="107", "Chromium";v="107", "Not=A?Brand";v="24"',
           'sec-ch-ua-mobile': '?0',
           'sec-ch-ua-platform      ': '"macOS"',
           'sec-fetch-dest': 'empty',
           'sec-fetch-mode': 'cors',
           'sec-fetch-site': 'same-site',
           'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
           }

发送请求:

# 向页面发送请求
r = requests.get(url, headers=headers, params=params)
print(r.status_code)  # 查看响应码

解析出result列表数据:

data_list = j_data['data']['result']
print('数据长度:', len(data_list))

定义空列表,并for循环追加数据,以视频标题title为例:

for data in data_list:
    title = re.compile(r'<[^>]+>', re.S).sub('', data['title'])  # 正则表达式清洗文本
    print('视频标题: ' + title)
    title_list.append(title)

其他字段同理,不再赘述。
最后通过pandas的to_csv,保存最终数据。

# 数据保存到csv文件
df.to_csv(v_out_file, encoding='utf_8_sig', mode='a+', index=False, header=header)

to_csv的时候需加上选项(encoding='utf_8_sig'),否则存入数据会产生乱码,尤其是windows用户!

三、同步讲解视频

https://www.zhihu.com/zvideo/1573636442722697216


原创作者: 马哥python说
持续分享python干货中!

标签:视频,请求,Python,python,sec,哔哩,data
From: https://www.cnblogs.com/mashukui/p/16875858.html

相关文章

  • Python: convert int to mode string
     def_convert_mode(mode:int):ifnot0<=mode<=0o777:raiseRuntimeErrorres=''forvinrange(0,9):ifmode>>v&1:......
  • 基于Python的批量处理execl文件内容
    今天遇到一个棘手的问题,在三个文件夹中将近60个execl表选出所需的特定三列数据,且表名,sheet名,表中的数据类型均不一致,故想到利用Python批量化处理技术手段进行处理。其原理......
  • python发送邮件
    python发送邮件封装#encoding=utf-8importsmtplibfromemail.mime.multipartimportMIMEMultipartfromemail.mime.textimportMIMETextclassEmailMange:......
  • Python10-实战
    实战01(根据当前时间创建文件)importtimedefcreate():globalnamelocalTime=time.strftime("%Y%m%d%H%M%S",time.localtime())name=localTime+'.txt'......
  • Python10-eg
    实例01(创建并打开记录蚂蚁庄园的文件)1print("\n","="*10,"蚂蚁庄园动态","="*10)2file=open('message.tex','w')3print("\n即将显示...........\n")实例02(向......
  • Python 变量类型
    变量类型1.变量赋值Python中变量赋值不需要类型声明。每个变量在使用前必须声明,变量赋值后该变量才会被创建。couter=100#赋值整型变量miles=1000.0#浮点型......
  • python2 递归函数
    importosimportos.pathasospimportsysimportnumpyasnpimportdatetimedefmkdirs_py2(path):#递归创建文件夹路径ifosp.exists(path):return......
  • python选课系统项目详解
    选课系统项目详解选课系统简介及分析选课系统架构设计分析选课系统目录设计管理员视图注册登录创建学校创建课程创建讲师学生视图教师视图选课系统简介及......
  • 【pyfaidx】纯Python实现的FASTA随机索引库
    前言基因组序列的提取,有不少强大的工具像samtools,bedtools,之前也提到pybedtools提取序列。不过pybedtools是对bedtools提供一个Python接口,除了安装pybedtools外,还需......
  • 新的学习历程-python1 Hello World
    1print('helloworld!')2if2>0:3print('ok')4print('yes')56x=3;y=47print(x+y)学习资源来自:张志刚老师python百例 《例解Python:Pyth......