首页 > 其他分享 >三体数据爬取

三体数据爬取

时间:2022-12-18 19:11:07浏览次数:40  
标签:数据 三体 list next 爬取 json score cp data

《三体》动漫点评区数据爬取

预备

## 准备的库
import pandas as pd # 数据分析库
import requests # 用于发送 HTTP 请求
import json # json 格式
import numpy as np

短评数据爬取

## 标头
headers = 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/'

## 访问地址
url0 = 'https://api.bilibili.com/pgc/review/short/list?media_id=4315402&ps=20&sort=0'
score_dp = [] # 存放短评评分
r = requests.get(url0,headers)
data_json = json.loads(r.text)
for i in range(20):
    score_dp.append(data_json['data']['list'][i]['score'])
next = data_json['data']['next']
while next:
    url = 'https://api.bilibili.com/pgc/review/short/list?media_id=4315402&ps=20&sort=0'+'&cursor='+str(next)
    rr = requests.get(url, headers)
    data_json_n = json.loads(rr.text)
    n = len(data_json_n['data']['list'])
    for i in range(n):
        score_dp.append(data_json_n['data']['list'][i]['score'])
    next = data_json_n['data']['next']
np.mean(score_dp)

长评数据爬取

headers_cp = 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/'
url_cp = 'https://api.bilibili.com/pgc/review/long/list?media_id=4315402&ps=20&sort=0'
score_cp = [] # 存放长评评分
r = requests.get(url_cp,headers_cp)
data_json = json.loads(r.text)
for i in range(len(data_json['data']['list'])):
    score_cp.append(data_json['data']['list'][i]['score'])
next = data_json['data']['next']
while next:
    url = 'https://api.bilibili.com/pgc/review/long/list?media_id=4315402&ps=20&sort=0'+'&cursor='+str(next)
    rr = requests.get(url, headers_cp)
    data_json_n = json.loads(rr.text)
    n = len(data_json_n['data']['list'])
    for i in range(n):
        score_cp.append(data_json_n['data']['list'][i]['score'])
    next = data_json_n['data']['next']
np.mean(score_cp)

综合评分

np.mean(score_dp+score_cp)

结论:

  • 短评平均评分 75
  • 长评平均评分 41
  • 综合平均评分 63

标签:数据,三体,list,next,爬取,json,score,cp,data
From: https://www.cnblogs.com/hznudmh/p/16990784.html

相关文章

  • 使用GDAL/OGR打开矢量并输出每个面外界矩形范围内的point数据
    原文链接:https://blog.csdn.net/weixin_40625478/article/details/106851352本文主要目的:我们有的时候需要获取矢量数据的外接矩形范围,但是一个图层数据有好几个面要素,如......
  • 【Pytest--html报告优化+增加错误截图,获取统计数据】
    一、pytest生成的原始html报告1、在我们实际工作中,环境信息不一定要在报告中详细提现,可以增减2、用例信息,默认展示的是用例的model名::用例名称,并不直观,所以我们可以增加一......
  • PC版QQ更改存储位置和重装系统后的导入数据
    这玩意设计的有点弱智1不登录不让改文件夹位置2登录就会先在用户文档(windowsxp叫我的文档)里面创建数据目录。3导入以前数据的选项藏的特别深更改位置在设置里面很容......
  • 基于Python和GDAL提取栅格数据相邻地物的边界
    摘录于 https://blog.csdn.net/weixin_43123242/article/details/935251751.下载第三方包在网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml下载对应python版本......
  • Python__06--基本数据类型
    1常用数据类型1.1整数int0b开头二进制0o八进制0x十六进制默认十进制1.2浮点数float3.14159浮点数计算,存在小数位不精确的问题测试代码:fromdecimalimport......
  • DQL查询数据
    DQL查询数据!1.DQL(DataQueryLanguage数据查询语言)SELECT数据库中最核心的语言,最重要的语句狂神MySQL中p16school.sql文件(数据为部分数据)/*SQLyogUlti......
  • python load数据时出现各种问题
    data_raw=np.load(data_path,allow_pickle=True).item() 1..  2.pickle.load的时候出现EOFError:Ranoutofinput解决方法:删掉该条数据即可。......
  • ArcGIS-ArcMap-提取栅格数据的矢量范围
    利用Arcgis软件,提取栅格数据的矢量范围面。工具位置:ArcMap工具箱(ArcToolbox→3D分析(3DAnalystTools)→转换(Conversion)→由栅格转出(FromRaster)→栅格范围(RasterDomain......
  • 通过docker启动redis,存在端口映射和数据卷
    先将redis.conf文件进行创建,因为如果不先创建,在redis启动的时候,/etc/redis/中本没有文件,就会将redis.conf创建为一个文件夹mkdir-p/mydata/redis/conftouch/mydata/re......
  • Mybatis:解决实体类驼峰命名与数据库字段之间映射的问题
    数据库的命名规则都是_来隔开单词,Java中是驼峰命名法,所以导致实体类与数据库字段不一致,从而返回的结果有部分会被丢失。一、可以在mapper.xml中通过resultMap来解决:......