python代码实现保存微博文娱榜的数据Ajax异步加载

时间：2023-12-20 18:32:55浏览次数：51

标签：weibo 文娱 python list 微博 hot band Ajax

最近有小伙伴看完蜜蜂之前分享的爬虫文章之后，使用python代码实现了自动保存网站上面的图片到本地，但是最近又有新的需求。

需求描述：爬取微博文娱榜的数据, 并保存到csv文件中

网址：https://weibo.com/hot/entertainment

需要将一下框上的两个字段都爬取下来。

python代码实现保存微博文娱榜的数据Ajax异步加载_字段

对于这样的需求，看过蜜蜂之前的文章的小伙伴可能首先想到的就是爬取网页源代码，然后用xpath来提取相应字段。但是这样去代码实现的时候会发现无法得到想要的结果，这是因为这是一个动态页面。以下是蜜蜂的代码实现过程：

# @File:微博文娱榜.py
# author:蜜蜂
# Time:2023/12/20 14:40
#  爬取微博文娱榜的数据, 并保存到csv文件中, 字段: 标题, 热度  url: https://weibo.com/hot/entertainment
import os
import requests
def weibo():
    url='https://weibo.com/ajax/statuses/entertainment'
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
        'Cookie':'SUB=_2AkMSMUvRf8NxqwFRmfoXyGznbI5xww7EieKkbboKJRMxHRl-yT9vqk4ItRB6ObFlPtAZ_SYtdFXhjYjm0wD3d3rxCkxs; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9Whgy2VB5gQk2weS6KFXAbKu; XSRF-TOKEN=f_eYOMcZ_wkhA-iwLZg3zAWM; WBPSESS=V0zdZ7jH8_6F0CA8c_ussTgcazs36Qa0WqntzpwqwQekG_hUALsg_lThPDKYLprWTXfAIcFz0LjPkeWC2cajRDlLwn55X7Z23FZW7fUqa4BjyMfL3gY8riKpxPIkkSdF'
    }
    resp=requests.get(url,headers=headers).json()
    band_list=resp['data']['band_list']
    len_list=(len(band_list))
    with open('微博文娱榜.csv','w') as f:
        for i in range(len_list):
            hot_num = band_list[i]['hot_num']
            title = band_list[i]['note']
            print(title,end='\t')
            print(hot_num)
            f.write(f'{title},{hot_num}\n')

if __name__ == '__main__':
    weibo()

运行效果：

python代码实现保存微博文娱榜的数据Ajax异步加载_数据_02

保存的csv文件：

python代码实现保存微博文娱榜的数据Ajax异步加载_Ajax_03

标签：weibo,文娱,python,list,微博,hot,band,Ajax
From： https://blog.51cto.com/u_15937426/8910055

【misc】[HNCTF 2022 WEEK2]calc_jail_beginner_level4(JAIL) --沙盒逃逸，python模板注
查看附件信息这里禁用了__import__,直接导致了help()函数和breakpoint()函数没法使用，并且还过滤了关键字符，这里考虑python模板注入，但是这里还过滤chr(),这里可以使用bytes函数payload如下：().__class__.__base__.__subclasses__()[-4].__init__.__globals__['system']('sh')......
python之常用模块
【time/datetime】（时间模式转换）【datetime】【os模块】【random模块】【json模块：序列化与反序列化】案例【subprocess模块】【hash模块】案例【sys模块】 ......
python 装饰器
课堂上学习的装饰器统计函数的执行时间 defouter(func):definner(*args,**kwargs):start_time=time.time()res=func(*args,**kwargs)end_time=time.time()returnres,end_time-start_timereturninner@outerdefadd......
AVL树和红黑树的Python代码实现
AVL树AVL树是一种自平衡二叉搜索树。在这种树中，任何节点的两个子树的高度差被严格控制在1以内。这确保了树的平衡，从而保证了搜索、插入和删除操作的高效性。AVL树是由GeorgyAdelson-Velsky和EvgeniiLandis在1962年发明的，因此得名（Adelson-Velsky和Landis树）。平衡因子：每个节......
【Python&目标识别】Yolo v5-7.0版本中文标签显示方法（附字体链接）
Yolo的程序之前已经定制化输出过了，但是最近业主突然想要中文的标签，所以赶紧去修改了一下源代码，从网上发现很多资料都改这改那，搞四五个文件结果还没成功。所以自己研究了一下，现在已经完美解决了。今天就和大家分享一下Yolov5-7.0版本的目标识别如何添加中文的标签......
利用Python进行数据分析_Pandas_Numpy高级应用
Numpy高级应用1.ndarray对象内部机理importpandasaspdimportnumpyasnpfrompandasimportSeries,DataFrameimportwarningswarnings.filterwarnings("ignore")略2.高级数组操作arr=np.arange(8)arrarray([0,1,2,3,4,5,6,7])arr_new=arr.reshape......
Python中配置Excel导出模板
定义Excel列对象classExcelColumn:"""定义Excel中的列参数:name(str):列的名称。width(int|None,可选):列的宽度。默认为None。required(bool,可选):指示列是否必需。默认为False。mapping_factory(Callable......
Python语言实现两台计算机用TCP协议跨局域网通信
成果展示：(这张图是在我本地电脑上用pycharm运行两个程序测试，实际可以在两台电脑上分别运行。）设备要求和实现的功能：实现的功能：跨局域网通信（仅支持两台计算机）跨局域网收发小文件,支持缓存在服务器，再一键接收（仅支持两台计算机）使用方法：在服务器上运行server.py程序，在两台客户......
python中的时间、日期写法。
python打印当前日期时间一、打印带日期与时间点方法一：使用datetime模块：importdatetimenow=datetime.datetime.now()print(now)效果如下：方法二：使用time模块：importtimenow=time.strftime("%Y-%m-%d%H:%M:%S",time.localtime())print(now) ......
提高Python开发效率的实用方法
Python作为一种简洁而强大的编程语言，广泛应用于各种领域的软件开发。提高Python开发效率是开发者们关注的重要课题。本文将分享一些实用的方法，帮助您在Python开发中更高效地完成任务，提高代码质量和开发速度。1.使用虚拟环境：在项目开发中，使用虚拟环境是一种良好的实践。虚拟环境可以......

python代码实现保存微博文娱榜的数据Ajax异步加载

相关文章

赞助商

阅读排行