首页 > 编程语言 >【Python爬虫项目实战】Python爬虫豆瓣Top250电影短评数据保存本地

【Python爬虫项目实战】Python爬虫豆瓣Top250电影短评数据保存本地

时间:2023-01-13 09:45:01浏览次数:45  
标签:comment get Python text 爬虫 Top250 css

前言

今天给大家介绍的是Python爬虫豆瓣Top250电影短评数据保存本地,在这里给需要的小伙伴们帮助,并且给出一点小心得。

开发工具

Python版本:3.6

相关模块:

requests模块

parsel模块

time模块

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

文中完整代码及文件,评论留言获取

数据来源查询分析

浏览器中打开我们要爬取的页面
按F12进入开发者工具,查看我们想要的电影短评在哪里
这里我们需要页面数据就可以了

页面数据

代码实现

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}

for page in range(1, 20):
    url = f'https://movie.douban.com/subject/35613853/comments?start={page*20}&limit=20&status=P&sort=new_score'
    data_html = requests.get(url=url, headers=headers).text
    selector = parsel.Selector(data_html)
    comment_list = selector.css('.comment-item')
    for comment in comment_list:
        short = comment.css('.short::text').get().strip()
        name = comment.css('.comment-info a::text').get().strip()
        time = comment.css('.comment-time::text').get().strip()
        vote_count = comment.css('.votes.vote-count::text').get().strip()
        print(short, name, time, vote_count)

最后

今天的分享到这里就结束了 ,感兴趣的朋友也可以去试试哈

对文章有问题的,或者有其他关于python的问题,可以在评论区留言或者私信我哦

觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/

标签:comment,get,Python,text,爬虫,Top250,css
From: https://www.cnblogs.com/guzichuan/p/17048603.html

相关文章

  • python 检测指定文件夹的大小及文件数量
    importosdefget_size(start_path='.'):total_size=0fordirpath,dirnames,filenamesinos.walk(start_path):forfinfilenames:......
  • abseil python命令库总结
    absl(AbseilPythonCommonLibraries)(https://abseil.io/docs/python/)是用于构建Python应用程序的Python库代码集合,它包括三个子库:app,flags,logging。appapp是Absei......
  • python django校园二手商城
    pythondjango校园二手商城 django二手商城django校园商城django校园商店django电子商城django网上商城前端:htmlcss等后端:pythondjango数据库:MYSQL涉及功能......
  • python Django垃圾分类系统
    pythonDjango垃圾分类系统 pythonDjango垃圾回收系统python校园垃圾分类系统后端:python3.7+Django3.2前端:html js css等数据库:MySQL功能:注册、登录、修改......
  • Python路面平整度检测车辆数据——速度修正
    全文链接:http://tecdat.cn/?p=31268原文出处:拓端数据部落公众号分析师:BohaoZhan目前主流的轻量化路面平整度检测技术方案为:使用车载加速度传感器采集车辆在路面上行驶......
  • Pycharm中没有显示miniconda刚创建好的Python2.7的测试环境
    目录​​前言​​​​问题描述​​​​解决​​​​结语​​前言Hello!非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍ଘ(੭ˊᵕˋ)੭昵称:海轰标......
  • python代码如何打包成exe文件
    引言:有时候,别人使用我们代码的时候,不太会安装所需要的IDE或者本地没有IDE(环境),这时候就需要将我们的代码打包成不依赖于外界环境的可执行程序,即.exe文件。那么,该如何将Pyth......
  • Python实现希尔排序、快速排序、归并排序
    快速排序快速排序(英语:Quicksort),又称划分交换排序(partition-exchangesort),通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都......
  • 【Python】批量创建/读取变量
    目录​​简介​​​​问题场景​​​​解决​​​​结语​​简介Hello!非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ ଘ(੭ˊᵕˋ)੭昵称:海轰标签:程序猿|C++......
  • python 远端url转成文本对象上传AWS
    上传文件到AWS及其他资源池defupload_initial_avatar(recruiter,image_object):try:file_path=recruiter.avatar_dir_path(image_object.name.split(......