首页 > 其他分享 >爬虫爬取豆瓣top250电影信息

爬虫爬取豆瓣top250电影信息

时间:2024-10-16 09:46:57浏览次数:3  
标签:name url 爬虫 dic 爬取 strip csv top250 film

 使用正则解析,获得名字,影片信息,打分,评价人数,影评等数据。存储到csv文件中,少部分数据爬取不到还存在优化空间。

import requests
import re
import csv
#拿到豆瓣top250网站源码
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36"
}
for i in range(0, 250, 25):
    url = 'https://movie.douban.com/top250?start={}&filter='.format(str(i))
    url = str(url)
    resp = requests.get(url=url,headers=headers)
    connect = resp.text
    print(connect)
    #正则解析数据提取:
    # 名字,影片信息,打分,评价人数,影评
    obj1 = re.compile(r'<div class="hd">.*?<span class="title">(?P<name>.*?)</span>.*?<span class="title">.*?/&nbsp;(?P<name2>.*?)</span>'
                      +'.*?<span class="other">.*?/&nbsp;(?P<other_name>.*?)</span>'
                      +'.*?<div class="bd">.*?<p class="">(?P<film_>.*?)</p>'
                      +'.*? <div class="star">.*?property="v:average">(?P<star>.*?)</span>'
                      +'.*?content="10.0"></span>.*?<span>(?P<num>.*?)</span>'
                      +'.*?<span class="inq">(?P<evaluate>.*?)</span>',re.S)
    name_ = obj1.finditer(connect)
    # 存储
    f = open('data{}.csv'.format(str(i)),mode='w', encoding='utf-8')
    csv_writer = csv.writer(f)
    for it in name_:
        dic = it.groupdict()
        dic['name'] = dic['name'].strip()
        dic['name2'] = dic['name2'].strip()
        dic['other_name'] = dic['other_name'].strip()
        dic['film_'] = dic['film_'].strip()
        dic['star'] = dic['star'].strip()
        dic['num'] = dic['num'].strip()
        dic['film_'] = dic['film_'].strip()
        dic['evaluate'] = dic['evaluate'].strip()
        csv_writer.writerow(dic.values())
f.close()
resp.close()

 

标签:name,url,爬虫,dic,爬取,strip,csv,top250,film
From: https://blog.csdn.net/chu_kuang_/article/details/142962739

相关文章

  • python爬虫之cookie管理
    Cookie处理在Web开发中,Cookie是一种常用的技术,用于在Web服务器和浏览器之间存储和传输数据。Cookie通常包含有关用户会话、首选项和其他信息的键值对。     Request库的get()方法的语法是:requests.get(url,params=None,**kwargs))url:想要获取的网页的链接。params:url的额......
  • 大数据时代下,Python爬虫已然成为了副业赚钱的首选目标!
    前言今年又是难找工作的一年。中小企业倒闭、裁员、失业...因为大环境不好,人心也变得越来越焦虑,深怕下一个不幸者会是自己。在这样的现实面前,「副业搞钱」逐渐成了人们的刚需,有一份失业了依旧有收入、不出门也依然有收入的副业,是未来几年最大的底气。暴风雨随时会来,只......
  • Crawl4AI:用几行代码打造强大的网页爬虫
    Crawl4AI:用几行代码打造强大的网页爬虫在人工智能和大数据时代,数据的获取和处理变得尤为重要。尤其是在大型语言模型(LLM)的研究和应用中,如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题,一个名为Crawl4AI的开源网页爬虫工具应运而生,它专为LLM优化,提供了......
  • java爬虫多线程代理:为数据采集提供强力支持
    Java爬虫中的多线程与代理应用在当今这个信息爆炸的时代,数据的获取与处理变得尤为重要。Java作为一种强大的编程语言,广泛应用于爬虫开发中。而在爬虫的实践中,多线程和代理的结合,可以让我们的爬虫如同一支训练有素的队伍,快速、高效地获取所需数据。接下来,我们将深入探讨Java爬......
  • 爬虫代理服务器原理:带你深入了解
    爬虫代理服务器的原理解析在互联网时代,数据的获取变得愈发重要,网络爬虫作为一种自动化抓取数据的工具,广泛应用于数据分析、市场调研和信息监测等领域。而爬虫的有效性往往依赖于代理服务器的支持。本文将深入探讨爬虫代理服务器的原理,帮助你更好地理解其在数据抓取中的作用。......
  • xpath案例-豆瓣top250电影
    需求:需求:爬取电影名称、评分、引言、详情页的url,翻页爬取1-10页。代码:importrequestsfromlxmlimportetree'''url分析:第一页:https://movie.douban.com/top250第二页:https://movie.douban.com/top250?start=25&filter=第三页:https://movie.douban.com/top250......
  • 单线程与多线程爬虫
    单线程爬虫在执行爬取任务时,程序一次只处理一个任务。这意味着在一个时刻,它只能向一个服务器发送请求,并等待该请求的响应。完成这个请求后,它才会发送下一个请求。单线程爬虫的结构简单,易于理解和实现,但效率较低,特别是在网络延迟较大或需要处理大量数据时。爬虫多为IO密集型程序,......
  • 【油猴脚本】00027 案例 Tampermonkey油猴脚本, 仅用于学习,不要乱搞。添加标题为网页数
    前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏+关注哦......
  • 动态网站及爬虫技术应用(题目)
    /*T26:HTTP响应消息的状态代码为500时表示():HTTP响应消息的状态代码为500时表示服务器内部错误(InternalServerError)。这通常意味着服务器在处理请求时遇到了意外的情况,导致无法完成该请求。这种错误可能是由于服务器上的软件错误、配置问题或其他服务器端问题引起的。*/ ......
  • 【最新原创毕设】基于SpringCloud的一站式热点推荐平台+23649(免费领源码)可做计算机毕
    目 录摘要1绪论1.1选题背景与意义1.2开发现状1.3论文结构与章节安排2 开发环境及相关技术介绍2.1MySQL数据库2.2 Tomcat服务器2.3 Java语言2.4 SpringCloud框架介绍3 一站式热点推荐平台系统分析3.1可行性分析3.1.1技术可行性分析3.1......