爬虫爬取豆瓣top250电影信息

时间：2024-10-16 09:46:57浏览次数：3

标签：name url 爬虫 dic 爬取 strip csv top250 film

使用正则解析，获得名字，影片信息，打分，评价人数，影评等数据。存储到csv文件中，少部分数据爬取不到还存在优化空间。

import requests
import re
import csv
#拿到豆瓣top250网站源码
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36"
}
for i in range(0, 250, 25):
    url = 'https://movie.douban.com/top250?start={}&filter='.format(str(i))
    url = str(url)
    resp = requests.get(url=url,headers=headers)
    connect = resp.text
    print(connect)
    #正则解析数据提取:
    # 名字，影片信息，打分，评价人数，影评
    obj1 = re.compile(r'<div class="hd">.*?<span class="title">(?P<name>.*?)</span>.*?<span class="title">.*?/&nbsp;(?P<name2>.*?)</span>'
                      +'.*?<span class="other">.*?/&nbsp;(?P<other_name>.*?)</span>'
                      +'.*?<div class="bd">.*?<p class="">(?P<film_>.*?)</p>'
                      +'.*? <div class="star">.*?property="v:average">(?P<star>.*?)</span>'
                      +'.*?content="10.0"></span>.*?<span>(?P<num>.*?)</span>'
                      +'.*?<span class="inq">(?P<evaluate>.*?)</span>',re.S)
    name_ = obj1.finditer(connect)
    # 存储
    f = open('data{}.csv'.format(str(i)),mode='w', encoding='utf-8')
    csv_writer = csv.writer(f)
    for it in name_:
        dic = it.groupdict()
        dic['name'] = dic['name'].strip()
        dic['name2'] = dic['name2'].strip()
        dic['other_name'] = dic['other_name'].strip()
        dic['film_'] = dic['film_'].strip()
        dic['star'] = dic['star'].strip()
        dic['num'] = dic['num'].strip()
        dic['film_'] = dic['film_'].strip()
        dic['evaluate'] = dic['evaluate'].strip()
        csv_writer.writerow(dic.values())
f.close()
resp.close()

标签：name,url,爬虫,dic,爬取,strip,csv,top250,film
From： https://blog.csdn.net/chu_kuang_/article/details/142962739

python爬虫之cookie管理
Cookie处理在Web开发中，Cookie是一种常用的技术，用于在Web服务器和浏览器之间存储和传输数据。Cookie通常包含有关用户会话、首选项和其他信息的键值对。 Request库的get()方法的语法是：requests.get(url,params=None,**kwargs))url:想要获取的网页的链接。params:url的额......
大数据时代下，Python爬虫已然成为了副业赚钱的首选目标！
前言今年又是难找工作的一年。中小企业倒闭、裁员、失业...因为大环境不好，人心也变得越来越焦虑，深怕下一个不幸者会是自己。在这样的现实面前，「副业搞钱」逐渐成了人们的刚需，有一份失业了依旧有收入、不出门也依然有收入的副业，是未来几年最大的底气。暴风雨随时会来，只......
Crawl4AI：用几行代码打造强大的网页爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了......
java爬虫多线程代理：为数据采集提供强力支持
Java爬虫中的多线程与代理应用在当今这个信息爆炸的时代，数据的获取与处理变得尤为重要。Java作为一种强大的编程语言，广泛应用于爬虫开发中。而在爬虫的实践中，多线程和代理的结合，可以让我们的爬虫如同一支训练有素的队伍，快速、高效地获取所需数据。接下来，我们将深入探讨Java爬......
爬虫代理服务器原理：带你深入了解
爬虫代理服务器的原理解析在互联网时代，数据的获取变得愈发重要，网络爬虫作为一种自动化抓取数据的工具，广泛应用于数据分析、市场调研和信息监测等领域。而爬虫的有效性往往依赖于代理服务器的支持。本文将深入探讨爬虫代理服务器的原理，帮助你更好地理解其在数据抓取中的作用。......
xpath案例-豆瓣top250电影
需求：需求：爬取电影名称、评分、引言、详情页的url，翻页爬取1-10页。代码：importrequestsfromlxmlimportetree'''url分析:第一页：https://movie.douban.com/top250第二页：https://movie.douban.com/top250?start=25&filter=第三页：https://movie.douban.com/top250......
单线程与多线程爬虫
单线程爬虫在执行爬取任务时，程序一次只处理一个任务。这意味着在一个时刻，它只能向一个服务器发送请求，并等待该请求的响应。完成这个请求后，它才会发送下一个请求。单线程爬虫的结构简单，易于理解和实现，但效率较低，特别是在网络延迟较大或需要处理大量数据时。爬虫多为IO密集型程序，......
【油猴脚本】00027 案例 Tampermonkey油猴脚本，仅用于学习，不要乱搞。添加标题为网页数
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦......
动态网站及爬虫技术应用（题目）
/*T26:HTTP响应消息的状态代码为500时表示（）:HTTP响应消息的状态代码为500时表示服务器内部错误（InternalServerError）。这通常意味着服务器在处理请求时遇到了意外的情况，导致无法完成该请求。这种错误可能是由于服务器上的软件错误、配置问题或其他服务器端问题引起的。*/ ......
【最新原创毕设】基于SpringCloud的一站式热点推荐平台+23649（免费领源码）可做计算机毕
目录摘要1绪论1.1选题背景与意义1.2开发现状1.3论文结构与章节安排2 开发环境及相关技术介绍2.1MySQL数据库2.2 Tomcat服务器2.3 Java语言2.4 SpringCloud框架介绍3 一站式热点推荐平台系统分析3.1可行性分析3.1.1技术可行性分析3.1......

爬虫爬取豆瓣top250电影信息

相关文章

赞助商

阅读排行