首页 > 其他分享 >DrissionPage实战之采集猫眼电影top100榜

DrissionPage实战之采集猫眼电影top100榜

时间:2024-08-18 17:26:01浏览次数:8  
标签:DrissionPage data 电影 mov text top100 page 猫眼

在当今信息化的时代,数据的获取与分析变得愈发重要。电影行业作为一个充满活力的领域,吸引了大量观众和投资者。猫眼电影作为中国领先的电影票务平台之一,提供了丰富的电影信息和用户评价,成为了研究电影市场趋势和观众偏好的重要数据源。

通过抓取猫眼电影的Top 100榜单,开发者可以获取到关于热门电影的详细信息,包括电影的排名、评分、标题、主演和上映时间等。这些数据不仅可以帮助影迷了解当前热门影片,还能为电影制片方、市场分析师和投资者提供有价值的市场洞察。

使用Python的DrissionPage库进行网页抓取,能够高效地自动化这一过程。DrissionPage结合了浏览器自动化和数据提取的功能,使得抓取动态网页内容变得更加简单和直观。通过编写脚本,开发者可以定期更新数据,分析电影市场的变化趋势,从而做出更为精准的决策。

总之,采集猫眼电影Top 100榜单的数据,不仅是对网页抓取技术的一次实战应用,更是对电影市场进行深入分析的重要步骤。通过这些数据,用户能够更好地理解观众的偏好和市场动态,为未来的电影制作和营销策略提供数据支持。

data.csv

data.log

# -*- encoding:utf-8 -*-
import logging
from DrissionPage import ChromiumPage
from DataRecorder import Recorder

# 设置日志记录器
logging.basicConfig(
    filename='data.log',
    encoding='utf-8',
    level=logging.DEBUG,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

# 创建页面对象
page = ChromiumPage()
# 创建记录器对象
recorder = Recorder('data.csv')

# 访问网页
page.get('https://www.maoyan.com/board/4')

while True:
    # 遍历页面上所有 dd 元素
    for mov in page.eles('t:dd'):
        # 获取所需的信息
        num = mov('t:i').text
        score = mov('.score').text
        title = mov('@data-act=boarditem-click').attr('title')
        star = mov('.star').text
        time = mov('.releasetime').text

        # 写入到记录器
        recorder.add_data((num, title, star, time, score))

        # 记录中文信息
        logging.debug(f'记录电影信息: {num}, {title}, {star}, {time}, {score}')

    # 获取下一页按钮,有就点击
    btn = page('下一页', timeout=2)
    if btn:
        btn.click()
        page.wait.load_start()  # 等待页面加载
    else:
        break

# 记录数据
recorder.record()

标签:DrissionPage,data,电影,mov,text,top100,page,猫眼
From: https://blog.csdn.net/lwcwam/article/details/141302515

相关文章

  • Python 爬虫项目实战六:抓取猫眼电影排行榜的数据
    在这篇博客中,我们将通过一个实际的Python爬虫项目,详细讲解如何抓取网页数据。本次选择的实战项目是抓取猫眼电影排行榜的数据,通过这个项目,你将学会如何使用Python编写爬虫,从网页中提取有用的电影信息。一、项目准备在开始之前,确保你已经安装了Python和以下几个关键的库:requ......
  • 「LeetCode Top100」之滑动窗口
    3.无重复字符的最长子串题目链接:https://leetcode.cn/problems/longest-substring-without-repeating-characters/description/?envType=study-plan-v2&envId=top-100-liked题目难度:中等标签:哈希表、字符串、滑动窗口题目状态:学习题解思路:滑动窗口的思路,也就是维持一个无......
  • 「LeetCode Top100」之双指针
    283.移动零题目链接:https://leetcode.cn/problems/move-zeroes/description/?envType=study-plan-v2&envId=top-100-liked题目难度:简单标签:数组、双指针题目状态:AC思路:两个指针,i用来找0,j用来找非0。当nums[i]==0&&nums[j]!=0时,将两者交换。代码:classSolutio......
  • 大麦/猫眼抢票-狠货
    大部分购买方式已迁移至手机端,专注研究移动端小白操作–仅供学习注意在帐号按权重的第三方账号设置解绑淘宝,否则有可能在抢票时候出现滑块,影响抢票,抢票优先选择大麦⚠️核心内容参考:据悉,在购票环节,大麦就通过恶意流量清洗技术在网络层实时识别并拦截通过自动化手段发起下......
  • 「LeetCode Top100」之哈希篇
    1.两数之和题目链接:https://leetcode.cn/problems/two-sum/description/?envType=study-plan-v2&envId=top-100-liked解题状态:通过标签:数组、哈希表思路:通过创建一个哈希表来保存数组中的元素,每当遍历一个元素时,若哈希表中不存在另一个与之相加为目标值的元素,就将元素插入......
  • 基于DrissionPage实现淘宝商品信息的批量获取
    摘要本文章主要讲解如何利用DrissionPage来避开淘宝的反爬机制,批量获取商品信息并保存到xlsx表格文件中,用于数据分析或深度学习模型的训练。(注:本文代码为一步一步调试出来的测试版,只是提供调试思路以及初步实现,并不能作为高效的成品程序,如有需要还请各位自行编写喵)1.淘宝......
  • 【Java完整版 面试必备】Leetcode Top100题目和答案-矩阵篇
    目录以下摘自leetcodeTop100精选题目-矩阵篇​矩阵置零螺旋矩阵旋转图像搜索二维矩阵II以下摘自leetcodeTop100精选题目-矩阵篇矩阵置零给定一个 mxn 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。示例:输入:matrix......
  • 【Java完整版 面试必备】Leetcode Top100题目和答案-子串篇
    以下摘自leetcodeTop100精选题目-子串篇560.和为K的子数组给你一个整数数组 nums 和一个整数 k ,请你统计并返回 该数组中和为 k 的子数组的个数 。子数组是数组中元素的连续非空序列。示例:示例1:输入:nums=[1,1,1],k=2输出:2Solution:publicintsub......
  • 自动化(爬虫)工具 DrissionPage SessionPage模式 API介绍 使用笔记(三)
    自动化(爬虫)工具DrissionPageSessionPage模式API介绍使用笔记(三)目录启动驱动启动配置常用方法(API)启动最简单的启动方式,更多启动方式见这里fromDrissionPageimportSessionPage#session_or_options:Session对象或SessionOptions对象#timeout:超时时间(秒)o......
  • 【Java完整版 面试必备】Leetcode Top100题目和答案-哈希
    以下摘自leetcodeTop100精选题目-哈希1.两数之和给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。......