首页 > 编程语言 >python-爬虫-css提取-写入csv-爬取猫眼电影榜单

python-爬虫-css提取-写入csv-爬取猫眼电影榜单

时间:2023-04-05 19:46:33浏览次数:45  
标签:star python text li 爬取 csv page css

猫眼有一个电影榜单top100,我们将他的榜单电影数据(电影名、主演、上映时间、豆瓣评分)抓下来保存到本地的excle中

本案例使用css方式提取页面数据,所以会用到以下库

import time
import requests
import parsel
#解析库,解析css
import csv
#爬取的数据写入csv

创建csv文件标头信息,也就是表格第一排内容

f = open('book.csv',mode='a',encoding='utf-8',newline='')
#表头
csv_writer = csv.DictWriter(f,fieldnames=['电影名字','主演','上映时间','评分'])
csv_writer.writeheader() 

 

 

分析地址,每一页地址的区别在最后一个“=”号后面的数字,第一页是“10“,第二页是”20“,以此类推到”90“,所以写个循环翻页

https://www.maoyan.com/board/4?timeStamp=1680685769327&channelId=40011&index=8&signKey=6fa9e474efd1ed595c394e9bc497cdaf&sVersion=1&webdriver=false&offset=10

https://www.maoyan.com/board/4?timeStamp=1680685769327&channelId=40011&index=8&signKey=6fa9e474efd1ed595c394e9bc497cdaf&sVersion=1&webdriver=false&offset=20

https://www.maoyan.com/board/4?timeStamp=1680685769327&channelId=40011&index=8&signKey=6fa9e474efd1ed595c394e9bc497cdaf&sVersion=1&webdriver=false&offset=90

for page in range(0,10):
    time.sleep(2)
    page = page *10
    url = 'https://www.maoyan.com/board/4?timeStamp=1680685769327&channelId=40011&index=8&signKey=6fa9e474efd1ed595c394e9bc497cdaf&sVersion=1&webdriver=false&offset={}'.format(page)
    print(url)

分析页面,找到需要的数据

 

 提取数据脚本如下

    response = requests.get(url, headers=headers)
    selector = parsel.Selector(response.text)
    li_s = selector.css('.board-wrapper dd')
    for li in li_s:
        name = li.css('.name a::text').get()
        #电影名称
        star = li.css('.star::text').get()
        #主演
        star_string = star.strip()
        #strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列
        releasetime = li.css('.releasetime::text').get()
        #上映时间
        data_time = releasetime.strip()
        follow = li.css('.score i::text').getall()
        score = ''.join(follow)
        #join函数将列表内的值连串显示,参考“https://blog.csdn.net/weixin_50853979/article/details/125119368”

最后将获取到的数据字典化后存到csv文件中

   dit = {
            '电影名字': name,
            '主演': star_string,
            '上映时间': data_time,
            '评分': score,
        }
        csv_writer.writerow(dit)

执行后csv文件的内容

 

 全部代码

import time
import requests
import parsel
#解析库,解析css
import csv
#爬取的数据写入csv

f = open('book.csv',mode='a',encoding='utf-8',newline='')
#表头
csv_writer = csv.DictWriter(f,fieldnames=['电影名字','主演','上映时间','评分'])
csv_writer.writeheader() 

for page in range(0,10):
    time.sleep(2)
    page = page *10
    url = 'https://www.maoyan.com/board/4?timeStamp=1680685769327&channelId=40011&index=8&signKey=6fa9e474efd1ed595c394e9bc497cdaf&sVersion=1&webdriver=false&offset={}'.format(page)
    print(url)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
        'Cookie': '__mta=20345351.1670903159717.1670903413872.1670903436333.5; uuid_n_v=v1; uuid=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; _csrf=916b8446658bd722f56f2c092eaae35ea3cd3689ef950542e202b39ddfe7c91e; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1670903160; _lxsdk_cuid=1850996db5dc8-07670e36da28-26021151-1fa400-1850996db5d67; _lxsdk=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; __mta=213622443.1670903327420.1670903417327.1670903424017.4; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1670903436; _lxsdk_s=1850996db5e-8b2-284-88a%7C%7C18',
        'Host': 'www.maoyan.com',
        'Referer': 'https://www.maoyan.com/films/1200486'

    }
    response = requests.get(url, headers=headers)
    selector = parsel.Selector(response.text)
    li_s = selector.css('.board-wrapper dd')
    for li in li_s:
        name = li.css('.name a::text').get()
        #电影名称
        star = li.css('.star::text').get()
        #主演
        star_string = star.strip()
        #strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列
        releasetime = li.css('.releasetime::text').get()
        #上映时间
        data_time = releasetime.strip()
        follow = li.css('.score i::text').getall()
        score = ''.join(follow)
        #join函数将列表内的值连串显示,参考“https://blog.csdn.net/weixin_50853979/article/details/125119368”
        dit = {
            '电影名字': name,
            '主演': star_string,
            '上映时间': data_time,
            '评分': score,
        }
        csv_writer.writerow(dit)

        

 

标签:star,python,text,li,爬取,csv,page,css
From: https://www.cnblogs.com/becks/p/17290681.html

相关文章

  • [oeasy]python0127_中文系统_gbk_BIG5_南极星_内码转化
    中文系统bgk回忆上次内容汉字字形通过点阵式打字机像素级寻址的屏幕进入了计算机的世界在海峡对岸的台湾同胞也进入了汉字时代他们会使用GB2312编码吗?能互通吗?......
  • [oeasy]python0127_中文系统_gbk_BIG5_南极星_内码转化
    中文系统bgk回忆上次内容汉字字形通过点阵式打字机像素级寻址的屏幕进入了计算机的世界 ​ 添加图片注释,不超过140字(可选) 在海峡对岸的台湾同胞也进入了汉字时代 他们会使用GB2312编码吗?能互通吗?......
  • Python platform模块获取操作系统信息
    一、概述1、python中,platform模块给我们提供了很多方法去获取操作系统的信息importplatformprint(platform.platform())#获取操作系统名称和版本号:macOS-10.14.6-x86_64-i386-64bitprint(platform.system())#获取操作系统:Darwinprint(platform.version())#获取计算机操作......
  • python列表的添加的四种方式
    列表删除的五种方式python列表的增删改1、list增加元素1.1append()1.2extend()1.3insert()1.4切片1、list增加元素python中列表增加元素有四种方式:append():在列表末尾添加一个元素extend():在列表末尾添加至少一个元素insert():在列表任意位置添加一个元素切片:在列表任意位......
  • python中列表的删除操作,五种方式
    列表删除操作1、列表删除操作1.1remove()1.2pop()1.3切片1.4clear与del 1、列表删除操作五种方式分别为:remove():一次删除一个元素;如果列表内有重复元素则删除第一个;元素不存在时抛出异常ValueErrorpop():删除一个指定的索引位置上的元素;指定索引不存在则......
  • python split()截取一部分的字符串及按照指定字符或者长度 截取字符串
     str='https://www.baidu.com/pdf/abcdefg.pdf'#输出字符串,>>>https://www.baidu.com/pdf/abcdefg.pdfprint(str)#做为一个整体截取,>>>['https://www.baidu.com/pdf/abcdefg.pdf']print(str.split())#把字符串分割,>>>[&......
  • python list tuple dict set
    pythonlist列表tuple元组dict字典set集合Python语言简洁明了,可以用较少的代码实现同样的功能。这其中Python的四个内置数据类型功不可没,他们即是list,tuple,dict,set。这里对他们进行一个简明的总结。https://www.cnblogs.com/soaringeveryday/p/5044007.htmltuple是一个不......
  • 一个神奇的需求:doc批量转docx,1行Python代码实现
    大家好,这里是程序员晚枫,今天给大家分享一个Python自动化办公的知识:1行代码,批量给把doc文档转为docx格式。1、上代码下载Python自动化办公的专用库:python-office,下载命令如下。pipinstallpython-office-ihttps://pypi.python.org/simple-U注意,最近清华镜像和阿里镜像都不......
  • python 报错AssertionError: process has already started
    python报错AssertionError:processhasalreadystarted现象  原因在Python中设置守护进程daemon,一定要放在start方法上面才会有效解决方法 ......
  • 使用python读取指定目录下的指定类型文件
    准备工作:设置指定的路径,使用os.listdir()方法获取路径下所有的文件importospath="d:\\data"#设置路径dirs=os.listdir(path)#获取指定路径下的文件循环判断:使用os.path.splitext()方法筛选出指定类型的文件foriin......