爬虫-获取豆瓣Top250信息

时间：2022-08-19 23:36:49浏览次数：90

标签：xpath text 爬虫 item 豆瓣 res div Top250 page

import time
import requests
from lxml import etree
i = 0
for item in range(0, 275, 25):
    url = f'https://movie.douban.com/top250?start={item}&filter='
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
    }
    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding
    page_source = res.text
    page_tree = etree.HTML(page_source)
    page_data = page_tree.xpath('//*[@id="content"]//*[@class="item"]/div[2]')
    i +=1
    print(f'正在抓取第{i}页')
    with open('250.csv', 'a') as f:
        for item in page_data:
            name = item.xpath('./div[1]/a/span[1]/text()')[0]
            fen = item.xpath('./div[2]/div[@class="star"]/span[2]/text()')[0]
            num = item.xpath('./div[2]/div[@class="star"]/span[4]/text()')[0]
            year = item.xpath('./div[2]/p/text()[2]')[0].split()[0]
            country = item.xpath('./div[2]/p/text()[2]')[0].split('/')[1].strip()
            type = item.xpath('./div[2]/p/text()[2]')[0].split('/')[2].strip()
            website = item.xpath('./div[1]/a/@href')[0]
            time.sleep(0.1)
            f.write(f'{name},{fen},{num},{year},{country},{type},{website}')
            f.write('\r')
    time.sleep(0.1)

效果展示：

标签：xpath,text,爬虫,item,豆瓣,res,div,Top250,page
From： https://www.cnblogs.com/mliu/p/16606883.html

PHP爬虫（2）DOM处理
https://www.cnblogs.com/jbexploit/p/4592527.html摘要：在PHP爬虫（1）中详细了介绍了CURL抓取HTML数据的技术。采集数据处理也是爬虫技术中非常重要的部分。处理HTML数据可......
学习：python 小试验 ruquest爬虫爬取音乐
控制台抓包获取音乐链接不多说了最后成功下载到本地 ......
《即答力》豆瓣：6.1
作者:[日]松浦弥太郎出版社:江苏凤凰文艺出版社副标题:年轻人的自我更新指南译者:刘欣出版年:2020-501.翻了几页就知道这是啥类型的书了。没有贬低的意思，......
python爬虫实例: 对指定城市kfc餐厅信息的爬取
python爬虫实例:对指定城市kfc餐厅信息的爬取要求：爬取指定kfc餐厅数据kfc餐厅查询的url：http://www.kfc.com.cn/kfccda/storelist/index.aspx分析:由于餐厅信息......
搭建爬虫
爬虫学习起来并不难，网上有很多这块的教程；但如果需要深入学习一些复杂的爬虫，就得搞懂一些算法，不断优化后，就可以编写一个牛逼的爬虫了。掌握基本的爬虫工作原理之后，先学......
拼多多自动化收集数据，爬虫。pinduoduo
{"item_type":1,"item_data":{"goods_model":{"long_thumb_url":"",......
windows定时任务执行python爬虫
有一些定时爬取的操作，适合用定时任务去执行。个人单独用的项目不适合放在工作所用的服务器上，也没必要单独买个服务器，我们windows电脑本身就有这项功能。接下来是一个wi......
爬虫
爬虫之requests模块爬虫之BeautifulSoup4爬虫之selenium爬虫之Scrapy架构......
Python爬虫之多线程异步爬虫，非常详细
Python爬虫之多线程爬虫在使用Python的过程中，我们可能遇到这样一个场景，需要下载某一个网站上的多个资源；例如：我们想下载豆瓣电影Top250所有的宣传图片具体代码如下......
Python逆向爬虫之pyquery，非常详细
系列目录Python逆向爬虫之pyquerypyquery是一个类似jquery的python库，它实现能够在xml文档中进行jQuery查询，pyquery使用lxml解析器进行快速在xml和html文档上操作，它提供了......

爬虫-获取豆瓣Top250信息

相关文章

赞助商

阅读排行