首页 > 其他分享 >爬虫-获取豆瓣Top250信息

爬虫-获取豆瓣Top250信息

时间:2022-08-19 23:36:49浏览次数:90  
标签:xpath text 爬虫 item 豆瓣 res div Top250 page

import time
import requests
from lxml import etree
i = 0
for item in range(0, 275, 25):
    url = f'https://movie.douban.com/top250?start={item}&filter='
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
    }
    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding
    page_source = res.text
    page_tree = etree.HTML(page_source)
    page_data = page_tree.xpath('//*[@id="content"]//*[@class="item"]/div[2]')
    i +=1
    print(f'正在抓取第{i}页')
    with open('250.csv', 'a') as f:
        for item in page_data:
            name = item.xpath('./div[1]/a/span[1]/text()')[0]
            fen = item.xpath('./div[2]/div[@class="star"]/span[2]/text()')[0]
            num = item.xpath('./div[2]/div[@class="star"]/span[4]/text()')[0]
            year = item.xpath('./div[2]/p/text()[2]')[0].split()[0]
            country = item.xpath('./div[2]/p/text()[2]')[0].split('/')[1].strip()
            type = item.xpath('./div[2]/p/text()[2]')[0].split('/')[2].strip()
            website = item.xpath('./div[1]/a/@href')[0]
            time.sleep(0.1)
            f.write(f'{name},{fen},{num},{year},{country},{type},{website}')
            f.write('\r')
    time.sleep(0.1)

 

效果展示:

标签:xpath,text,爬虫,item,豆瓣,res,div,Top250,page
From: https://www.cnblogs.com/mliu/p/16606883.html

相关文章

  • PHP爬虫(2)DOM处理
    https://www.cnblogs.com/jbexploit/p/4592527.html摘要:在PHP爬虫(1)中详细了介绍了CURL抓取HTML数据的技术。采集数据处理也是爬虫技术中非常重要的部分。处理HTML数据可......
  • 学习:python 小试验 ruquest爬虫 爬取音乐
    控制台抓包获取音乐链接不多说了   最后成功下载到本地 ......
  • 《即答力》豆瓣:6.1
    作者:[日]松浦弥太郎出版社:江苏凤凰文艺出版社副标题:年轻人的自我更新指南译者:刘欣出版年:2020-501.翻了几页就知道这是啥类型的书了。没有贬低的意思,......
  • python爬虫实例: 对指定城市kfc餐厅信息的爬取
    python爬虫实例:对指定城市kfc餐厅信息的爬取要求:爬取指定kfc餐厅数据kfc餐厅查询的url:http://www.kfc.com.cn/kfccda/storelist/index.aspx分析:由于餐厅信息......
  • 搭建爬虫
     爬虫学习起来并不难,网上有很多这块的教程;但如果需要深入学习一些复杂的爬虫,就得搞懂一些算法,不断优化后,就可以编写一个牛逼的爬虫了。掌握基本的爬虫工作原理之后,先学......
  • 拼多多自动化收集数据,爬虫。pinduoduo
     {"item_type":1,"item_data":{"goods_model":{"long_thumb_url":"",......
  • windows定时任务执行python爬虫
    有一些定时爬取的操作,适合用定时任务去执行。个人单独用的项目不适合放在工作所用的服务器上,也没必要单独买个服务器,我们windows电脑本身就有这项功能。接下来是一个wi......
  • 爬虫
    爬虫之requests模块爬虫之BeautifulSoup4爬虫之selenium爬虫之Scrapy架构......
  • Python爬虫之多线程异步爬虫,非常详细
    Python爬虫之多线程爬虫在使用Python的过程中,我们可能遇到这样一个场景,需要下载某一个网站上的多个资源;例如:我们想下载豆瓣电影Top250所有的宣传图片具体代码如下......
  • Python逆向爬虫之pyquery,非常详细
    系列目录Python逆向爬虫之pyquerypyquery是一个类似jquery的python库,它实现能够在xml文档中进行jQuery查询,pyquery使用lxml解析器进行快速在xml和html文档上操作,它提供了......