首页 > 其他分享 >爬取豆瓣top250

爬取豆瓣top250

时间:2023-04-06 13:47:06浏览次数:46  
标签:num name actor 爬取 豆瓣 each star top250 types

import requests
from lxml import etree
import pandas as pd

num = 0
url = "https://movie.douban.com/top250?start="+str(num)+"&filter="
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/"
					   "537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"}
all_name = []
all_star = []
all_actor = []
all_types = []

while num < 250:
	resp = requests.get(url, headers=headers)
	e = etree.HTML(resp.text)
	name = e.xpath('//div[@class="hd"]/a/span[1]/text()')
	star = e.xpath('//div[@class="star"]/span[2]/text()')
	actor_type = e.xpath('//div[@class="bd"]/p[1]/text()')

	actor = actor_type[::2]
	types = actor_type[1::2]
	actor = [each.strip() for each in actor]
	actor = [each.replace("\xa0", "") for each in actor]
	types = [each.replace("\xa0", "") for each in types]
	types = [each.strip() for each in types]

	all_name.extend(name)
	all_star.extend(star)
	all_actor.extend(actor)
	all_types.extend(types)
	num += 25
	url = "https://movie.douban.com/top250?start="+str(num)+"&filter="

标签:num,name,actor,爬取,豆瓣,each,star,top250,types
From: https://www.cnblogs.com/jzm123/p/17292498.html

相关文章

  • 爬取王者荣耀皮肤并保存图片
    importrequestsimporttimeimportpathlibfromlxmlimportetreeheaders={"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/108.0.0.0Safari/537.36"}url="https://pvp.qq.com......
  • python-爬虫-css提取-写入csv-爬取猫眼电影榜单
    猫眼有一个电影榜单top100,我们将他的榜单电影数据(电影名、主演、上映时间、豆瓣评分)抓下来保存到本地的excle中本案例使用css方式提取页面数据,所以会用到以下库importtimeimportrequestsimportparsel#解析库,解析cssimportcsv#爬取的数据写入csv创建csv文件标头信息......
  • 昨天学习了handler内容,使用代理爬取,然后我们做了电梯演讲
    我们的团队项目为达梦云原生大数据平台的物流信息数据中台系统,【达梦云原生大数据平台的物流信息数据中台系统电梯演讲】:https://www.bilibili.com/video/BV1dL411S7sX/?share_source=copy_web&vd_source=b59650d02019776b8693b25978d3ff02......
  • 爬虫实战(一)爬取静态页面数据
    前言 我们以一个静态网站作为案例进行练习,网站链接为:https://ssr1.scrape.center/,这个网站里面包含一些电影信息。网站首页如下图所示:          我们点击其中一部电影,会进入该电影的详情页面,如下图所示:我们需要爬取的信息为每部电影的名称、封面、类别、......
  • Python 爬虫 模拟手机 爬取听力资料
    Python爬虫模拟手机爬取听力资料目录Python爬虫模拟手机爬取听力资料需求思路1使用Pyppeteer参考实现1测试模拟手机效果2爬取资源首页资源列表详情与音频以cha......
  • 爬取 院士名单以及简介
    爬取院士名单以及简介续作人才及研究方向信息爬取爬虫-英飞-博客园(cnblogs.com)需求与思路需求:爬取经济管理相关国家级人才思路:1从title出发,比如中国科学......
  • 电影数据集(豆瓣、爱奇艺、IMDB、腾讯视频、搜狐、1905)
    电影数据集(豆瓣、爱奇艺、IMDB、腾讯视频、搜狐、1905)爬虫爬取豆瓣、爱奇艺、IMDB、腾讯视频、搜狐、1905网,电影数据。获取方式:微信搜索关注【靠谱杨的挨踢生活】回复【......
  • python 批量爬取邮箱
    python批量爬取邮箱地址#coding:utf-8importrequestsimportbs4#解析网页importlxmlimportreheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win......
  • Quicker快速开发,简单的网页数据爬取(示例,获取天眼查指定公司基础工商数据)
    前言有某个线上项目,没有接入工商接口,每次录入公司的时候,都要去天眼查、企查查或者其他公开数据平台,然后手动录入,一两个还好说,数量多了的重复操作就很烦,而且,部分数据是包含......
  • Python中使用requests和parsel爬取喜马拉雅电台音频
    场景喜马拉雅电台:https://www.ximalaya.com/找到一步小说音频,这里以下面为例https://www.ximalaya.com/youshengshu/16411402/关注公众号霸道的程序猿获取编程相关电子书......