爬取豆瓣top250

时间：2023-04-06 13:47:06浏览次数：46

标签：num name actor 爬取豆瓣 each star top250 types

import requests
from lxml import etree
import pandas as pd

num = 0
url = "https://movie.douban.com/top250?start="+str(num)+"&filter="
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/"
					   "537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"}
all_name = []
all_star = []
all_actor = []
all_types = []

while num < 250:
	resp = requests.get(url, headers=headers)
	e = etree.HTML(resp.text)
	name = e.xpath('//div[@class="hd"]/a/span[1]/text()')
	star = e.xpath('//div[@class="star"]/span[2]/text()')
	actor_type = e.xpath('//div[@class="bd"]/p[1]/text()')

	actor = actor_type[::2]
	types = actor_type[1::2]
	actor = [each.strip() for each in actor]
	actor = [each.replace("\xa0", "") for each in actor]
	types = [each.replace("\xa0", "") for each in types]
	types = [each.strip() for each in types]

	all_name.extend(name)
	all_star.extend(star)
	all_actor.extend(actor)
	all_types.extend(types)
	num += 25
	url = "https://movie.douban.com/top250?start="+str(num)+"&filter="

标签：num,name,actor,爬取,豆瓣,each,star,top250,types
From： https://www.cnblogs.com/jzm123/p/17292498.html

爬取王者荣耀皮肤并保存图片
importrequestsimporttimeimportpathlibfromlxmlimportetreeheaders={"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/108.0.0.0Safari/537.36"}url="https://pvp.qq.com......
python-爬虫-css提取-写入csv-爬取猫眼电影榜单
猫眼有一个电影榜单top100，我们将他的榜单电影数据（电影名、主演、上映时间、豆瓣评分）抓下来保存到本地的excle中本案例使用css方式提取页面数据，所以会用到以下库importtimeimportrequestsimportparsel#解析库，解析cssimportcsv#爬取的数据写入csv创建csv文件标头信息......
昨天学习了handler内容，使用代理爬取，然后我们做了电梯演讲
我们的团队项目为达梦云原生大数据平台的物流信息数据中台系统，【达梦云原生大数据平台的物流信息数据中台系统电梯演讲】：https://www.bilibili.com/video/BV1dL411S7sX/?share_source=copy_web&vd_source=b59650d02019776b8693b25978d3ff02......
爬虫实战(一)爬取静态页面数据
前言我们以一个静态网站作为案例进行练习，网站链接为:https://ssr1.scrape.center/，这个网站里面包含一些电影信息。网站首页如下图所示: 我们点击其中一部电影，会进入该电影的详情页面，如下图所示：我们需要爬取的信息为每部电影的名称、封面、类别、......
Python 爬虫模拟手机爬取听力资料
Python爬虫模拟手机爬取听力资料目录Python爬虫模拟手机爬取听力资料需求思路1使用Pyppeteer参考实现1测试模拟手机效果2爬取资源首页资源列表详情与音频以cha......
爬取院士名单以及简介
爬取院士名单以及简介续作人才及研究方向信息爬取爬虫-英飞-博客园(cnblogs.com)需求与思路需求：爬取经济管理相关国家级人才思路：1从title出发，比如中国科学......
电影数据集（豆瓣、爱奇艺、IMDB、腾讯视频、搜狐、1905）
电影数据集（豆瓣、爱奇艺、IMDB、腾讯视频、搜狐、1905）爬虫爬取豆瓣、爱奇艺、IMDB、腾讯视频、搜狐、1905网，电影数据。获取方式：微信搜索关注【靠谱杨的挨踢生活】回复【......
python 批量爬取邮箱
python批量爬取邮箱地址#coding:utf-8importrequestsimportbs4#解析网页importlxmlimportreheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win......
Quicker快速开发，简单的网页数据爬取（示例，获取天眼查指定公司基础工商数据）
前言有某个线上项目，没有接入工商接口，每次录入公司的时候，都要去天眼查、企查查或者其他公开数据平台，然后手动录入，一两个还好说，数量多了的重复操作就很烦，而且，部分数据是包含......
Python中使用requests和parsel爬取喜马拉雅电台音频
场景喜马拉雅电台：https://www.ximalaya.com/找到一步小说音频，这里以下面为例https://www.ximalaya.com/youshengshu/16411402/关注公众号霸道的程序猿获取编程相关电子书......

爬取豆瓣top250

相关文章

赞助商

阅读排行