python爬虫从0到1 -ajax的get请求进阶

时间：2022-10-17 20:07:28浏览次数：49

标签：20 get python movie request content start ajax page

前面说到获得了第一页的数据。而我们要获得后面的数据时，它们的url地址并不一样。详见下图：

> 第一页网址https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&
> page_limit=20&page_start=0
>
> 第二页网址https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&
> page_limit=20&page_start=20
>
> 第三页网址https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&
> page_limit=20&page_start=40
>
> 当page为 1 2 3 4时
> page_start为 0 20 40 60
>
> 则可以找到规律 page_limit = 20 不变，而 page_start = (page-1) * 20

在这里找到规律之后我们就可以开始，下面附上源码：

import urllib.request
import urllib.parse

#定制请求对象
def get_request(page):
url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&'
data ={
'page_limit':'20',
'page_start':(page-1)*20
}
data = urllib.parse.urlencode(data)
url = url + data
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'}
request = urllib.request.Request(url = url ,headers = headers)
return request

#返回响应数据
def get_response(request):
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
return content

#将数据下载到本地
def download(page,content):
with open('豆瓣电影排行榜' + str(page) + '.json' ,'w' ,encoding=('utf-8')) as fp:
fp.write(content)

#通常表示程序的入口
if __ name__ == '__ main__':
star_page = int(input('请输入起始页：'))
end_page = int(input('请输入结束页：'))
for page in range(star_page,end_page+1):

#对每一页都进行请求对象的定制
request = get_request(page)
#返回响应数据
content = get_response(request)
#将数据下载到本地
download(page,content)

print("保存完毕")

有不懂或者不足的地方欢迎在评论区提出，感谢大家支持！！

标签：20,get,python,movie,request,content,start,ajax,page
From： https://blog.51cto.com/u_15831459/5764123

python数据分析基础005 -pandas详解_pandas入门这一篇就足够了
文章目录......
python 案例1：可视化图表，前言知识
1.开发过程中使用到了百度一个包，是一个可视化的框架：pyecharts2.json什么是json●JSON是一-种轻量级的数据交互格式。可以按照JSON指定的格式去组织和封装数据●JSON......
Python缩进规则（包含快捷键）
和其它程序设计语言（如 Java、C语言）采用大括号“{}”分隔代码块不同，Python 采用代码缩进和冒号（:）来区分代码块之间的层次。在Python中，对于类定义、函数定义、流程控制......
PyCharm下载和安装教程（包含配置Python解释器）
PyCharm是JetBrains公司（www.jetbrains.com）研发，用于开发 Python 的IDE开发工具。图1所示为JetBrains公司开发的多款开发工具，其中很多工具都好评如潮，这些工具可以......
Python注释（多行注释和单行注释）用法详解
注释（Comments）用来向用户提示或解释某些代码的作用和功能，它可以出现在代码中的任何位置。Python 解释器在执行代码时会忽略注释，不做任何处理，就好像它不存在一样。在调试（Deb......
Python能干什么，Python的应用领域
Python 作为一种功能强大的编程语言，因其简单易学而受到很多开发者的青睐。那么，Python的应用领域有哪些呢？Python有着非广泛的应用，几乎所有大中型互联网公司都在使用Pyth......
Python学习路程——Day16
Python学习路程——Day16异常常见类型'''SyntaxErrorNameErrorIndexErrorKeyErrorIndentationError......'''1、SyntaxError三种SyntaxError：invalidsy......
Windows安装Python（图解）
在Windows上安装 Python 和安装普通软件一样简单，下载安装包以后猛击“下一步”即可。Python安装包下载地址：https://www.python.org/downloads/打开该链接，可以看到有两......
python数据分析基础004 -numpy读取数据以及切片，索引的使用
......
python数据分析基础006 -利用pandas带你玩转excel表格（上篇）
文章要点......

python爬虫从0到1 -ajax的get请求进阶

相关文章

赞助商

阅读排行