python crawler 入门学习 ---初爬豆瓣

时间：2022-10-27 19:25:32浏览次数：47

标签：get python resp --- url 点击豆瓣 crawler

#进入豆瓣电影网站，点击排行榜、选择喜剧分类

按下F12进入检查界面，点击Network（网络）、重新加载网站、点击typerank文件、选择XHR （XMLHttpRequest（简称xhr），是浏览器提供的JS对象，通过它可以请求到服务器上的数据资源。）在preview中找到齐全的top文件、点击headers（标头），观察请求URL、观察请求方法（这里为get）、查看字符串参数

python代码:

import requests

url = "https://movie.douban.com/j/chart/top_list"

param = {
    "type": "24",
    "interval_id": "100:90",
    "action":"",
    "start": "0",#递增抓取从0~开始（加循环）
    "limit": "20",
}

dic = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.52"
} #存在反扒所以需要修改代理（Agent)
resp = requests.get(url=url, params=param, headers=dic)#请求方法是get所以使用params
print(resp.json())#打印json

resp.close()#记得关闭resp

标签：get,python,resp,---,url,点击,豆瓣,crawler
From： https://www.cnblogs.com/slowlydance2me/p/16833402.html

Linux常用命令及使用技巧(第五节课线上课程shell简单入门与系统管理与维护介绍)-转换
Linux常用命令及使用技巧课程学习安排一、shell基础入门与语法分析二、系统管理与维护命令三、文件管理与编辑命令四、压缩与解压缩命令五、磁盘管理与维护命令六、网络设......
转帖-我对测试工作的一些认识
从大专毕业后，慢慢过去了三年，不知道自己要干什么，要到哪里去，没有目标的活着。但是现在也在慢慢填充眼界和开阔自己的视野，看看更多人的方法，学习思路，以及对待人生的见解。争取......
python(hashlib模块,subprocess模块,logging模块)
今日内容概要hashlib加密模块subprocess模块logging模块软件开发主要流程hashlib加密模块1.什么是加密？将明文数据处理成密文数据，让人无法看懂2.为什么要加密？ ......
python模块之hashlib、subprocess
今日内容概要hashlib加密模块subprocess模块logging日志模块软件开发主要流程今日内容详细hashlib加密模块1.何为加密将明文数据处理成密文数据让人无法看......
python基础：hashilib加密模块
目录hashilib加密模块1加密的含义简介2加密算法基本操作3加密补充说明(hashlib的特点)4加密操作的用处5优秀hash算法的特性hashilib加密模块hashlib是一个提供了......
python模块之日志模块
logging日志模块1.如何理解日志简单的理解为是记录行为举止的操作(历史史官)2.日志的级别五种级别3.日志模块要求代码无需掌握但是得会CV并稍作修改importlogg......
Codeforces Round #673 (Div. 2) C. k-Amazing Numbers
题面Youaregivenanarrayaconsistingofnintegersnumberedfrom1ton.Let’sdefinethek-amazingnumberofthearrayastheminimumnumberthatoccurs......
Codeforces Round #828 (Div. 3) A-F
比赛链接A题解知识点：贪心，模拟。遇到没用过的数字就给个字母，遇到用过的数字就对照字母是否一致。时间复杂度\(O(n)\)空间复杂度\(O(n)\)代码#include<bits/stdc+......
python基础：subprocess子进程模块
子进程模块subprocess模块模拟操作系统，执行命令并获取结果subprocess模块允许我们启动一个新进程，并连接到它们的输入/输出/错误管道，从而获取返回值。importsubproce......
前端学习笔记-响应式设计-20221027
HTML响应式Web设计1.定义：能够以可变尺寸传递网页。RWP(ResponsiveWebDesign),对于平板和移动设备是必须的。响应式网页设计基于流动布局(FluidGrid)技术,有效解决......

python crawler 入门学习 ---初爬豆瓣

相关文章

赞助商

阅读排行