首页 > 编程语言 >python crawler 入门学习 ---初爬豆瓣

python crawler 入门学习 ---初爬豆瓣

时间:2022-10-27 19:25:32浏览次数:47  
标签:get python resp --- url 点击 豆瓣 crawler

#进入豆瓣电影网站,点击排行榜、选择喜剧分类

 

按下F12进入检查界面,点击Network(网络)、重新加载网站、点击typerank文件、选择XHR (XMLHttpRequest(简称xhr),是浏览器提供的JS对象,通过它可以请求到服务器上的数据资源。) 在preview中找到齐全的top文件、点击headers(标头),观察请求URL、观察请求方法(这里为get)、查看字符串参数

 

 

 

 

 

 

python代码:

import requests

url = "https://movie.douban.com/j/chart/top_list"

param = {
    "type": "24",
    "interval_id": "100:90",
    "action":"",
    "start": "0",#递增抓取从0~开始(加循环)
    "limit": "20",
}

dic = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.52"
} #存在反扒所以需要修改代理(Agent)
resp = requests.get(url=url, params=param, headers=dic)#请求方法是get所以使用params
print(resp.json())#打印json

resp.close()#记得关闭resp

 

标签:get,python,resp,---,url,点击,豆瓣,crawler
From: https://www.cnblogs.com/slowlydance2me/p/16833402.html

相关文章

  • Linux常用命令及使用技巧(第五节课线上课程shell简单入门与系统管理与维护介绍)-转换
    Linux常用命令及使用技巧课程学习安排一、shell基础入门与语法分析二、系统管理与维护命令三、文件管理与编辑命令四、压缩与解压缩命令五、磁盘管理与维护命令六、网络设......
  • 转帖-我对测试工作的一些认识
    从大专毕业后,慢慢过去了三年,不知道自己要干什么,要到哪里去,没有目标的活着。但是现在也在慢慢填充眼界和开阔自己的视野,看看更多人的方法,学习思路,以及对待人生的见解。争取......
  • python(hashlib模块,subprocess模块,logging模块)
    今日内容概要hashlib加密模块subprocess模块logging模块软件开发主要流程hashlib加密模块1.什么是加密? 将明文数据处理成密文数据,让人无法看懂2.为什么要加密? ......
  • python模块之hashlib、subprocess
    今日内容概要hashlib加密模块subprocess模块logging日志模块软件开发主要流程今日内容详细hashlib加密模块1.何为加密 将明文数据处理成密文数据让人无法看......
  • python基础:hashilib加密模块
    目录hashilib加密模块1加密的含义简介2加密算法基本操作3加密补充说明(hashlib的特点)4加密操作的用处5优秀hash算法的特性hashilib加密模块hashlib是一个提供了......
  • python模块之日志模块
    logging日志模块1.如何理解日志 简单的理解为是记录行为举止的操作(历史史官)2.日志的级别 五种级别3.日志模块要求 代码无需掌握但是得会CV并稍作修改importlogg......
  • Codeforces Round #673 (Div. 2) C. k-Amazing Numbers
    题面Youaregivenanarrayaconsistingofnintegersnumberedfrom1ton.Let’sdefinethek-amazingnumberofthearrayastheminimumnumberthatoccurs......
  • Codeforces Round #828 (Div. 3) A-F
    比赛链接A题解知识点:贪心,模拟。遇到没用过的数字就给个字母,遇到用过的数字就对照字母是否一致。时间复杂度\(O(n)\)空间复杂度\(O(n)\)代码#include<bits/stdc+......
  • python基础:subprocess子进程模块
    子进程模块subprocess模块模拟操作系统,执行命令并获取结果subprocess模块允许我们启动一个新进程,并连接到它们的输入/输出/错误管道,从而获取返回值。importsubproce......
  • 前端学习笔记-响应式设计-20221027
    HTML响应式Web设计1.定义:能够以可变尺寸传递网页。RWP(ResponsiveWebDesign),对于平板和移动设备是必须的。响应式网页设计基于流动布局(FluidGrid)技术,有效解决......