1. 什么是爬虫？

用代码代替人去模拟浏览器或手机去执行执行某些操作。

例如：

自动登录钉钉，定时打卡
去91自动下载图片/视频
去京东抢茅台

3.分析&模拟

分析一个网址，用requests请求就可以实现。

3.1 请求分析

基于谷歌浏览器去分析。

3.2 模拟请求

基于requests模块发送请求。

pip3.11 install requests

案例1：花瓣网

https://huaban.com/

https://huaban.com/search?q=写真&sort=all&type=pin

案例2：腾讯课堂

https://ke.qq.com/course/list?mt=1001&quicklink=1&st=2056

res = requests.post(
    url="https://ke.qq.com/cgi-proxy/course_list/search_course_list?bkn=&r=0.0241",
    json={"mt": "1001", "st": "2056", "visitor_id": "5824118981510182", "finger_id": "c13d4a59f03ab3923748c030ff18aa58",
          "platform": 3, "source": "search", "count": 24, "need_filter_contact_labels": 1},
    headers={
        "Referer": "https://ke.qq.com/course/list?mt=1001&quicklink=1&st=2056"
    }
)

标签：search,01,list,爬虫,course,概述,https,requests,com
From： https://www.cnblogs.com/fuminer/p/18013178

P5524 [Ynoi2012] NOIP2015 充满了希望题解
题目链接：充满了希望一开始以为是传统老题，结果看到有个交换单修操作，ODT这题试了下，应该\(fake\)了，毕竟有单修，很难保证之前的\(log\)级复杂度。有些较为智慧的解法确实不好思考，说个很简单的做法，这里没有问颜色数，而是问的颜色具体情况，那就比之前的很多题简单太多了。颜色的具体......
第 7章 Python 爬虫框架 Scrapy（上）
第7章Python爬虫框架Scrapy（上）编写爬虫可以看成行军打仗，基本的角色有两个：士兵和将军，士兵冲锋陷阵，而将军更多地是调兵遣将。框架就像一个将军，里面包含了爬虫的全部流程、异常处理和任务调度等。除了可以让我们少写一些烦琐的代码，学习框架还可以学到编程思想和提升编程能力。Pyt......
P8670 [蓝桥杯 2018 国 B] 矩阵求和题解
题目传送门前置知识欧拉函数解法欧拉反演，简单地推下式子即可。\(\begin{aligned}\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\gcd(i,j)^{2}&=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\sum\limits_{d=1}^{n}d^{2}[\gcd(i,j)=d]\\&=\sum\limits_{i=1}^{n}\sum......
ISO8601 week number of the year
importdatetimedatetime.date(2023,1,1).isoweekday()defleap_year(year:int)->bool:returnyear%4==0andyear%100!=0oryear%400==0foryearinrange(2001,2101):weekday=datetime.date(year,1,1).isoweekday()......
NOI 2010 做题笔记
NOI2010Day1T1能量采集观察到\((0,0)\)与\((x,y)\)连线上的整点个数正好是\(\gcd(x,y)-1\)（不包括端点），于是总能量损失即为：\[\begin{aligned}{}&\sum\limits_{T=l}^{r}f(T,c)\sum\limits_{i=0}^{n}p_iT^i\\=&\sum\limits_{i=0}^{n}p_i\sum\limits_{T......
P8666 [蓝桥杯 2018 省 A] 三体攻击
这道题好像数据有问题？有些题解也会WA#include<iostream>#include<stdio.h>#include<algorithm>#include<cmath>#include<string>#include<vector>#defineFor(i,j,n)for(inti=j;i<=n;++i)usingnamespacestd;constint......
第 6章 Python 应对反爬虫策略
第6章Python应对反爬虫策略爬取一个网站的基本步骤（1）分析请求：URL规则、请求头规则、请求参数规则。（2）模拟请求：通过Requests库或urllib库来模拟请求。（3）解析数据：获取请求返回的结果，利用lxml、BeautifulSoup或正则表达式提取需要的节点数据。（4）保存数据：把解析的数据持......
Unity Scriptable Object概述
如何理解ScriptableObjectScriptableObject是一种数据容器（datacontainer），通常被用来存储大量的数据，并且不依赖于类实例。换句话说，ScriptableObject本身就是一个存放数据的实例。ScriptableObject没有继承自MonoBehavior，而是继承自ScriptableObject，所以ScriptableObject不能......
P10013 Tree Topological Order Counting 题解
首先题目里面写了每一个数都有权值，一般这种题只能去想求出每一个的具体方案数，那么也就是我们得求出\(h_{i,j}\)表示在所有合法拓扑序中\(a_i=j\)的方案数。一颗树的拓扑序数量是\(\dfrac{n!}{\prodsiz_i}\)，相信大家都知道。因为我们需要保证这一棵树满足拓扑排序的条件，不......
爬虫:豆瓣电影Top250
感觉爬虫就是一种自动在网上收集信息的程序对豆瓣Top250的爬取，就是写一个爬虫程序，让他模仿人类行为，打开网站，找到信息，然后提取数据这段代码是使用lxml库来解析HTML，并通过XPath选择器提取数据importrequests#用于发起网络请求。fromlxmlimportetree#用于解析HTML文档,这......

01-爬虫概述

1. 什么是爬虫？

3.分析&模拟

3.1 请求分析

3.2 模拟请求

案例1：花瓣网

案例2：腾讯课堂

相关文章

赞助商

阅读排行