首页 > 其他分享 >01-爬虫概述

01-爬虫概述

时间:2024-02-11 09:56:22浏览次数:29  
标签:search 01 list 爬虫 course 概述 https requests com

1. 什么是爬虫?

用代码代替人去模拟浏览器手机去执行执行某些操作。

例如:

  • 自动登录钉钉,定时打卡
  • 去91自动下载图片/视频
  • 去京东抢茅台

image-20231130181227673

3.分析&模拟

分析一个网址,用requests请求就可以实现。

3.1 请求分析

基于谷歌浏览器去分析。

3.2 模拟请求

基于requests模块发送请求。

pip3.11 install requests

案例1:花瓣网

https://huaban.com/

https://huaban.com/search?q=写真&sort=all&type=pin

案例2:腾讯课堂

https://ke.qq.com/course/list?mt=1001&quicklink=1&st=2056

res = requests.post(
    url="https://ke.qq.com/cgi-proxy/course_list/search_course_list?bkn=&r=0.0241",
    json={"mt": "1001", "st": "2056", "visitor_id": "5824118981510182", "finger_id": "c13d4a59f03ab3923748c030ff18aa58",
          "platform": 3, "source": "search", "count": 24, "need_filter_contact_labels": 1},
    headers={
        "Referer": "https://ke.qq.com/course/list?mt=1001&quicklink=1&st=2056"
    }
)

标签:search,01,list,爬虫,course,概述,https,requests,com
From: https://www.cnblogs.com/fuminer/p/18013178

相关文章

  • P5524 [Ynoi2012] NOIP2015 充满了希望 题解
    题目链接:充满了希望一开始以为是传统老题,结果看到有个交换单修操作,ODT这题试了下,应该\(fake\)了,毕竟有单修,很难保证之前的\(log\)级复杂度。有些较为智慧的解法确实不好思考,说个很简单的做法,这里没有问颜色数,而是问的颜色具体情况,那就比之前的很多题简单太多了。颜色的具体......
  • 第 7章 Python 爬虫框架 Scrapy(上)
    第7章Python爬虫框架Scrapy(上)编写爬虫可以看成行军打仗,基本的角色有两个:士兵和将军,士兵冲锋陷阵,而将军更多地是调兵遣将。框架就像一个将军,里面包含了爬虫的全部流程、异常处理和任务调度等。除了可以让我们少写一些烦琐的代码,学习框架还可以学到编程思想和提升编程能力。Pyt......
  • P8670 [蓝桥杯 2018 国 B] 矩阵求和 题解
    题目传送门前置知识欧拉函数解法欧拉反演,简单地推下式子即可。\(\begin{aligned}\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\gcd(i,j)^{2}&=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\sum\limits_{d=1}^{n}d^{2}[\gcd(i,j)=d]\\&=\sum\limits_{i=1}^{n}\sum......
  • ISO8601 week number of the year
      importdatetimedatetime.date(2023,1,1).isoweekday()defleap_year(year:int)->bool:returnyear%4==0andyear%100!=0oryear%400==0foryearinrange(2001,2101):weekday=datetime.date(year,1,1).isoweekday()......
  • NOI 2010 做题笔记
    NOI2010Day1T1能量采集观察到\((0,0)\)与\((x,y)\)连线上的整点个数正好是\(\gcd(x,y)-1\)(不包括端点),于是总能量损失即为:\[\begin{aligned}{}&\sum\limits_{T=l}^{r}f(T,c)\sum\limits_{i=0}^{n}p_iT^i\\=&\sum\limits_{i=0}^{n}p_i\sum\limits_{T......
  • P8666 [蓝桥杯 2018 省 A] 三体攻击
    这道题好像数据有问题?有些题解也会WA#include<iostream>#include<stdio.h>#include<algorithm>#include<cmath>#include<string>#include<vector>#defineFor(i,j,n)for(inti=j;i<=n;++i)usingnamespacestd;constint......
  • 第 6章 Python 应对反爬虫策略
    第6章Python应对反爬虫策略爬取一个网站的基本步骤(1)分析请求:URL规则、请求头规则、请求参数规则。(2)模拟请求:通过Requests库或urllib库来模拟请求。(3)解析数据:获取请求返回的结果,利用lxml、BeautifulSoup或正则表达式提取需要的节点数据。(4)保存数据:把解析的数据持......
  • Unity Scriptable Object概述
    如何理解ScriptableObjectScriptableObject是一种数据容器(datacontainer),通常被用来存储大量的数据,并且不依赖于类实例。换句话说,ScriptableObject本身就是一个存放数据的实例。ScriptableObject没有继承自MonoBehavior,而是继承自ScriptableObject,所以ScriptableObject不能......
  • P10013 Tree Topological Order Counting 题解
    首先题目里面写了每一个数都有权值,一般这种题只能去想求出每一个的具体方案数,那么也就是我们得求出\(h_{i,j}\)表示在所有合法拓扑序中\(a_i=j\)的方案数。一颗树的拓扑序数量是\(\dfrac{n!}{\prodsiz_i}\),相信大家都知道。因为我们需要保证这一棵树满足拓扑排序的条件,不......
  • 爬虫:豆瓣电影Top250
    感觉爬虫就是一种自动在网上收集信息的程序对豆瓣Top250的爬取,就是写一个爬虫程序,让他模仿人类行为,打开网站,找到信息,然后提取数据这段代码是使用lxml库来解析HTML,并通过XPath选择器提取数据importrequests#用于发起网络请求。fromlxmlimportetree#用于解析HTML文档,这......