首页 > 其他分享 >初识爬虫

初识爬虫

时间:2023-04-10 17:33:14浏览次数:33  
标签:协议 请求 get res 爬虫 headers 初识 解析

初识爬虫

一、预备知识

协议:就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协定,常见的协议有TCP/IP,SOAP协议,HTTP协议,SMTP协议等等。

HTTP协议,中文名为“超文本传输协议”,是用万维网(WWW)服务器传输超文本到本地浏览器的传送协议。

1、请求

1 请求行 -> 请求方式(get/post...) 请求url地址 协议
2 请求头 -> 放一些服务器要使用的附加信息
3
4 请求体 -> 一般放一些请求参数

请求头中最常见的一些重要内容:

  1. User-Agent:请求载体的身份标识(用啥发的请求)
  2. Referer:防盗链(这次请求是从哪个页面来的?反爬会用到)
  3. cookie:本地字符串数据信息(用户登录信息,反爬的token)

2、响应

1 状态行 -> 协议 状态码(200 302 404 500)
2 响应头 -> 放一些客户端要使用的附加信息
3
4 响应体 -> 服务器返回的真正客户端要用的内容(HTML,json)等

响应头中一些重要的内容:

  1. cookie:本地字符串数据信息(用户登录信息,反爬的token)
  2. 未知的字符串(需要经验,一般都是token字样,防止各种攻击和反爬)

注:200表示响应成功;302表示重定向;404表示URL错误;500表示服务器出错

二、设置镜像

将默认pip改为清华镜像

pip install pip -U
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

三、爬虫入门

# get请求
res = requests.get(url,headers=headers,params=params)  # headers伪装成浏览器,处理反爬;params是get请求携带的参数

# post请求
res = requests.post(url,headers=headers,data=data)  # data是提交的数据

# 拿到页面源代码,返回的是字符串
res.text

# 拿到json数据,返回的是字典
res.json()

四、浏览器抓包工具

打开浏览器,按下F12键,启用开发者模式。

image-20230318173618820

五、数据解析

常见的四种解析方式

  1. re解析
  2. bs4解析
  3. xpath解析
  4. pyquery解析

标签:协议,请求,get,res,爬虫,headers,初识,解析
From: https://www.cnblogs.com/dxmstudy/p/17303637.html

相关文章

  • HTTP代理如何解决爬虫请求受限
    网络爬虫在爬取网站的时候,经常会受到限制。当遇到这种情况,大家都会想到用HTTP代理来解决这个问题,那么HTTP代理是如何解决爬虫请求受限呢?爬虫工作任务往往比较大,需要不停地向网站发送请求,这就很容易被目标网站限制访问。如果没有HTTP代理,爬虫客户端的IP很快就会被限制请求,从......
  • Python3网络爬虫实战之爬虫框
    ScrapySplash的安装ScrapySplash是一个Scrapy中支持JavaScript渲染的工具,本节来介绍一下它的安装方式。ScrapySplash的安装分为两部分,一个是是Splash服务的安装,安装方式是通过Docker,安装之后会启动一个Splash服务,我们可以通过它的接口来实现JavaScript页面的加载。......
  • Spring Security系列教程-初识Spring Security
    前言在开始学习SpringSecurity系列教程之前,小千先带大家来了解一下SpringSecurity,看看它到底是什么,有哪些功能,有什么特点,以及它与别的同类框架相比,有什么不同,我们以后学习任何一个新技术,其实都可以遵循"3W1H"法则,这样学习起来才能更有条理。一.SpringSecurity概念首先请各位跟......
  • 关于Python爬虫的一些总结
    作为一名资深的爬虫工程师来说,把别人公开的一些合法数据通过爬虫手段实现汇总收集是一件很有成就的事情,其实这只是一种技术。初始爬虫问题:什么是爬虫?网络爬虫是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫有什么用?①网络数据采集②大数据分析③网页分析......
  • python网络爬虫
    一、爬虫的基本思路打开网页:requests/urllib找到需要的信息:标签/xpath/jsonpath/...获取和存储信息:json文档二、网页的分类1.静态网页源代码中包含需要的信息国务院办公厅关于印发"十四五"国民健康规划的通知爬取方式:直接从源代码中提取需要的信息2.动态网......
  • 爬虫最后一天,爬取到的数据存到mysql中,爬虫和下载中间件、加代理、cookie、header、se
    爬到的数据存到mysql中classFirstscrapyMySqlPipeline:defopen_spider(self,spider):print('我开了')self.conn=pymysql.connect(user='root',password="",host='127.0.0.1......
  • 什么是爬虫
    什么是爬虫伪装成浏览器与服务器进行数据交互的自动化程序我找你要,你给我给爬虫的分类通用爬虫聚焦爬虫如何伪装?User-Agent:产生请求的浏览器类型;referer:防盗链,页面跳转处,表明产生请求的网页来自于哪个URL,告诉服务器我是从哪个链接过来的Host:请求的主机名,允许多个......
  • scrapy爬虫框架(七)Extension的使用
    一、简介  Scrapy提供了一个Extension机制,可以让我们添加和扩展一些自定义的功能。利用Extension我们可以注册一些处理方法并监听Scrapy运行过程中的各个信号,做到发生某个事件时执行我们自定义的方法。  Scrapy已经内置了一些Extension,如LogStats这个Extension用于记录一些......
  • 自学Python爬虫笔记(day4)
    环境python3.9版本及以上,开发工具pycharm 今天是对requests模块的应用实战,分别是爬取豆瓣电影TOP250的基本信息和电影天堂“2023必看热片”的名称及下载地址。具体如下:'''爬取豆瓣电影TOP250的基本信息思路:1.拿到页面源代码2.编写正则,提取页面数据3.保存数据'''import......
  • python 爬虫SSL错误是怎么回事?
    今天摸鱼(划掉)看道一个问题蛮有意思的,想来展开说说:别急,解决办法是有的。1.这个错误很可能是因为你正在尝试读取一个 JSON 格式的响应,但是实际返回的却是 HTML 格式的响应。我们检查一下我们的请求是否正确,并且确保请求的 URL 返回的是 JSON 格式的数据。如果确认请求 URL ......