爬虫 - IPS99技术分享

爬虫

时间：2024-04-26 20:37:43浏览次数：18

标签：请求 get 爬虫 headers requests data 页面

requests

官方中文文档：https://2.python-requests.org/zh_CN/latest/
requests在爬虫中一般用于来处理网络请求

# 导入requests模块
import requests 

# 尝试向baidu发起请求 ,获得来命名为r的response对象
r = requests.get('https://www.baidu.com/')  

# 返回请求状态码，200即为请求成功
print(r.status_code)

# 返回页面代码
print(r.text)

# 对于特定类型请求，如Ajax请求返回的json数据
print(r.json())

# 添加headers的get请求
headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit'}
r = requests.get('https://www.baidu.com/', headers=headers)

# 添加headers的post请求
data = {'users': 'abc', 'password': '123'}
r = requests.post('https://www.weibo.com', data=data, headers=headers)

很多时候等于需要登录的站点我们可能需要保持一个会话，不然每次请求都先登录一遍效率太低，在requests里面一样很简单；

# 保持会话
# 新建一个session对象
sess = requests.session()
# 先完成登录
sess.post('maybe a login url', data=data, headers=headers)
# 然后再在这个会话下去访问其他的网址
sess.get('other urls')

beautifulsoup

当我们通过requests获取到整个页面的html5代码之后，我们还得进一步处理，因为我们需要的往往只是整个页面上的一小部分数据，所以我们需要对页面代码html5解析然后筛选提取出我们想要对数据，这时候beautifulsoup便派上用场了。
beautifulsoup之后通过标签+属性的方式来进行定位，譬如说我们想要百度的logo，我们查看页面的html5代码，我们可以发现logo图片是在一个div的标签下，然后class=index-logo-srcnew这个属性下。

标签：请求,get,爬虫,headers,requests,data,页面
From： https://www.cnblogs.com/Lctrl/p/18160801

爬虫 1（入门基础）
爬虫1（入门基础）一、什么是爬虫通过编写代码，模拟正常用户使用浏览器的过程，使其能够在互联网自动进行数据抓取二、HTTP协议三、URL是什么URL：资源定位符，是用于完整地描述Internet上网页和其他资源的地址的一种标识方法四、Header请求头五、请求头参数的含义六、req......
爬虫2（页面解析和数据提取）
爬虫2（页面解析和数据提取）处理HTML文件，常用Xpath，先将HTML文件转换成XML文档，然后用Xpath查找HTML节点或元素。一、HTML与XML二、XPath1、XPath路径表达式三、Lxml库html=etree.HTML(text)#将字符串转换成HTML格式#print(etree.tostring(html))#补全HTMLres......
爬虫第二篇纵观
继上篇文章采集图片后，有朋友问采集就这么简单吗？当然NoNoNo!!!!获取数据的渠道多种多样，根据需求，可以从小程序、PC、h5、app、官方接口等等获取数据。当然你从别人的地方获取数据，别人哪儿能那么轻易的让你获取到数据呢！所以就出现了各种反爬！我简单总结了几种......对UA的检......
爬虫js逆向(python调用js学习)
首先介绍pyexecjs的使用PyExecJs是一个python库，用于在Python环境中执行javaScript代码。它实际上是对Execs库的Python封装，Execls本身是一个通用的JavaScript运行环境的抽象层。使用PyExecJs，你可以在Python中执行JavaScript代码，而无需启动一个完整的JavaScript解释器......
股票数据爬虫
东方财富网-数据中心——爬虫项目0x00起因MaMa看到别人有个软件，可以直接把一个网站上的数据全部爬进一个Excel里边，但是那个人不给这个软件，所以她怂恿我写一个。。。0x01需求千股千评_数据中心_东方财富网(eastmoney.com)对于里边的00~60开头的股票，把股票代码、涨......
python爬虫—学习笔记-4
课堂内容：删除原导出文件的venv，pycham打开此文夹，重新创建本地虚拟编译器。安装依赖库，打开pycham终端输入pipinstall-ryilaiku.txt,安装依赖库中的库。继续安装bs4、lxml库，命令为：pipinstallbs4和pipinstalllxml。安装好后，pycham来到spiders目录下，新建Python......
爬虫爬取网站
1.建数据库product表和product_data表CREATETABLEproduct(idINTAUTO_INCREMENTPRIMARYKEY,nameVARCHAR(255)NOTNULL,urlVARCHAR(255)NOTNULL);CREATETABLEproduct_data(idINTAUTO_INCREMENTPRIMARYKEY,product_idINT,pr......
这个网络爬虫代码，拿到数据之后如何存到csv文件中去？
大家好，我是皮皮。一、前言还是昨天的那个网络爬虫问题，大佬们，帮忙看看这个网络爬虫代码怎么修改？那个粉丝说自己不熟悉pandas，用pandas做的爬虫，虽然简洁，但是自己不习惯，想要在他自己的代码基础上进行修改，获取数据的代码已经写好了，就差存储到csv中去了。他的原始代码如下：importreq......
Python-Web-爬虫秘籍（三）
PythonWeb爬虫秘籍（三）原文：zh.annas-archive.org/md5/6ba628f13aabe820a089a16eaa190089译者：飞龙协议：CCBY-NC-SA4.0第七章：执行词形还原如何做一些过程，比如我们将使用的过程，需要额外下载它们用于执行各种分析的各种数据集。可以通过执行以下操作来下载它们：安装NLTK......
bs4爬虫解析
记录使用bs4解析网页的基本方法，，完整使用文档可见bs4使用文档安装bs4pipinstallbs4创建beautifulSoup对象frombs4importBeautifulSoupsoup=BeautifulSoup(open("index.html"))soup=BeautifulSoup("<html>data</html>")soup=BeautiFulSouo(res)可以传入字符串，......

爬虫

requests

beautifulsoup

相关文章

赞助商

阅读排行