首页 > 其他分享 >爬虫

爬虫

时间:2024-04-26 20:37:43浏览次数:18  
标签:请求 get 爬虫 headers requests data 页面

requests

# 导入requests模块
import requests 

# 尝试向baidu发起请求 ,获得来命名为r的response对象
r = requests.get('https://www.baidu.com/')  

# 返回请求状态码,200即为请求成功
print(r.status_code)

# 返回页面代码
print(r.text)

# 对于特定类型请求,如Ajax请求返回的json数据
print(r.json())

# 添加headers的get请求
headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit'}
r = requests.get('https://www.baidu.com/', headers=headers)

# 添加headers的post请求
data = {'users': 'abc', 'password': '123'}
r = requests.post('https://www.weibo.com', data=data, headers=headers)

很多时候等于需要登录的站点我们可能需要保持一个会话,不然每次请求都先登录一遍效率太低,在requests里面一样很简单;

# 保持会话
# 新建一个session对象
sess = requests.session()
# 先完成登录
sess.post('maybe a login url', data=data, headers=headers)
# 然后再在这个会话下去访问其他的网址
sess.get('other urls')

beautifulsoup

当我们通过requests获取到整个页面的html5代码之后,我们还得进一步处理,因为我们需要的往往只是整个页面上的一小部分数据,所以我们需要对页面代码html5解析然后筛选提取出我们想要对数据,这时候beautifulsoup便派上用场了。
beautifulsoup之后通过标签+属性的方式来进行定位,譬如说我们想要百度的logo,我们查看页面的html5代码,我们可以发现logo图片是在一个div的标签下,然后class=index-logo-srcnew这个属性下。

百度

标签:请求,get,爬虫,headers,requests,data,页面
From: https://www.cnblogs.com/Lctrl/p/18160801

相关文章

  • 爬虫 1(入门基础)
    爬虫1(入门基础)一、什么是爬虫通过编写代码,模拟正常用户使用浏览器的过程,使其能够在互联网自动进行数据抓取二、HTTP协议三、URL是什么URL:资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法四、Header请求头五、请求头参数的含义六、req......
  • 爬虫2(页面解析和数据提取)
    爬虫2(页面解析和数据提取)处理HTML文件,常用Xpath,先将HTML文件转换成XML文档,然后用Xpath查找HTML节点或元素。一、HTML与XML二、XPath1、XPath路径表达式三、Lxml库html=etree.HTML(text)#将字符串转换成HTML格式#print(etree.tostring(html))#补全HTMLres......
  • 爬虫 第二篇 纵观
    继上篇文章采集图片后,有朋友问采集就这么简单吗?当然NoNoNo!!!!获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......对UA的检......
  • 爬虫js逆向(python调用js学习)
    首先介绍pyexecjs的使用PyExecJs是一个python库,用于在Python环境中执行javaScript代码。它实际上是对Execs库的Python封装,Execls本身是一个通用的JavaScript运行环境的抽象层。使用PyExecJs,你可以在Python中执行JavaScript代码,而无需启动一个完整的JavaScript解释器......
  • 股票数据爬虫
    东方财富网-数据中心——爬虫项目0x00起因MaMa看到别人有个软件,可以直接把一个网站上的数据全部爬进一个Excel里边,但是那个人不给这个软件,所以她怂恿我写一个。。。0x01需求千股千评_数据中心_东方财富网(eastmoney.com)对于里边的00~60开头的股票,把股票代码、涨......
  • python爬虫—学习笔记-4
    课堂内容:删除原导出文件的venv,pycham打开此文夹,重新创建本地虚拟编译器。安装依赖库,打开pycham终端输入pipinstall-ryilaiku.txt,安装依赖库中的库。继续安装bs4、lxml库,命令为:pipinstallbs4和pipinstalllxml。安装好后,pycham来到spiders目录下,新建Python......
  • 爬虫爬取网站
    1.建数据库product表和product_data表CREATETABLEproduct(idINTAUTO_INCREMENTPRIMARYKEY,nameVARCHAR(255)NOTNULL,urlVARCHAR(255)NOTNULL);CREATETABLEproduct_data(idINTAUTO_INCREMENTPRIMARYKEY,product_idINT,pr......
  • 这个网络爬虫代码,拿到数据之后如何存到csv文件中去?
    大家好,我是皮皮。一、前言还是昨天的那个网络爬虫问题,大佬们,帮忙看看这个网络爬虫代码怎么修改?那个粉丝说自己不熟悉pandas,用pandas做的爬虫,虽然简洁,但是自己不习惯,想要在他自己的代码基础上进行修改,获取数据的代码已经写好了,就差存储到csv中去了。他的原始代码如下:importreq......
  • Python-Web-爬虫秘籍(三)
    PythonWeb爬虫秘籍(三)原文:zh.annas-archive.org/md5/6ba628f13aabe820a089a16eaa190089译者:飞龙协议:CCBY-NC-SA4.0第七章:执行词形还原如何做一些过程,比如我们将使用的过程,需要额外下载它们用于执行各种分析的各种数据集。可以通过执行以下操作来下载它们:安装NLTK......
  • bs4爬虫解析
    记录使用bs4解析网页的基本方法,,完整使用文档可见bs4使用文档安装bs4pipinstallbs4创建beautifulSoup对象frombs4importBeautifulSoupsoup=BeautifulSoup(open("index.html"))soup=BeautifulSoup("<html>data</html>")soup=BeautiFulSouo(res)可以传入字符串,......