首页 > 编程语言 >Python爬虫--1

Python爬虫--1

时间:2024-03-18 20:22:49浏览次数:30  
标签:请求 Python 爬虫 -- url 版本 PyCharm requests

Python爬虫小组:255、229、218、219

一.安装软件

软件名称:PyCharm
可以到PyCharm官网下载免费的Community(社区)版本的PyCharm,这个版本虽然不及收费的Professional(专业)版本的PyCharm功能强大,但对于一般应用足够了。(书上抄的)

二.匹配数据

在根目录上右击,新建一个目录,再在此目录里新建一份Python文件

1.发送请求,获取响应

顺序:导入库→地址→发送请求→获取响应
点开Python文件
首先,导入requests库,(呈现灰色状态时是还未引用)

输入requests库下面有红色波浪线,需要去下载
文件中找到设置

找到“+”添加

搜索requests,安装软件

注意urllib3的版本,安装reputes可能会出现urllib3 v2.0 only supports OpenSSL 1.1.1+,这是因为urllb3版本过高,所以我们需要把这个换个版本

换成1.26.18版本,安装

输入需要的网址发送请求→获取响应

  • import 导入
  • url 网站地址
  • response 响应
  • requests 请求

    我们试运行一下,运行注意换成当前文件运行

    发现出现乱码,是编码格式的问题,可以使用UA欺骗
  • UA欺骗:指的是User-Agent,这是一个请求头信息,是请求载体的身份标识,可以将此伪装成某个浏览器
  • headers是当前发起载体的身份标识
  • 字典:{"键":"值"}
    寻找此网站的User-Agent,回到浏览器,按F12,打开开发者工具,找网络

    刷新一下网站,找到第一个,点标头,划到最底下

    复制到刚刚的字典里,注意字典格式,还有指定要响应的关键字
点击查看代码
import requests    #导入requests

url="https://www.baidu.com/"   #网站地址

#UA欺骗
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0"}
response=requests.get(url=url,headers=headers)    #请求响应此url
print(response.text)

标签:请求,Python,爬虫,--,url,版本,PyCharm,requests
From: https://www.cnblogs.com/Menq/p/18065781

相关文章

  • 论文查重
    gitcode地址这个作业的要求在哪里第一次项目作业这个作业的目标实现论文查重,消除警告及改进其他看完论文查重作业的相关要求之后,最开始想到的便是对比两篇文章出现关键字的字频,因此我们需要先对文章进行分词处理,处理问之后再用相似度算法进行计算1.查重论文的......
  • springboot集成redis
    1.导入spring-boot-starter-data-redis起步依赖2.在配置文件中,配置redis连接信息3.调用API(StringRedisTemplate)完成字符串的存取操作```//把token存储在redis中ValueOperations<String,String>operations=stringRedisTemplate.opsForValue();operations.set(token......
  • kodbox读取alist文件失败,问题解决过程
    让我先把相关的报错信息通过文字贴到下方,方便被检索出来出错了!(warning!)curlerrorcode=403;系统错误(explorer.editor.fileGet)explorer/editor.class.php[64]IO::fileSubstr(0,1,2)bin/data.bin[2][Linux6.2.0-35-generic/8.2.11/mysqli/1.49.10]在使用kodbbox......
  • Eplan插件 - 修改全局栅格
    前言在工作中,经常使用到窗口宏,尤其是在驱动器比较多的时候,可能一连几十页都是伺服驱动器,但是由于窗口宏是从其他地方获取而来。而窗口宏的制作者使用了过大或过小的栅格就会出现画图连接不齐的情况,那么就需要手动修改栅格的大小。在Eplan中默认修改的是当前页面的栅格。在页数很......
  • 换维扫描线
    简介一般来说,我们处理某些可以离线的问题,我们会将询问离线,然后将修改挂在左端点或右端点,然后从左往右扫描这些修改,并处理询问,数据结构记录的一般是下标\(i\)到当前走到的地方的一些信息。而换维扫描线则采取了截然相反的措施:我们将区间修改转化成差分,然后从左往右扫描序列,线段......
  • 注册Servlet的两种方式
    0.问题1.配置web.xml<servlet><servlet-name>servletTest</servlet-name><servlet-class>xxx</servlet-class><init-param><param-name>name</param-name><param-value>peter</param-value>......
  • 前端基础之HTML标签基础
    HTML简介什么是HTML站在显示文本内容的角度去看,浏览器与word的原理一样,我们可以将浏览器当成一个网页版的只读word,浏览器也必须有一套自己能识别的标记文本的规范,该规范被称为HTML,HTML全称是超文本标记语言(HyperTextMarkupLanguage)。“超文本”指的是用超链接的方法,将各种......
  • 代码随想录算法训练营第五十天| ● 123.买卖股票的最佳时机III ● 188.买卖股票的
    买卖股票的最佳时机III  题目链接:123.买卖股票的最佳时机III-力扣(LeetCode)思路:与买卖股票2的区别在于我可以买卖两次,那么dp数组的状态就从两种变成了种,即第一次持有,第一次卖出,第二次持有,第二次卖出,注意这四种状态是不会同时存在的,除此之外还有一种状态,那就是不操作。if(......
  • Java 运行时 Debug 思路
    JStack工具top使用top命令获取占用内存/CPU最高进程的pid输入大写的M按照内存排序,大写的P按照CPU排序top-Hppid使用top-Hppid可以查看该进程下,各个线程的cpu使用情况jstackpid通过top命令定位到cpu占用率较高的线程之后,接着使用jstackpid命令来查看当前j......
  • 【c++初阶】C++入门(上)
    ✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨......