爬虫基础

爬虫基础

时间：2023-05-19 13:46:51浏览次数：30

标签：url 基础爬虫 rest content import requests

爬虫概述

爬虫
    善：不破坏被爬取的网站的资源
    恶：影响网站的正常运营（抢票，秒杀，使网站资源宕机）

爬虫的矛与盾
    反爬机制
    反反爬策略
    robots.txt协议

第一个爬虫

from urllib.request import urlopen

url = "http://www.baidu.com"

resp = urlopen(url)
content = resp.read().decode("utf-8")

# open("test.html", mode="w", encoding="utf-8").write(content)
open("test.html", mode="r", encoding="utf-8").read()

requests 模块

需要先安装requests

pip install requests

如果下载过慢，可更改源

# requests 测试
import requests

url = "http://www.baidu.com"
rest = requests.get(url)
rest.encoding = "utf-8"
print(rest.text)

get 请求

import requests

content = input("请输入您要搜索的内容：")
url = f"https://www.sogou.com/web?query={content}"

headers = {
    # 添加一个请求头信息 UA
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.39"
}

rest = requests.get(url, headers = headers)
print(rest.text)

post 请求

import requests

url = "https://fanyi.baidu.com/sug"

content = {
    "kw" : input("test")
}

rest = requests.post(url, data=content)
print(rest.json())

标签：url,基础,爬虫,rest,content,import,requests
From： https://www.cnblogs.com/sroot/p/17414855.html

01_Python 基础
01_Python基础Python解释器&pycharm安装注释#变量常量input#输入框if#条件判断while#循环关键字continuebreak关键字pass01.for循环for变量in可迭代的东西:代码把可迭代的东西中的每一项内容拿出来，挨个的赋值给变量，每一次赋值都要执行......
“Linux 基础入门（新版）”实验报告 Linux 目录结构及文件基本操作
Linux目录结构及文件基本操作来Linux目录结构UNIX是以目录为主的，Linux也继承了这一优良特性。Linux是以树形目录结构的形式来构建整个系统的，可以理解为树形目录是一个用户可操作系统的骨架。虽然本质上无论是目录结构还是操作系统内核都是存储在磁盘上的，但从逻辑上来说Linux......
Linux 基础入门（新版）”实验报告基本概念及操作
实验2基本概念及操作1.Linux桌面环境介绍UNIX/Linux本身是没有图形界面的，UNIX/Linux发行版上看到的图形界面实际都只是运行在Linux系统之上的一套软件。现在这套软件为xorg（X.Org），而这套软件又是通过X窗口系统（XWindowSystem，也常被称为X11或X）实现的，X本身只是工具包及......
“Linux 基础入门（新版）”实验报告用户及文件权限管理
用户及文件权限管理1.查看用户$whoami或者$whomomlikes输出的第一列表示打开当前伪终端的用户的用户名,第二列的pts/0中pts表示伪终端，pts/0后面那个数字就表示打开的伪终端序号，你可以尝试再打开一个终端，然后在里面输入whoami，看第二列是不是就变成pts/1了，第......
MySQL学习基础篇Day4
CREATEUSER'用户名'@'主机名'IDENTIFIEDBY'密码';2.7DCLDCL英文全称是DataControlLanguage(数据控制语言)，用来管理数据库用户、控制数据库的访问权限。2.7.1管理用户1).查询用户select*frommysql.user; 查询的结果如下:其中Host代表当前用户访问的主机,......
html基础
一、div样式1、style设置css样式(扩展了解style标签)2、align设置div盒子内的内容居中、居左、居右3、id 引人外部对应#（井号）选择符号样式4、class 引人外部对应.（句号）选择符号样式5、title设置div（标题）鼠标经过时显示文字（扩展了解 title标签）3、id案例<!DOCTYPEhtml......
#yyds干货盘点#灵活的 Node.js 多功能爬虫库 —— x-crawl
x-crawlx-crawl是一个灵活的Node.js多功能爬虫库。灵活的使用方式和众多的功能可以帮助您快速、安全、稳定地爬取页面、接口以及文件。如果你也喜欢x-crawl，可以给 x-crawl存储库点个star支持一下，感谢大家的支持！GitHub：https://github.com/coder-hxl/x-crawl特征异步同步......
Python爬虫学习之Requests库
Requests请求库Requests是⽤Python语⾔编写，基于urllib，采⽤Apache2Licensed开源协议的HTTP库。它⽐urllib更加⽅便，可以节约我们⼤量的⼯作，完全满⾜HTTP测试需求。⼀句话——Python实现的简单易⽤的HTTP库1.了解requests库requests库的介绍requests是一个优雅而简单的Py......
Python的基础语法“四” 数据类型内置方法
数据类型内置方法1.整型1.语法： int()2.作用：将括号内数据转化为整型还可以进行进制转换2.1、我们常见的进制有哪些？#常见的进制数：二进制、八进制、十进制、十六进制(ABCDEF)#二进制和十进制之间转换#十进制转二进制：除2取余法#......
MySQL学习基础篇Day3
2.6.4聚合函数1).介绍将一列数据作为一个整体，进行纵向计算。2).常见的聚合函数函数功能count统计数量max最大值min最小值avg平均值sum求和3).语法seclect聚合函数（字段列表）from表名；案例：A.统计该企业员工......

爬虫概述

第一个爬虫

requests 模块

get 请求

post 请求

相关文章

赞助商

阅读排行