首页 > 其他分享 >爬虫基础

爬虫基础

时间:2023-05-19 13:46:51浏览次数:23  
标签:url 基础 爬虫 rest content import requests

爬虫概述

爬虫
    善:不破坏被爬取的网站的资源
    恶:影响网站的正常运营(抢票,秒杀,使网站资源宕机)

爬虫的矛与盾
    反爬机制
    反反爬策略
    robots.txt协议

第一个爬虫

from urllib.request import urlopen

url = "http://www.baidu.com"

resp = urlopen(url)
content = resp.read().decode("utf-8")

# open("test.html", mode="w", encoding="utf-8").write(content)
open("test.html", mode="r", encoding="utf-8").read()

requests 模块

需要先安装requests

pip install requests

如果下载过慢,可更改源

# requests 测试
import requests

url = "http://www.baidu.com"
rest = requests.get(url)
rest.encoding = "utf-8"
print(rest.text)

get 请求

import requests

content = input("请输入您要搜索的内容:")
url = f"https://www.sogou.com/web?query={content}"

headers = {
    # 添加一个请求头信息 UA
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.39"
}

rest = requests.get(url, headers = headers)
print(rest.text)

post 请求

import requests

url = "https://fanyi.baidu.com/sug"

content = {
    "kw" : input("test")
}

rest = requests.post(url, data=content)
print(rest.json())

标签:url,基础,爬虫,rest,content,import,requests
From: https://www.cnblogs.com/sroot/p/17414855.html

相关文章

  • 01_Python 基础
    01_Python基础Python解释器&pycharm安装注释#变量常量input#输入框if#条件判断while#循环关键字continuebreak关键字pass01.for循环for变量in可迭代的东西:代码把可迭代的东西中的每一项内容拿出来,挨个的赋值给变量,每一次赋值都要执行......
  • “Linux 基础入门(新版)”实验报告 Linux 目录结构及文件基本操作
    Linux目录结构及文件基本操作来Linux目录结构UNIX是以目录为主的,Linux也继承了这一优良特性。Linux是以树形目录结构的形式来构建整个系统的,可以理解为树形目录是一个用户可操作系统的骨架。虽然本质上无论是目录结构还是操作系统内核都是存储在磁盘上的,但从逻辑上来说Linux......
  • Linux 基础入门(新版)”实验报告 基本概念及操作
    实验2基本概念及操作1.Linux桌面环境介绍UNIX/Linux本身是没有图形界面的,UNIX/Linux发行版上看到的图形界面实际都只是运行在Linux系统之上的一套软件。现在这套软件为xorg(X.Org),而这套软件又是通过X窗口系统(XWindowSystem,也常被称为X11或X)实现的,X本身只是工具包及......
  • “Linux 基础入门(新版)”实验报告 用户及文件权限管理
    用户及文件权限管理1.查看用户$whoami或者$whomomlikes输出的第一列表示打开当前伪终端的用户的用户名,第二列的pts/0中pts表示伪终端,pts/0后面那个数字就表示打开的伪终端序号,你可以尝试再打开一个终端,然后在里面输入whoami,看第二列是不是就变成pts/1了,第......
  • MySQL学习基础篇Day4
    CREATEUSER'用户名'@'主机名'IDENTIFIEDBY'密码';2.7DCLDCL英文全称是DataControlLanguage(数据控制语言),用来管理数据库用户、控制数据库的访问权限。2.7.1管理用户1).查询用户select*frommysql.user; 查询的结果如下:其中Host代表当前用户访问的主机,......
  • html基础
    一、div样式1、style设置css样式(扩展了解style标签)2、align设置div盒子内的内容居中、居左、居右3、id 引人外部对应#(井号)选择符号样式4、class 引人外部对应.(句号)选择符号样式5、title设置div(标题)鼠标经过时显示文字(扩展了解 title标签)3、id案例<!DOCTYPEhtml......
  • #yyds干货盘点#灵活的 Node.js 多功能爬虫库 —— x-crawl
    x-crawlx-crawl是一个灵活的Node.js多功能爬虫库。灵活的使用方式和众多的功能可以帮助您快速、安全、稳定地爬取页面、接口以及文件。如果你也喜欢x-crawl,可以给 x-crawl存储库 点个star支持一下,感谢大家的支持!GitHub:https://github.com/coder-hxl/x-crawl特征异步同步......
  • Python爬虫学习之Requests库
    Requests请求库Requests是⽤Python语⾔编写,基于urllib,采⽤Apache2Licensed开源协议的HTTP库。它⽐urllib更加⽅便,可以节约我们⼤量的⼯作,完全满⾜HTTP测试需求。⼀句话——Python实现的简单易⽤的HTTP库1.了解requests库requests库的介绍requests是一个优雅而简单的Py......
  • Python的基础语法“四” 数据类型内置方法
    数据类型内置方法1.整型1.语法: int()2.作用: 将括号内数据转化为整型还可以进行进制转换2.1、我们常见的进制有哪些?#常见的进制数:二进制、八进制、十进制、十六进制(ABCDEF)#二进制和十进制之间转换#十进制转二进制:除2取余法#......
  • MySQL学习基础篇Day3
    2.6.4聚合函数1).介绍将一列数据作为一个整体,进行纵向计算。2).常见的聚合函数函数功能count统计数量max最大值min最小值avg平均值sum求和3).语法seclect聚合函数(字段列表)from表名; 案例:A.统计该企业员工......