爬虫urllib库（上）

时间：2023-03-18 22:00:54浏览次数：33

Urllib

1.什么是互联网爬虫？

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的数据。

2.爬虫核心?

1.爬取网页：爬取整个网页 包含了网页中所有得内容
2.解析数据：将网页中你得到的数据 进行解析
3.难点：爬虫和反爬虫之间的博弈

3.爬虫的用途？

数据分析/人工数据集社交软件冷启动舆情监控

4.爬虫的分类

1.通用爬虫：

实例

百度、360、google、sougou等搜索引擎‐‐‐伯乐在线

功能

访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务

robots协议

一个约定俗成的协议，添加robots.txt文件，来说明本网站哪些内容不可以被抓取，起不到限制作用自己写的爬虫无需遵守

网站排名(SEO)

根据pagerank算法值进行排名（参考个网站流量、点击率等指标）
百度竞价排名

缺点

1. 抓取的数据大多是无用的
2.  不能根据用户的需求来精准获取数据

2.聚焦爬虫

功能

根据需求，实现爬虫程序，抓取需要的数据

设计思路

1.确定要爬取的url 如何获取Url

2.模拟浏览器通过http协议访问url，获取服务器返回的html代码如何访问

3.解析html字符串（根据一定规则提取需要的数据）

5.反爬手段

1.User‐Agent：
	User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版
本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
2.代理IP
	西次代理
	快代理
	什么是高匿名、匿名和透明代理？它们有什么区别？
		1.使用透明代理，对方服务器可以知道你使用了代理，并且也知道你的真实IP。
		2.使用匿名代理，对方服务器可以知道你使用了代理，但不知道你的真实IP。
		3.使用高匿名代理，对方服务器不知道你使用了代理，更不知道你的真实IP。
3.验证码访问
	打码平台
	云打码平台
	超级
标签：浏览器,抓取,爬虫,urllib,代理,网页,数据	

From： https://blog.51cto.com/u_15977171/6129827

008爬虫之短短20行代码下载周杰伦所有歌曲
今天废话不多说直接上代码。下载周杰伦所有歌曲。#下载周杰伦歌曲importrequestsimportreforiinrange(36):url=f"http://search.kuwo.cn/r.s?all=%E5%91......
使用python爬虫爬取链家潍坊市二手房项目
使用python爬虫爬取链家潍坊市二手房项目需求分析需要将潍坊市各县市区页面所展示的二手房信息按要求爬取下来，同时保存到本地。流程设计明确目标网站URL（https://wf.l......
Python爬虫采集商品评价信息--京东
1.数据采集逻辑在进行数据采集之前，明确哪些数据为所需，制定数据Schema为爬取工作做出要求，并根据数据Schema制定出有针对性的爬取方案和采集逻辑。 2.数据Schema3.......
爬虫：requests高级用法、代理池搭建、爬取某视频网站、爬取新闻
目录一、requests高级用法1.0解析json格式数据1.1ssl认证(了解)1.2使用代理（重要）1.3超时设置1.4异常处理1.5上传文件二、代理池搭建2.1代理池介绍2.2搭建步骤2.3使......
爬虫：爬虫介绍、request模块介绍、request发送get请求、request携带参数、url的编码解
目录一、爬虫介绍1、爬虫是什么？2、爬虫的基本流程：3、我们要学习的内容二、request模块介绍三、request发送get请求四、request携带参数五、url的编码解码六、请求携带请求......
爬虫----day03（）
昨日回顾#1request高级用法 -解析josn：发http的请求，返回的数据，可能是xml格式，json格式 request.get().json()-ssl认证 -http和https的区别 -ht......
爬虫学习08之scrapy框架
为什么要学习scrapy爬虫框架安装scrapy1.安装pywin32--MicrosoftWindows的Python扩展提供对大部分Win32API的访问，创建和使用COM对象的能力以及Pythonwin环境；--不......
爬虫相关 https与http区别、bs4模块遍历文档树、搜索文档树、find的其他参数、css选
http与https的区别http和https的区别https=http+ssl/tslhttp版本区别0.9：底层基于tcp，每次http请求，都是建立一个tcp连接，三次握手，请求结束需要......
爬虫，部署介绍，文档树，bs4搜索文档树，css选择器，selenium基本使用，无界面浏览器，selenium其他
内容回顾requests高级用法解析json：发送http请求，返回的数据，可能是xml格式，json格式，如果是json则可以直接调用json方法进行转换requests.get().jsonssl认证 http和htt......
第一次接触爬虫——当当网好评榜TOP500
学习使用python爬虫获得当当网好评榜TOP5001、需要用到的库requests；re；json；2、前置知识一点点前端知识：调用浏览器的开发者工具；re模块的正则表达式；3、思路通过......