爬虫概述

爬虫概述

时间：2023-03-03 09:11:18浏览次数：41

###爬虫概述

什么是爬虫？ -就是通过编写程序，让其模拟浏览上网，然后再互联网中抓取数据的过程。

  -关键词抽取：
      -模拟：浏览器就是一个纯天然最原始的一个爬虫工具
      -抓取：
          -抓取一整张的页面源码数据
          -抓取一整张页面中的局部数据

爬虫的分类： -通用爬虫：

  - 要求我们爬取一整张页面源码数据

-聚焦爬虫

  - 要求爬取一张页面中的局部的数据
      -聚焦爬虫建立再通用爬虫基础之上
     z

-增量式爬虫

  - 用来监测网站数据更新的情况，以便爬取到网站最新更新出来的数据

-分布式爬虫

  - 提高爬取效率的终极武器

反爬机制
- 是作用到门户网站中，如果网站不想让爬虫轻易取到数据，他可以制定相关的机制来阻止爬虫程序来获取数据
反反爬策略
- 是作用再爬虫程序中，通过策略破解反爬机制来获取数据

第一个反爬机制：

robots协议

一个纯文本的协议，协议中规定该网站中哪些数据可以被爬，哪些不可以被爬。

破解：

你自己主观性的不遵从该协议即可

#获取豆瓣动态数据
import requests
import json
headers ={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41'
}

url = 'https://movie.douban.com/j/chart/top_list'  #从抓包中得到该url
params = {
    'type': '5',
'interval_id': '100:90',

'start': '0',
'limit': '100',
}
response = requests.get(url=url,headers=headers,params =params)

page_test = response.json()
with open('douban.html','w',encoding='gbk') as f:
    for mave in page_test:
        f.write(mave['score'])
        f.write(mave['title'])

标签：url,爬虫,抓取,爬取,概述,数据,一整张
From： https://www.cnblogs.com/junyong11/p/17171237.html

python爬虫自动化常用库
请求库：1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来比urlli......
python爬虫-xpath基础
#准备一个html格式文档doc='''<div><ul><liclass="item-0"><ahref="https://ask.hellobi.com/link1.html">firstitem</a></li><liclas......
第一章计算机系统概述
第一章计算机系统概述一、操作系统的概念（定义）、功能和目标概念（定义）什么是操作系统功能和目标操作系统要做些什么？（一）操作系统的概念（定义）一台电脑的诞生St......
爬虫实战---爬取图片
爬虫实战---爬取图片importrequestsimportreforpageinrange(1,11):ifpage==1:url="http://www.netbian.com/meinv/index.htm"else:......
Python爬虫:原来微博上的视频下载链接在这啊
最近看了一下网页版的微博，觉得那上面的视频不错，想获取它上面的下载链接，于是就写了这篇博文。1.几个视频播放平台的下载链接的实现1.西瓜视频西瓜视频这个平台上面......
数据库系统概论—概述
数据库系统概论—基础篇(1)一、绪论1.数据库系统概述1.1数据库四个基本概念数据：描述事物的符号记录数据库(DB)：存放数据的仓库数据库管理系统(DBMS)：位于用户与操作系......
LT8911EXB-MIPI转EDP视频转换芯片功能特性及概述
LT8911EXB：MIPI®DSI/CSIBridgetoeDP 1.特性●单端口MIPI®DSI接收器◆符合D-PHY1.2、DSI1.3、CSI1.3标准◆1个时钟通道和1~4个可配置的数据通道......
软件测试用例设计的基础概述
1.测试用例的主要构成元素·测试用例的基本要素包括：测试用例编号、测试标题、重要级别、测试数据输入、操作步骤、预期结果，实际结果·测试用例是软件测试团......
VideoMAE Masked Autoencoders are Data-Efficient Learners for Self-Supervised Vid
0.前言相关资料：arxivgithub论文解读(知乎，CSDN)论文基本信息：领域：视频自监督表示学习发表时间：NeurIPS2022(2022.3.23)1.针对的问题视频存......
一个多线程爬取http://www.infobank.cn的爬虫
importrequestsfrombs4importBeautifulSoupimportreimportopenpyxlfrommultiprocessing.dummyimportPoolimporttimeimportos#从输入表格获取数据defread_exce......

相关文章

赞助商

阅读排行