首页 > 其他分享 >爬虫概述

爬虫概述

时间:2023-03-03 09:11:18浏览次数:35  
标签:url 爬虫 抓取 爬取 概述 数据 一整张

###爬虫概述

  • 什么是爬虫? -就是通过编写程序,让其模拟浏览上网,然后再互联网中抓取数据的过程。
      -关键词抽取:
          -模拟:浏览器就是一个纯天然最原始的一个爬虫工具
          -抓取:
              -抓取一整张的页面源码数据
              -抓取一整张页面中的局部数据
  • 爬虫的分类: -通用爬虫:
      - 要求我们爬取一整张页面源码数据
    -聚焦爬虫
      - 要求爬取一张页面中的局部的数据
          -聚焦爬虫建立再通用爬虫基础之上
         z
    -增量式爬虫
      - 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据
    -分布式爬虫
      - 提高爬取效率的终极武器
  • 反爬机制
    • 是作用到门户网站中,如果网站不想让爬虫轻易取到数据,他可以制定相关的机制来阻止爬虫程序来获取数据
  • 反反爬策略
    • 是作用再爬虫程序中,通过策略破解反爬机制来获取数据
  • 第一个反爬机制:
    • robots协议
      • 一个纯文本的协议,协议中规定该网站中哪些数据可以被爬,哪些不可以被爬。
      • 破解:
        • 你自己主观性的不遵从该协议即可
          #获取豆瓣动态数据
          import requests
          import json
          headers ={
              'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41'
          }
          
          url = 'https://movie.douban.com/j/chart/top_list'  #从抓包中得到该url
          params = {
              'type': '5',
          'interval_id': '100:90',
          
          'start': '0',
          'limit': '100',
          }
          response = requests.get(url=url,headers=headers,params =params)
          
          page_test = response.json()
          with open('douban.html','w',encoding='gbk') as f:
              for mave in page_test:
                  f.write(mave['score'])
                  f.write(mave['title'])
            
            

           

标签:url,爬虫,抓取,爬取,概述,数据,一整张
From: https://www.cnblogs.com/junyong11/p/17171237.html

相关文章

  • python爬虫自动化常用库
    请求库:1、urllib:urllib库是Python3自带的库(Python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。2、requests:requests属于第三方库,使用起来比urlli......
  • python爬虫-xpath基础
    #准备一个html格式文档doc='''<div><ul><liclass="item-0"><ahref="https://ask.hellobi.com/link1.html">firstitem</a></li><liclas......
  • 第一章 计算机系统概述
    第一章计算机系统概述一、操作系统的概念(定义)、功能和目标概念(定义)什么是操作系统功能和目标操作系统要做些什么?(一)操作系统的概念(定义)一台电脑的诞生St......
  • 爬虫实战---爬取图片
    爬虫实战---爬取图片importrequestsimportreforpageinrange(1,11):ifpage==1:url="http://www.netbian.com/meinv/index.htm"else:......
  • Python爬虫:原来微博上的视频下载链接在这啊
    最近看了一下网页版的微博,觉得那上面的视频不错,想获取它上面的下载链接,于是就写了这篇博文。1.几个视频播放平台的下载链接的实现1.西瓜视频西瓜视频这个平台上面......
  • 数据库系统概论—概述
    数据库系统概论—基础篇(1)一、绪论1.数据库系统概述1.1数据库四个基本概念数据:描述事物的符号记录数据库(DB):存放数据的仓库数据库管理系统(DBMS):位于用户与操作系......
  • LT8911EXB-MIPI转EDP视频转换芯片功能特性及概述
    LT8911EXB:MIPI®DSI/CSIBridgetoeDP 1.特性●单端口MIPI®DSI接收器◆符合D-PHY1.2、DSI1.3、CSI1.3标准◆1个时钟通道和1~4个可配置的数据通道......
  • 软件测试用例设计的基础概述
    1.测试用例的主要构成元素·测试用例的基本要素包括:测试用例编号、测试标题、重要级别、测试数据输入、操作步骤、预期结果,实际结果·测试用例是软件测试团......
  • VideoMAE Masked Autoencoders are Data-Efficient Learners for Self-Supervised Vid
    0.前言相关资料:arxivgithub论文解读(知乎,CSDN)论文基本信息:领域:视频自监督表示学习发表时间:NeurIPS2022(2022.3.23)1.针对的问题视频存......
  • 一个多线程爬取http://www.infobank.cn的爬虫
    importrequestsfrombs4importBeautifulSoupimportreimportopenpyxlfrommultiprocessing.dummyimportPoolimporttimeimportos#从输入表格获取数据defread_exce......