首页 > 编程语言 >光环大数据python爬虫

光环大数据python爬虫

时间:2023-08-04 17:06:32浏览次数:35  
标签:网页 批量 python 误伤 爬虫 光环 com


一、全面的爬虫工程师的技能单

    1、python编程语言基础
    2、HTTP协议(处理响应, )
    3、html,css,javascript基本web技能
    4、mysql/mongodb/redis等存储系统
    5、urllib/requests/scrapy/pyspider  用来模拟浏览器发起HTTP请求的组件
    6、抓包工具和网页分析工具(正则,bs4,xpath,selenuim 异步请求,模拟登陆,最难的验证码(机器学习), 反反爬虫)
    7、json/csv/db

    html  xml   半结构化

 

二、Python3.x教程

    廖雪峰Python3教程(文档):http://www.liaoxuefeng.com/
    菜鸟教程Python3教程(文档):http://www.runoob.com/python3/python3-tutorial.html

 

三、python基础内容点

    python编程语言简单介绍(产生背景,优缺点,流行度)
    python的开发环境搭建(linux,windows,python,pycharm)
    python的hello world
    python关键字查看
    python的变量定义
    python的数据类型(Number String List Tuple Set Dict)
    python的注释(单行和段落)
    python的输入输出(print 和 input)
    python数据类型转换/常用数值运算/类型判断
    python的集合,列表,元组,字典
    python的流程控制for和while和if(break, continue, pass)
    python的切片
    python的代码缩进(换行,段落)
    python函数(自定义函数,常用内置模块,常用函数,函数调用)
    python异常
    python模块(内置模块,导入模块,自定义模块)
    python迭代器和生成器
    python面向对象
    python读写文件IO
    python数据库和JSON和CSV

四、爬取单

    名言网:http://quotes.toscrape.com
    中国天气网
    必应词典翻译/身份证归属地/手机号归属地
    拉勾招聘职位
    当当畅销书
    豆瓣影评
    链家/自如租房/如家
    糗事百科/内涵段子/新浪微博
    校花/校草照片
    起点小说
    微信公众号
    知乎热点
    B站用户
    NBA2017-2018赛季比较详细数据
    猫眼电影

五、爬虫

    概念:
    1、爬虫:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网www信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
    2、爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
    3、爬虫:根本目的在于获取网页源码中的数据。更深入一些,就会出现和网页进行POST交互从而获取服务器接收POST请求后返回的数据!总结:爬虫就是由计算机自动与服务器交互获取数据的工具。

    爬虫相关的其他核心概念:
    反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
    误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
    拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
    资源:机器成本与人力成本的总和。

    爬虫的分类
    1、聚焦爬虫:开发人员针对特定用户而开发的数据采集程序   聚焦爬虫
    2、通用爬虫:尽可能的爬取所有的网页,  搜索引擎

    基本流程:
    1、发送请求(urllib, requests)  在浏览器的地址栏中输入了URL之后回车的那个动作
    2、获取页面内容  得到服务器接收请求之后进行处理得到的网页源代码
    3、解析页面(bs4, xpath,正则re,jsonpath, pyquery, json)  解析源码,抽取数据
    4、异步动态加载/验证码处理(selenium, phantomJs)
    5、抽取并存储内容(json,csv/tsv, 数据库)    处理数据,存储数据
    
    爬虫的工作原理

    爬虫的工作方式

        有两种策略:

            1、深度优先爬取

            2、广度优先爬取

        response = urllib.request.urlopen("https://www.baidu.com/")
        content = response.read() 

        content是一个网页的源码组成的一个字符串。

        这个源码中会包含很多的其他的http地址  URL  怎么去对待这个URL ? 

        https://movie.douban.com/top250         https://movie.douban.com/top250?start=25&filter=

        基本上,也就是除了带分页的是标准的广度优先之外, 其他的基本上都是 
        广度 + 深度

    搜索引擎的工作原理

        hadoop的产生

        google   nutch  爬虫    doug cutting (lucene)

        几乎是爬取了整个网络的所有网页,所以每个网页都存储下来的话,那么数据量必然很大。

        数据量特别大

        为什么大数据的应用技术, 最先从google弄出来。

        在存储的时候,有必要把所有的网页内容都存储下来么?

        这个URL中有哪些关键信息存储下来。!!
        关键信息就是这个网页中的, 核心

        排序   PageRank   value 分数   PageRank

        就是给每一个网页的对应的某一个关键字都衡量出一个  分数

        

六、爬虫框架

    scrapy 
    pyspider

 

七、反爬虫 和 反反爬虫

    1、爬虫领域的一些相关概念:
    爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
    反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
    误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
    拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
    资源:机器成本与人力成本的总和。

    2、约定协议/君子协定 robots.txt
    robots协议:协议指明通用爬虫可以爬取网页的权限
    robots协议是一种约定,一般是大型公司的程序或者搜索引擎等遵守

    3、为什么要反爬虫?
        1、爬虫占总PV比例较高,过多消耗服务器资源
        2、公司的免费资源被批量爬走,利人损己
        3、法律问题
    
    4、反爬虫应对策略
        1、技术压制
        2、嘲讽
        3、放水

    

标签:网页,批量,python,误伤,爬虫,光环,com
From: https://blog.51cto.com/u_6468453/6964692

相关文章

  • 如何在python中执行另一个py文件
    使用命令:os.system(‘pythonfile_name.py’)解释:os.system是执行当前的系统命令1、拿windows系统举例:#由于ipconfig/all在windows中是查看ip地址#所以将此命令运行在os.system中,即可查看系统的ip地址等信息importosos.system('ipconfig/all')#因为pythonfile_name.p......
  • Socks5代理:跨界电商和游戏产业的爬虫利器与出海加速器
    随着跨界电商和游戏产业的迅猛发展,爬虫技术成为了促进竞争力和业务拓展的重要手段。Socks5代理作为一种高性能的网络代理技术,在跨界电商和游戏产业中发挥着关键作用。本文将深入探讨Socks5代理的特点与优势,以及它在爬虫应用和跨海出海中的重要作用,为企业实现技术创新与全球化发展提......
  • python中字典的循环遍历的两种方式
    开发中经常会用到对于字典、列表等数据的循环遍历,但是python中对于字典的遍历对于很多初学者来讲非常陌生,今天就来讲一下python中字典的循环遍历的两种方式。注意:python2和python3中,下面两种方法都是通用的。1.只对键的遍历一个简单的for语句就能循环字典的所有键,就像处理序列一......
  • 用 Python 自动创建 Markdown 表格 - 每天5分钟玩转 GPT 编程系列(4)
    目录1.他们居然问我要Prompts2.让GPT-4来写代码2.1我对DevChat说2.2DevChat回答2.3我又对DevChat说2.4DevChat的第二轮回答2.5我再次对DevChat说2.6DevChat回答2.7最后效果3.他们居然让我要写总结1.他们居然问我要Prompts早几天我用GPT-4写了一个Gol......
  • python有哪几种循环语句
    在Python中,常用的循环语句有以下几种:for循环:用于遍历给定的序列(如列表、字符串等)或可迭代对象的元素。循环会重复执行固定次数,或者依次遍历序列中的每个元素。示例:forelementinsequence:#在这里执行循环体代码while循环:通过判断条件是否为真来控制循环的执行。只......
  • Socks5代理:跨界电商与游戏产业的爬虫利器与出海战略助推器
    一、Socks5代理:跨界电商与游戏产业的爬虫利器跨界电商:跨界电商是不同行业或领域之间进行合作的电商模式。企业在拓展全球市场时,需要收集不同领域的市场情报和竞争数据,Socks5代理作为爬虫利器,能够高效稳定地实现数据采集。游戏产业:游戏产业在全球范围内拥有庞大用户群体,企业需要实时......
  • Python爬虫——爬虫时如何知道是否代理ip伪装成功?
    在进行爬虫时,我们可能需要使用代理IP来伪装自己的身份,以避免被网站封禁。如何判断代理IP是否伪装成功呢?本篇文章将围绕这个问题展开讲解,同时提供Python代码示例。确认代理IP地址首先,我们需要确认代理IP地址是否正确。我们可以使用一些免费的代理IP池网站,如:站大爷、碟鸟ip、开心代理......
  • Python爬虫——爬虫时如何知道是否代理ip伪装成功?
    在进行爬虫时,我们可能需要使用代理IP来伪装自己的身份,以避免被网站封禁。如何判断代理IP是否伪装成功呢?本篇文章将围绕这个问题展开讲解,同时提供Python代码示例。1.确认代理IP地址首先,我们需要确认代理IP地址是否正确。我们可以使用一些免费的代理IP池网站,如:站大爷、碟鸟ip、开......
  • 在同一个ubunu系统上安装和配置两套python3.6和python3.8环境
    在一个系统中使用两套python3+环境的基本要求是两者不能相互冲突,所以,我选择用系统自带的update-alternatives命令行来控制。但只控制python显然是不行的,与其配套的pip也需要管理起来才行。我的系统自带的python版本是3.8.9,先从python官网下载一个python3.6,.9,然后解压缩,按照如下......
  • 什么是猴子补丁,有什么用途,什么是反射,python中如何使用反射,http和https的区别
    1什么是猴子补丁,有什么用途猴子补丁:动态修改或扩展代码的技术,通在不修改源代码的情况下,改变代码的执行方式或增加功能 -MonkeyPatching是在运行时(runtime)动态替换属性(attributes)或方法 -Python的类是可变的(mutable),方法(methods)只是类的属性(attributes);这允许我......