首页 > 其他分享 >scrapy架构

scrapy架构

时间:2023-07-13 18:46:37浏览次数:39  
标签:架构 img text 爬虫 scrapy article desc

1 selenium爬取京东商品信息

import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys  # 键盘按键操作
from selenium.webdriver.chrome.options import Options



def get_goods(bro):
    # 往下滑动一下屏幕
    bro.execute_script('scrollTo(0,5000)')
    goods = bro.find_elements(By.CLASS_NAME, 'gl-item')
    print(len(goods))
    for good in goods:
        try:
            price = good.find_element(By.CSS_SELECTOR, 'div.p-price i').text
            url = good.find_element(By.CSS_SELECTOR, 'div.p-img>a').get_attribute('href')
            commit = good.find_element(By.CSS_SELECTOR, 'div.p-commit a').text
            name = good.find_element(By.CSS_SELECTOR, 'div.p-name em').text
            img = good.find_element(By.CSS_SELECTOR, 'div.p-img img').get_attribute('src')
            if not img:
                img = 'https:' + good.find_element(By.CSS_SELECTOR, 'div.p-img img').get_attribute('data-lazy-img')
            print('''
            商品名字:%s
            商品价格:%s
            商品评论:%s
            商品图片:%s
            商品链接:%s
            ''' % (name, price, commit, img, url))
        except Exception as e:
            print(e)
            continue

    # 找出下一页按钮,点击
    next = bro.find_element(By.PARTIAL_LINK_TEXT, '下一页')
    next.click()
    get_goods(bro)  # 递归调用




options = Options()
options.add_argument("--disable-blink-features=AutomationControlled")  # 去掉自动化控制
bro = webdriver.Chrome(chrome_options=options)
bro.get('https://www.jd.com/')
bro.maximize_window()
bro.implicitly_wait(10)
try:
    search_input=bro.find_element(By.ID,'key')
    search_input.send_keys('mac pro')
    search_input.send_keys(Keys.ENTER)
    # search_input.send_keys(Keys.BACKSPACE)
    get_goods(bro)
except Exception as e:
    print(e)
finally:
    bro.close()



2 scrapy介绍安装--架构

Scrapy 是一个爬虫框架(底层代码封装好了,只需要在固定位置写固定代码即可),应用领域比较广泛---》爬虫界的django


# 安装
#Windows平台
    1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    5、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/
    6、下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
    8、pip3 install scrapy

#Linux,mac平台
    1、pip3 install scrapy
    
    
    
# scrapy架构
# 引擎(EGINE):引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。大总管,负责整个爬虫数据的流动

# 调度器(SCHEDULER)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

#下载器(DOWLOADER) 用于下载网页内容, 并将网页内容返回给EGINE,下载器是建立在twisted这个高效的异步模型上的(效率很高,同时可以发送特别多请求出出)

#爬虫(SPIDERS) SPIDERS是开发人员自定义的类,用来解析responses,并且提取items,或者发送新的请求

#项目管道(ITEM PIPLINES) 在items被提取后负责处理它们,主要包括清理、验证、持久化(比如存到数据库)等操作

# 下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间,主要用来处理从EGINE传到DOWLOADER的请求request,已经从DOWNLOADER传到EGINE的响应response,你可用该中间件做以下几件事

# 爬虫中间件(Spider Middlewares)位于EGINE和SPIDERS之间,主要工作是处理SPIDERS的输入(即responses)和输出(即requests)



# 创建scrapy项目---》使用命令
	# 创建项目
	-scrapy startproject 项目名字
	# 创建爬虫 
    -scrapy genspider cnblogs www.cnblogs.com
    
    # 启动爬虫
    scrapy crawl cnblogs
	
    
# 使用脚本运行爬虫
# run.py
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'cnblogs','--nolog'])

image-20230713105426154

image-20230713110553966

3 scrapy项目目录结构

mysfirstscrapy  # 项目名
    mysfirstscrapy # 包
        spiders    # 包,里面放了自定义的爬虫,类似于app
            __init__.py
            baidu.py  # 百度爬虫
            cnblogs.py#cnblogs爬虫
        items.py      #类似于django的 models表模型,一个个模型类
        middlewares.py # 中间件
        pipelines.py #管道---》写持久化
        settings.py #项目配置文件
    scrapy.cfg  # 项目上线配置

 # 后期我们只关注spiders中得爬虫和pipelines持久化即可

3 scrapy解析数据

1 response对象有css方法和xpath方法
	-css中写css选择器
    -xpath中写xpath选择
2 重点1:
	-xpath取文本内容
	'.//a[contains(@class,"link-title")]/text()'
    -xpath取属性
    './/a[contains(@class,"link-title")]/@href'
    -css取文本
    'a.link-title::text'
    -css取属性
    'img.image-scale::attr(src)'
3 重点2:
	.extract_first()  取一个
    .extract()        取所有
    
import scrapy


# 爬虫类,继承了scrapy.Spider
class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'  # 爬虫名字
    allowed_domains = ['www.cnblogs.com']  # 允许爬取的域---》
    start_urls = ['http://www.cnblogs.com/']  # 开始爬取的地址

    # css解析解析方法
    # def parse(self, response):
    #     # print(response.text) # http响应包装成了response
    #     # scrapy 内置了解析库,不需要使用第三方:支持xpath和css
    #     ######css选择器#####
    #     # 解析出所有文章
    #     article_list = response.css('article.post-item')  # 列表中放对象
    #     print(len(article_list))
    #     # 继续解析文章详情:文章标题,文章摘要,作者图片,作者名字,文章详情地址
    #     for article in article_list:
    #         title = article.css('section>div>a.post-item-title::text').extract_first()
    #         desc = article.css('p.post-item-summary::text').extract()
    #         real_desc = desc[0].replace('\n', '').replace(' ', '')
    #         if real_desc:
    #             desc = real_desc
    #         else:
    #             real_desc = desc[1].replace('\n', '').replace(' ', '')
    #             desc = real_desc
    #         author_img = article.css('p.post-item-summary img::attr(src)').extract_first()
    #         author_name = article.css('footer.post-item-foot span::text').extract_first()
    #         url = article.css('div.post-item-text a::attr(href)').extract_first()
    #         print('''
    #         文章名字:%s
    #         文章摘要:%s
    #         作者图片:%s
    #         作者名字:%s
    #         文章地址:%s
    #         ''' % (title, desc, author_img, author_name, url))


    def parse(self, response):
        ######xpath选择器#####
        # 解析出所有文章
        article_list = response.xpath('//article[contains(@class,"post-item")]')  # 列表中放对象
        print(len(article_list))
        # 继续解析文章详情:文章标题,文章摘要,作者图片,作者名字,文章详情地址
        for article in article_list:
            # title = article.xpath('./section/div/a/text()').extract_first()
            title = article.xpath('.//a/text()').extract_first()
            desc = article.xpath('.//p[contains(@class,"post-item-summary")]/text()').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if real_desc:
                desc = real_desc
            else:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
                desc = real_desc
            # p.post-item-summary img::attr(src)
            author_img = article.xpath('.//p//img/@src').extract_first()
            #div.post-item-text a::attr(href)
            author_name = article.xpath('.//footer//span/text()').extract_first()
            url = article.xpath('.//div[contains(@class,"post-item-text")]//a/@href').extract_first()
            print('''
            文章名字:%s
            文章摘要:%s
            作者图片:%s
            作者名字:%s
            文章地址:%s
            ''' % (title, desc, author_img, author_name, url))

'''
一启动爬虫:把start_urls地址包装成request对象---》
丢给引擎---》调度器---》排队---》引擎---》下载中间件---》下载器---》下载完成---》引擎---》爬虫----》就回到了parse

'''

4 setting配置

4.1 基础配置

#1 了解
BOT_NAME = "firstscrapy"  #项目名字,整个爬虫名字
#2 爬虫存放位置    了解
SPIDER_MODULES = ["firstscrapy.spiders"]
NEWSPIDER_MODULE = "firstscrapy.spiders"

#3  记住 是否遵循爬虫协议,一般都设为False
ROBOTSTXT_OBEY = False
# 4 记住
USER_AGENT = "firstscrapy (+http://www.yourdomain.com)"

#5  记住  日志级别
LOG_LEVEL='ERROR'

#6   记住 DEFAULT_REQUEST_HEADERS 默认请求头
DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}

#7 记住 后面学  SPIDER_MIDDLEWARES 爬虫中间件
SPIDER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsSpiderMiddleware': 543,
}
#8 后面学 DOWNLOADER_MIDDLEWARES  下载中间件
DOWNLOADER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsDownloaderMiddleware': 543,
}

#9 后面学 ITEM_PIPELINES 持久化配置
ITEM_PIPELINES = {
    'cnblogs.pipelines.CnblogsPipeline': 300,
}

4.2 高级配置(提高爬虫效率--scarpy框架)

#1 增加并发:默认16
默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改
CONCURRENT_REQUESTS = 100
值为100,并发设置成了为100。

#2 降低日志级别:
在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:
LOG_LEVEL = 'INFO'


# 3 禁止cookie:
如果不是真的需要cookie,则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率,提升爬取效率。在配置文件中编写:
COOKIES_ENABLED = False

# 4 禁止重试:
对失败的HTTP进行重新请求(重试)会减慢爬取速度,因此可以禁止重试。在配置文件中编写:
RETRY_ENABLED = False

# 5 减少下载超时:
如果对一个非常慢的链接进行爬取,减少下载超时可以能让卡住的链接快速被放弃,从而提升效率。在配置文件中进行编写:
DOWNLOAD_TIMEOUT = 10 超时时间为10s

标签:架构,img,text,爬虫,scrapy,article,desc
From: https://www.cnblogs.com/liyuanxiangls/p/17551780.html

相关文章

  • 如何实现saas 权限架构设计的具体操作步骤
    SaaS权限架构设计概述在SaaS(SoftwareasaService)应用中,权限管理是一项非常重要的功能。它允许系统管理员对用户的访问和操作进行精细的控制,确保系统的安全性和数据的隔离性。本文将介绍实现SaaS权限架构设计的流程和每一步需要做的事情,以及相应的代码示例。流程图下面的表格......
  • MVC 模式和三层架构
    MVC模式MVC是一种分层开发的模式,其中:M:Model,业务模型,处理业务V:View,视图,界面展示C:Controller,控制器,处理请求,调用模型和视图控制器(serlvlet)用来接收浏览器发送过来的请求,控制器调用模型(JavaBean)来获取数据,比如从数据库查询数据;控制器获取到数据后再交由视图(JSP)进行数......
  • 就是个复述吧,去年九月份我确实找到工作了,今年5月底离职了,公司技术架构和项目太杂太老
    手写简易spring`packagecom.spring.utils;importcom.spring.BeanDefinition;importcom.spring.inteface.Autowried;importcom.spring.inteface.Component;importcom.spring.inteface.ComponentScan;importcom.spring.inteface.Scope;importcom.spring.service.UserS......
  • Python3.6下scrapy框架的安装
    命令安装,提示  FailedbuildingwheelforTwistedMicrosoftVisualC++14.0isrequired...  总结pipinstallwheel 下载Twisted包安装下载Scrapy包安装下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/详细解决方案1首先考虑使用最简单的方法安装pipinstallsc......
  • 架构设计
    架构设计主要目的是为了解决软件系统复杂度带来的问题。复杂度来源于高性能、高可用、低成本、安全、扩展性等方面。基本原则:合适、简单、演化。起始时先从简单出发,后续再根据需要逐渐迭代演化,不要为难以预测的未来过度设计。高性能方案:读写分离、分库分表、NoSQL、缓存。......
  • 解决业务架构图的具体操作步骤
    如何实现业务架构图1.介绍在软件开发过程中,业务架构图是一种常用的工具,用于描述系统的各个模块、组件之间的关系和交互。通过业务架构图,开发人员可以更好地理解系统的整体结构和流程,从而更好地进行开发工作。本文将向新手开发人员介绍如何实现一个简单的业务架构图。我们将使用......
  • CPU架构
    1.概述CPU架构是CPU厂商给CPU产品定的一个规范,主要是为了区分不同类型的CPU.目前市场的CPU分类主要分为两大战营,一个是intel,AMI为首的复杂指令集CPU,另一个是以IBM,ARM为首的精简指令集CPU. 2.x86架构x86指令集发展IA: IntelArchitecture IA-32:Inte......
  • 如何实现业务架构的具体操作步骤
    实现“业务架构”的流程为了实现业务架构,我们需要按照以下步骤进行操作:步骤描述步骤1确定业务需求步骤2设计业务架构步骤3实现业务架构步骤1:确定业务需求在这一步中,我们需要与客户或相关利益相关者交流,了解他们的业务需求。这可以通过会议、访谈或调......
  • 架构师日记-到底该如何搭建一个新系统
    一前言架构设计按照实施过程可分为工程架构,业务架构,部署架构等多个维度,一个好的系统架构标准应该具备可扩展、可维护、可靠性、安全性和高性能等特点。尽管这些特点大家都熟知,但在实际落地时,我们更为迫切的想知道实现这些要求的关键路径,以便在架构设计中融入这些特点。只有这样,......
  • Scrapy框架爬取cnblog实例
    Scrapy框架爬取cnblog下一页简单实例犯了一个错误:直接拿浏览器点出来第二页链接去做拼接,导致一直爬不到下一页实际上应该是:blog.pyimportscrapyfromscrapyimportRequestfrombs4importBeautifulSoupimporttimeclassBlogSpider(scrapy.Spider):name="bl......