首页 > 其他分享 >七、Scrapy框架-案例1

七、Scrapy框架-案例1

时间:2024-09-21 12:12:39浏览次数:8  
标签:douban 函数 框架 py scrapy 案例 Scrapy 解析

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

  1. 安装Scrapy库

    pip install scrapy
    
  2. 创建Scrapy项目

    通过cmd进入命令窗口,执行命令scrapy startproject xxxx (xxxx为scrapy项目名),创建scrapy项目。

    scrapy startproject douban_spider2024
    

  3. 创建爬虫项目

    执行scrapy genspider xxx(爬虫名称) xxx(网址)创建爬虫项目。

    scrapy genspider douban www.bouban.com
    


1.2 虚拟环境构建

  1. 使用Pycharm打开创建好的douban_spider2024文件夹,进入项目。

  2. 构建虚拟环境(venv)

  3. 利用requirement.txt文件安装依赖库,也可以自己一个个pip安装。

    • 查看依赖库:pip freeze > requirements.txt

    • 安装依赖库:pip install -r requirements.txt

1.3 主程序编写

主程序(douban.py)用于编写解析页面的主要内容的代码。

  • 通过start_requests函数获取urls列表,并用Request封装(需要配合在settings.py中启用下载中间件)。

  • 通过parse函数进行网页解析。

1.4 items.py设置

  • 继承scrapy.Item的自定义类SongItem,导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数,例如USER_AGENT、COOKIES、代理、中间件启停等。

  • 修改USER_AGENT,模拟浏览器登录。

  • 关闭Obey robots.txt rules,将True设置为False。

  • 设置下载延迟

  • 打开下载中间件(downloader_middlewares),实现拦截并修改Request的请求内容。

1.6 middlewares.py设置

  • cookies设置

    进入middlewares.py程序中设置,新增一个处理cookies的函数,执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

    在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。

  • scrapy 利用sock代理??

1.7 多层url解析

  • 利用回调函数解析多层url:在parse函数最后解析获取新的url,并提交新的Request,并传递item到回调函数parse_detail中解析。

  • 在items.py中添加新的item信息。

1.8 pipelines.py设置

  • 通过pipelines.py构建Excel存储管道,用于将爬取的数据存储到excel中。

标签:douban,函数,框架,py,scrapy,案例,Scrapy,解析
From: https://www.cnblogs.com/xiqi2018/p/18423834

相关文章

  • 三大前端框架技术选型优缺点对比
    文章目录概要React用法以及示例Vue.js用法以及示例Angular用法以及示例小结(什么时候选择三大主流框架?)概要提示:软件开发中,前端框架扮演着至关重要的角色。它们是用于构建用户界面的工具集,可以大大提高开发效率和代码质量。然而,面对众多的前端框架选择,我们该如何进行......
  • Java程序员在编写代码时,通常会使用哪些工具和框架?
    Java程序员在日常编码工作中,通常会使用一系列工具和框架来提高开发效率、保证代码质量以及实现快速迭代。以下是一些常用的工具和框架:开发环境和IDEIntelliJIDEA:一个强大的Java集成开发环境,提供了智能代码补全、代码分析、重构工具等功能,是许多Java开发者的首选IDE 。Eclipse......
  • node.js应用案例
    node.js广泛应用于构建高性能网络和服务器端应用程序,包括:web开发(web服务器、实时聊天)流媒体服务(视频和音频流媒体)微服务架构(服务发现、消息传递)数据处理和分析(数据收集和处理、机器学习)物联网(传感器数据收集、设备连接)自动化和集成(持续集成、开发运营)游戏开发区块链桌面应用程......
  • 手动部署第一个 Servlet 案例
       一般不会手动部署应用,这篇文章适合应付学校老师布置的作业一.准备工作   1.首先下载一个Tomcat。   2.打开下载的Tomcat文件夹,可以看到以下文件列表。    主要讲解一下这几个文件夹的作用:    bin:放Tomcat启动、关闭等命令行工......
  • springboot+vue云农门户经典案例子系统【开题+程序+论文】
    系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展,云计算、大数据与物联网等前沿技术在农业领域的深度融合,正逐步改变着传统农业的面貌。云农门户作为现代农业信息化的重要载体,旨在通过集成化、智能化的服务平台,为农民、农场主及农业相关从业者提供便捷、高效的......
  • 案例269购物商城网站的设计与实现[SSM+MySQL+Vue]
    目录系统展示项目背景系统设计总结系统展示项目背景网络技术和计算机技术发展至今,已经拥有了深厚的理论基础,并在现实中进行了充分运用,尤其是基于计算机运行的软件更是受到各界的关注。计算机软件可以针对不同行业的营业特点以及管理需求,设置不同的功能,可以符合各个行......
  • 12 FAST系统技术应用框架
    FAST系统技术应用框架的阶段可以根据不同的应用背景和领域有所不同。但一般来说,FAST(FastApplicationSystemTechnology,快速应用系统技术)或类似名称的框架在软件开发和系统设计中的应用,可以大致划分为以下几个阶段:1.初始研究阶段(或计划阶段)列出问题和机会:明确项目或系统的目......
  • 2024-09-20 如何去除vue前端框架upload组件中的缓存 ==》v-if+setTimeout
    在很多前端框架中的upload组件,比如arco-design的a-upload组件,在遍历渲染过程中会发现上传完成后,切换到另一个a-upload组件,它的图片会显示上一个a-upload组件的缓存 正常上传,然后点击红色,红色对应的图片应该被清空,实际上却并没有,如下解决方案:给a-upload组件加一个条件判断v-if......
  • 【python爬虫案例】利用python爬取豆瓣读书评分TOP250排行数据
    一、爬取案例-豆瓣读书TOP250上一期给大家分享了个python爬虫案例:豆瓣电影TOP250的排行榜数据爬取【python爬虫案例】利用python爬虫爬取豆瓣电影评分TOP250排行数据!今天再给大家分享一下:豆瓣读书排行榜TOP250的python爬虫案例!因为是同一个网站,所以流程和逻辑上都是差不多的。......
  • ChatGPT提示词(Prompt)框架
    ChatGPT提示词(Prompt)框架    构建有效的ChatGPT提示词(Prompt)框架的指南,我们提供了几个不同的框架示例,每个框架都旨在帮助用户更精确地指导ChatGPT以完成特定的任务:详细解读:ChatGPT提示词框架解锁ChatGPT的全部潜力R-T-F(Role-Task-Format)PromptExample(示例提示):角色(Role):......