创建scrapy

scrapy startproject 项目名称

创建蜘蛛（爬虫文件）

scrapy genspider 蜘蛛名称 网址

爬取网页（举百度的列子）

编写爬虫文件

import scrapy

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        print(response.text)

还要改一下settings里的设置

# UA伪装（就是把爬虫文件伪装成为一个浏览器形式的访问）
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42'
#  robots.txt ，不遵守君子协议
ROBOTSTXT_OBEY = False

运行爬虫
1.窗口运行

scrapy crawl baidu

2.编写方法运行
main.py

from scrapy.cmdline import execute

execute('scrapy crawl baidu'.split())

红色的不是报错，而是日志

效果展示

标签：baidu,execute,框架,创建,爬虫,scrapy,运行
From： https://www.cnblogs.com/yousuobutong/p/16720679.html

Spring MVC框架：第十五章：多IOC容器整合
多IOC容器整合SSM整合方式Spring、SpringMVC、MyBatisSpringMVC的核心Servlet会启动一个IOC容器，而ContextLoaderListener也会启动一个IOC容器。web.xml<?xmlversion......
Java实现网络爬虫案例代码：从网上获取《三国演义》全文
案例：从网上获取《三国演义》全文需求说明搭建开发环境，实现《三国演义》全文保存在本地步骤分析1、访问网址：http://www.shicimingju.com/book/sanguoyanyi.html2、......
Spring MVC框架：第十七章：异常映射
异常映射异常机制是Java程序中针对有可能发生的问题所提前作出的应急解决方案。在SpringMVC中可以通过异常映射的方式，将异常类型和某个视图名称对应起来，让用户不是看到异......
【分层】DDD框架
最近看到更好理解的文章：https://blog.csdn.net/sinat_33087001/article/details/78924414 从三层演变成DDD分层。确实如此，我们的三层实体类就是只有属性，业务层只有方法......
一套.NET Core +WebAPI+Vue前后端分离权限框架
今天给大家推荐一个基于.NetCore开发的企业级的前后端分离权限框架。项目简介这是基于.NetCore开发的、构建的简单、跨平台、前后端分离的框架。此项目代码清晰、层......
39. [实例]Scrapy框架应用
1.前言通过上一节《PythonScrapy爬虫框架详解》的学习，您已经对Scrapy框架有了一个初步的认识，比如它的组件构成，配置文件，以及工作流程。本节将通过一个的简单爬虫项目对......
ios逆向爬虫-入门保姆级-实战某博APP
ios逆向爬虫-入门保姆级-实战某博APP设备iPhone11,系统14.2Windows11工具Frida15.2.2frida-ios-dumpIda7.7流程手机越狱爱思助手安装目标APPCydia安装Frid......
分布式框架Dubbo整合分布式服务协同框架Zookeeper
一、创建Maven工程（基础结构）二、父工程导包（子工程可以调用）三、创建三台Zookeeper进群四、配置文件写配置连接Zookeeper 五、通过Zookeepe......
什么是微框架？你应该考虑使用的最好的…
什么是微框架？你应该考虑使用的最好的…编写代码应该是您尽可能少地工作以获得最佳结果，本文将为您提供一个步骤课程。微框架……我认为它被低估了，同时被错误地重视。因此，......
安装Scrapy框架
Scrapy的安装介绍Scrapy框架官方网址：http://doc.scrapy.org/en/latestScrapy中文维护站点：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.htmlWindows安装方式1.......

scrapy框架之创建项目运行爬虫

创建scrapy

创建蜘蛛（爬虫文件）

爬取网页（举百度的列子）

效果展示

相关文章

赞助商

阅读排行