总结
scrapy startproject name
scrapy genspider baidu http://www.baidu.com
scrapy crawl baidu
scrapy项目创建
scrapy startproject scrapy_baidu_091
创建爬虫文件
在spider
中创建爬虫文件
# scrapy genspider 名称 域名(不写http)
scrapy genspider baidu http://www.baidu.com
运行爬虫
# scrapy crawl 爬虫名称
scrapy crawl baidu
不遵守robots协议
项目介绍
项目结构
项目名字
项目名字
spiders文件夹(存储的是爬虫文件)
init
自定义的爬虫文件 核心功能文件******
init
items 定义数据结构的地方 爬取的数据都包含哪些
middleware 中间件 代理
pipelines 管道 用来处理数据下载的数据
settings 配置文件 robots协议 ua定义等
标签:baidu,http,python,爬虫,genspider,scrapy,crawl
From: https://www.cnblogs.com/java-six/p/17327222.html