scrapy目录结构与解析方式

时间：2024-02-23 16:14:11浏览次数：33

标签：item scrapy article post 解析 extract 目录 css desc

scrapy目录结构

myfirstscrapy  # 项目名字
    -myfirstscrapy # 包
    	-__init__.py
    	-spiders # 包 放爬虫，可能会有很多爬虫
        	-__init__.py
    		-cnblogs.py # 爬虫文件--》一个爬虫就是一个文件，可以写多个
    
    	-items.py # 放一个个类---》类似于django 的models--》模型类
    	-middlewares.py # 中间件，下载，爬虫中间件
    	-pipelines.py # 持久化，保存mysql，需要写的位置
    	-settings.py # 配置文件
    -scrapy.cfg     # 上线会用

解析方式

1 response对象有css方法和xpath方法
    -css中写css选择器     response.css('')
    -xpath中写xpath选择   response.xpath('')
2 重点1：
    -xpath取文本内容
        './/a[contains(@class,"link-title")]/text()'
    -xpath取属性
       	'.//a[contains(@class,"link-title")]/@href'
    -css取文本
        'a.link-title::text'
    -css取属性
        'img.image-scale::attr(src)'
3 重点2：
    .extract_first()  取一个
    .extract()        取所有

案例：

# 使用css解析
def parse(self, response):  # css解析
        # response 就是爬完后的对象
        # print(response.text)
        # 使用css解析
        article_list = response.css('article.post-item')
        for article in article_list:
            # 标题
            title = article.css('a.post-item-title::text').extract_first()
            # 摘要 取出所有，单独处理一下
            desc = article.css('p.post-item-summary::text').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if not real_desc:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
            # print(real_desc)
            # 作者：author
            author = article.css('footer.post-item-foot>a>span::text').extract_first()
            # print(author)
            # 头像
            image_url = article.css('img.avatar::attr(src)').extract_first()
            # print(image_url)
            # 发布日期
            date = article.css('span.post-meta-item>span::text').extract_first()
            # print(date)

            # 文章地址
            url = article.css('a.post-item-title::attr(href)').extract_first()

            print('''
            文章名：%s
            文章摘要：%s
            文章作者：%s
            作者头像：%s
            文章日期：%s
            文章地址：%s
            ''' % (title, real_desc, author, image_url, date, url))

# 使用xpath解析
def parse(self, response):  # xpath解析
        article_list = response.xpath('//article[@class="post-item"]')
        for article in article_list:
            # 标题
            title = article.xpath('.//a[@class="post-item-title"]/text()').extract_first()

            # 摘要 取出所有，单独处理一下
            desc = article.xpath('.//p[@class="post-item-summary"]/text()').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if not real_desc:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
            # print(real_desc)
            # 作者：author
            # author = article.css('footer.post-item-foot>a>span::text').extract_first()
            author = article.xpath('.//footer[@class="post-item-foot"]/a/span/text()').extract_first()
            # print(author)
            # 头像
            # image_url = article.css('img.avatar::attr(src)').extract_first()
            image_url = article.xpath('.//img[@class="avatar"]/@src').extract_first()
            # print(image_url)
            # 发布日期
            # date = article.css('span.post-meta-item>span::text').extract_first()
            date = article.xpath('.//span[@class="post-meta-item"]/span/text()').extract_first()
            # print(date)

            # 文章地址
            # url = article.css('a.post-item-title::attr(href)').extract_first()
            url = article.xpath('.//a[@class="post-item-title"]/@href').extract_first()

            print('''
              文章名：%s
              文章摘要：%s
              文章作者：%s
              作者头像：%s
              文章日期：%s
              文章地址：%s
              ''' % (title, real_desc, author, image_url, date, url))

标签：item,scrapy,article,post,解析,extract,目录,css,desc
From： https://www.cnblogs.com/wellplayed/p/18029789

解决VMware与win10无法共享目录
1、安装VMwareTools这一步适用于多数情况，但对于高版本的VMWare这一步无效，当然了，先试一试总没有坏处。有看见网上说如果VMware内安装的是高版本的Ubuntu，安装的VMwareTools会破坏Ubuntu。关于这一点博主没有验证，请自行验证。安装方法很简单：1)在VMware的虚拟机菜单下，点击“重......
代码+案例，实战解析BeautifulSoup4
本文分享自华为云社区《从HTML到实战：深入解析BeautifulSoup4的爬虫奇妙世界》，作者：柠檬味拥抱。网络上的信息浩如烟海，而爬虫技术正是帮助我们从中获取有用信息的重要工具。在爬虫过程中，解析HTML页面是一个关键步骤，而BeautifulSoup4正是一款功能强大的解析器，能够轻松解析HTML和XML......
C++动态内存分配探秘：new与malloc的关键差异及实例解析
概述：在C++中，new和malloc均用于动态内存分配，但存在关键差异。new是C++运算符，能调用构造函数，返回类型明确；而malloc是C函数，仅分配内存，需手动类型转换。示例源代码生动演示了它们在构造函数调用和类型信息方面的不同。在C++中，new 和 malloc 都用于动态内存分配，但它们之间......
C++强制类型转换详解：四种操作符解析与实例演示
概述：C++中的强制类型转换是实现数据类型间转换的关键机制，包括static_cast、dynamic_cast、const_cast和reinterpret_cast四种。这些操作符适用于不同的场景，通过实例源代码详细阐述了它们的使用方法和步骤。在C++中，强制类型转换是将一个数据类型的值转换为另一个数据类型的过......
Linux中在其他目录执行二进制文件
Linux命令行中执行命令一般通过：./xxxx的方式，但前提是必须先进入二进制文件所在的目录（或者更上一层级的目录），如果在其他不相关的目录就不能通过这种方式执行。所以，最简单的方法是：查看当前的环境变量：echo$PATH，在列出的环境变量中选择一个目录，如：/home/xxx/bin，将文件放入这个目录，之后......
【PostageSQL】【元信息】PostageSQL 系统目录
1 前言可能大家平时会查看数据库中的一些原始信息，比如数据库有哪些表，表有哪些字段呀，都是什么类型呀，甚至每个表所占的空间大小，索引的空间大小、索引访问的次数呀等等，其实PgSQL都有对应的系统目录给我们，这节我们就来看看。2 层次在看元信息前，我们先了解一下数据的一个层次：......
MySQL 多表查询 - 缺练习解析
多表查询【一】概要（1）联表查询innerjoin：内连接--innerjoin/join#拼接两张表中共有的数据部分select*from表2innerjoin表1on表2.字段=表1.字段;leftjoin：左外连接--leftjoin#返回左表中的所有行，以及右表中与左表中相匹配的行。如果右表中没......
深入理解C++中的堆与栈：内存管理的关键区别与实例解析
概述：C++中，堆和栈是两种不同的内存分配方式。栈自动分配、释放内存，适用于短生命周期变量；堆需要手动管理，适用于动态分配内存，但需要显式释放以防内存泄漏。通过清晰的示例源代码，演示了它们在变量生命周期、访问方式等方面的区别。C++中的堆（heap）和栈（stack）是两种内存分配和管理方......
stl源码解析，deque的insert_aux
直接上结论：deque的insert_aux中插入开始会pushback或front一个和最末尾或最前面值相同的值是为了看是否需要扩充deque内存，选这个值应该是顺手。stl中deque的实现是通过一个存储指向各个存储区域指针的map(注意就是个指针地图，不是stl的map数据结构)，里面再指向对应区域去存储实际......
scrapy框架的安装
第一步：安装scrapy模块pipinstallscrapy第二步：在需要创建的文件夹内打开cmd窗口输入scrapystartprojectmyfirstscrapy会看到下面的命令：Youcanstartyourfirstspiderwith:cdmyfirstscrapyscrapygenspiderexampleexample.com第三步：根据命令提示输......

scrapy目录结构与解析方式

scrapy目录结构

解析方式

案例：

相关文章

赞助商

阅读排行