python得scrapy提取数据 xpath注意事项

时间：2024-03-12 14:33:16浏览次数：31

标签：xpath node www 提取 name python item scrapy

在提取器过滤数据这个地方被坑了很久，确实有点坑，有点难以理解，多注意下就可以了。

from multiprocessing import allow_connection_pickling
from scrapy.spiders import Spider
from ..items import Cnblogshaha01Item

class cnblogSpider(Spider):
    name="cnblogsHAHA01" #定义爬虫名称
    allow_connection_pickling=['www.cnblogs.com'] #定义爬虫域
    start_urls = ['https://www.cnblogs.com/huaan011'] #定义开始爬虫链接

    def parse(self,response) :
        item_nodes = response.css(".post")
        for item_node in item_nodes:
            item = Cnblogshaha01Item()
            #参考文档： https://www.w3cschool.cn/scrapy2_3/scrapy2_3-ms5x3fng.html
            # item['name']= item_node.xpath('/span/text()').extract_first().strip() #这个表示从response中开始提取所有的满足搜索条件得值
            # item['name']= item_node.xpath('//span/text()').extract_first().strip() #这个表示从response中开始提取所有的满足搜索条件得值
            #item['name']= item_node.xpath('h2/a/span/text()').extract_first().strip() #这个表示从当前得选择器中开始提取所有的满足搜索条件得值
            item['name']= item_node.xpath('.//span/text()').extract_first().strip() #这个表示从当前得选择器中开始提取所有的满足搜索条件得值
            #item['name']= item_node.xpath('./h2/a/span/text()').extract_first().strip() #这个表示从当前得选择器中开始提取所有的满足搜索条件得值
            print(item['name'])
            yield item

参考文档：

https://www.w3cschool.cn/scrapy2_3/scrapy2_3-ms5x3fng.html
https://www.runoob.com/xpath/xpath-syntax.html

标签：xpath,node,www,提取,name,python,item,scrapy
From： https://www.cnblogs.com/huaan011/p/18068230

Python 列表中任意字符串是否存在的判断
`importsysjudge_string=[]target_string=sys.argvjudge_string=['-?','/?','--?','-help','--help','help']target_string=sys.argvjudge_result=any(wordifwordintarget_stringelseFals......
Python - whl文件是什么？怎么安装？
whl文件是什么？.whl文件是Python分发的一种标准内置包格式，通常称为“轮子(wheel)”。123这种格式允许Python用户安装和分发第三方库，.whl文件包含了Python模块的压缩形式（.py文件和经过编译的.pyd文件）以及这些模块的元数据。它们通常通过Zip压缩算法进行压缩，可以......
基于WiFi的防盗报警Python脚本
学校图书馆有一本电子书，可以供学生阅读，但是怎么防止学生将其带出图书馆呢？我把它连上馆内的一台电脑的WiFi热点，间隔一段时间就从电脑ping这台电子书，如果ping不通，说明电子书脱离了WiFi信号范围，电脑就会响起报警声。代码思路如下，先通过Windows上的arp命令，用设备的MAC地址获取其IP，再......
用Python编写自己的微型Redis
building-a-simple-redis-server-with-python前几天我想到,写一个简单的东西会很整洁雷迪斯-像数据库服务器。虽然我有很多WSGI应用程序的经验,数据库服务器展示了一种新颖挑战,并被证明是学习如何工作的不错的实际方法Python中的套接字。在这篇文章中,我将分享我在此过程中......
python得scrapy抓中文，保存csv、json、txt文件乱码解决方法
保存json和txt文件，出现这种东西不是乱码，是unicode，例如：\u96a8\u6642\u66f4\u65b0>\u25a0\u25a0\u25a在settings.py文件中加入下面一句code，之后就是中文了。FEED_EXPORT_ENCODING='utf-8'保存csv表格文件时，会出现中文乱码，这个确实是乱码，例如：瀵掑啲瀹濈彔鎶......
傅里叶变换算法和Python代码实现
傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设f:ℝ→ℂ是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为f̂，是由以......
Python - 如何import导入上级目录文件
Python-import导入上级目录文件原文地址：https://zhuanlan.zhihu.com/p/526710677?utm_id=0假设有如下目录结构：--dir0|file1.py|file2.py|dir3|file3.py|dir4|file4.pydir0文件夹下有file1.py、file2.py两个文件和dir3、dir4......
python asgi 框架资料
asgi是支持python异步的pythonweb服务器，框架和应用程序之间的标准接口，目前不少框架已经支持了目前github上有一个不错的项目，里边包含了各类支持以及实现了asgi的框架，值得学习 awesome-asgi参考资料https://github.com/encode/uvicornhttps://asgi.readthedocs.io/en/late......
python怎么创建项目？
Python是一种高级编程语言，可以用于各种不同的开发和编程场景。Python的灵活性使其成为许多开发者的首选。在本文中，我们将探讨如何在Python中创建项目。一.准备工作在开始使用Python进行开发之前，您需要确保您的计算机上已经安装了Python。如果您尚未安装Python，可以通过官......
Python web 框架
Pythonweb框架戏说WSGI（PythonWeb服务网关接口）当你在Python的世界中冒险，突然遭遇一只Web怪兽，你会选择什么武器对付它？在兵器谱上，下列兵器可谓名列前茅：Zope，厚重的长枪。较早出现的武器形态。该武器非常之强悍，无坚不摧，无物不破。而且适合在军队中使用，排兵布阵集团作战效果更佳。......

python得scrapy提取数据 xpath注意事项

相关文章

赞助商

阅读排行