首页 > 编程语言 >python得scrapy提取数据 xpath注意事项

python得scrapy提取数据 xpath注意事项

时间:2024-03-12 14:33:16浏览次数:31  
标签:xpath node www 提取 name python item scrapy

在提取器过滤数据这个地方被坑了很久,确实有点坑,有点难以理解,多注意下就可以了。

from multiprocessing import allow_connection_pickling
from scrapy.spiders import Spider
from ..items import Cnblogshaha01Item

class cnblogSpider(Spider):
    name="cnblogsHAHA01" #定义爬虫名称
    allow_connection_pickling=['www.cnblogs.com'] #定义爬虫域
    start_urls = ['https://www.cnblogs.com/huaan011'] #定义开始爬虫链接

    def parse(self,response) :
        item_nodes = response.css(".post")
        for item_node in item_nodes:
            item = Cnblogshaha01Item()
            #参考文档: https://www.w3cschool.cn/scrapy2_3/scrapy2_3-ms5x3fng.html
            # item['name']= item_node.xpath('/span/text()').extract_first().strip() #这个表示从response中开始提取所有的满足搜索条件得值
            # item['name']= item_node.xpath('//span/text()').extract_first().strip() #这个表示从response中开始提取所有的满足搜索条件得值
            #item['name']= item_node.xpath('h2/a/span/text()').extract_first().strip() #这个表示从当前得选择器中开始提取所有的满足搜索条件得值
            item['name']= item_node.xpath('.//span/text()').extract_first().strip() #这个表示从当前得选择器中开始提取所有的满足搜索条件得值
            #item['name']= item_node.xpath('./h2/a/span/text()').extract_first().strip() #这个表示从当前得选择器中开始提取所有的满足搜索条件得值
            print(item['name'])
            yield item

参考文档: 

https://www.w3cschool.cn/scrapy2_3/scrapy2_3-ms5x3fng.html
https://www.runoob.com/xpath/xpath-syntax.html

标签:xpath,node,www,提取,name,python,item,scrapy
From: https://www.cnblogs.com/huaan011/p/18068230

相关文章

  • Python 列表中任意字符串是否存在的判断
    `importsysjudge_string=[]target_string=sys.argvjudge_string=['-?','/?','--?','-help','--help','help']target_string=sys.argvjudge_result=any(wordifwordintarget_stringelseFals......
  • Python - whl文件是什么?怎么安装?
    whl文件是什么?.whl文件是Python分发的一种标准内置包格式,通常称为“轮子(wheel)”。123这种格式允许Python用户安装和分发第三方库,.whl文件包含了Python模块的压缩形式(.py文件和经过编译的.pyd文件)以及这些模块的元数据。它们通常通过Zip压缩算法进行压缩,可以......
  • 基于WiFi的防盗报警Python脚本
    学校图书馆有一本电子书,可以供学生阅读,但是怎么防止学生将其带出图书馆呢?我把它连上馆内的一台电脑的WiFi热点,间隔一段时间就从电脑ping这台电子书,如果ping不通,说明电子书脱离了WiFi信号范围,电脑就会响起报警声。代码思路如下,先通过Windows上的arp命令,用设备的MAC地址获取其IP,再......
  • 用Python编写自己的微型Redis
    building-a-simple-redis-server-with-python前几天我想到,写一个简单的东西会很整洁 雷迪斯-像数据库服务器。虽然我有很多WSGI应用程序的经验,数据库服务器展示了一种新颖挑战,并被证明是学习如何工作的不错的实际方法Python中的套接字。在这篇文章中,我将分享我在此过程中......
  • python得scrapy抓中文,保存csv、json、txt文件乱码解决方法
    保存json和txt文件,出现这种东西不是乱码,是unicode,例如:\u96a8\u6642\u66f4\u65b0>\u25a0\u25a0\u25a在settings.py文件中加入下面一句code,之后就是中文了。FEED_EXPORT_ENCODING='utf-8'保存csv表格文件时,会出现中文乱码,这个确实是乱码,例如:瀵掑啲瀹濈彔鎶......
  • 傅里叶变换算法和Python代码实现
    傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设f:ℝ→ℂ是一个既可积又可平方积分的复值函数。那么它的傅立叶变换,记为f̂,是由以......
  • Python - 如何import导入上级目录文件
    Python-import导入上级目录文件 原文地址:https://zhuanlan.zhihu.com/p/526710677?utm_id=0假设有如下目录结构:--dir0|file1.py|file2.py|dir3|file3.py|dir4|file4.pydir0文件夹下有file1.py、file2.py两个文件和dir3、dir4......
  • python asgi 框架资料
    asgi是支持python异步的pythonweb服务器,框架和应用程序之间的标准接口,目前不少框架已经支持了目前github上有一个不错的项目,里边包含了各类支持以及实现了asgi的框架,值得学习 awesome-asgi参考资料https://github.com/encode/uvicornhttps://asgi.readthedocs.io/en/late......
  • python怎么创建项目?
     Python是一种高级编程语言,可以用于各种不同的开发和编程场景。Python的灵活性使其成为许多开发者的首选。在本文中,我们将探讨如何在Python中创建项目。一.准备工作在开始使用Python进行开发之前,您需要确保您的计算机上已经安装了Python。如果您尚未安装Python,可以通过官......
  • Python web 框架
    Pythonweb框架戏说WSGI(PythonWeb服务网关接口)当你在Python的世界中冒险,突然遭遇一只Web怪兽,你会选择什么武器对付它?在兵器谱上,下列兵器可谓名列前茅:Zope,厚重的长枪。较早出现的武器形态。该武器非常之强悍,无坚不摧,无物不破。而且适合在军队中使用,排兵布阵集团作战效果更佳。......