爬取网页

获取元素位置
编写爬虫文件

1.先在控制台打印一下，查看是否爬取成功

import scrapy

class QidianspiderSpider(scrapy.Spider):
    name = 'qidianspider'
    allowed_domains = ['www.qidian.com']
    start_urls = ['https://www.qidian.com/rank/yuepiao/']

    def parse(self, response):
        names = response.xpath('//*[@id="book-img-text"]/ul/li[1]/div[2]/h2/a/text()').extract()
        authors = response.xpath('//*[@id="book-img-text"]/ul/li[1]/div[2]/p[2]/text()').extract()
        print(names)
        print(authors)

代码介绍：response.xpath（）里写入xpath路径
extract()可以把返回数据取出杂余标签
注意：//[@id="book-img-text"]/ul/li[1]/div[2]/h2/a/text()中吧h2删除就不会只去获取h2下的a标签了，而是所有的div[2]下的a标签（在xpath中//代表多层路径，可以用来省略路径）改成//[@id="book-img-text"]/ul/li[1]/div[2]//a/text()第二个同理。

2.循环取出数据并存到json文件中

import scrapy

class QidianspiderSpider(scrapy.Spider):
    name = 'qidianspider'
    allowed_domains = ['www.qidian.com']
    start_urls = ['https://www.qidian.com/rank/yuepiao/']

    def parse(self, response):
        names = response.xpath('//*[@id="book-img-text"]/ul/li[1]/div[2]//a/text()').extract()
        authors = response.xpath('//*[@id="book-img-text"]/ul/li[1]/div[2]//text()').extract()
        book=[]
        for name,author in zip(names,authors):
            book.append({'name':name, 'author':author})
        return book

运行爬虫

 scrapy crawl qidianspider -o yy.xml

代码介绍：-o 表示存储后面更文件名，支持json，xml，csv文件存储

标签：xml,文件,xpath,text,scrapy,json,book,div,response
From： https://www.cnblogs.com/yousuobutong/p/16720789.html

JAVA调用远程接口时模拟发送数据-json格式、x-www-form-urlencoded格式、文件+参数格
实习期结束，总结一下实习时遇到的一些以前不常用的代码，以方便下次用到时取用，代码不涉及公司机密，需要根据自己的需要进行一定的修改！如有错误欢迎指正！一个需求是项目的某些接......
为什么gcc生成的目标文件没有包含源文件定义的符号
一、问题当gcc的优化打开前后的效果不同时，可以通过gcc的-Q--help=optimizers查看在构建时gcc默认开启了哪些选项tsecer@harry:gcc-Q--help=optimizers-O1tsecer.c......
【代码片段】Qt6.2.4 C++ 获取目录与排除指定文件夹
参考https://www.bilibili.com/video/BV14t411b7EL环境环境版本windows10QT6.2.4QtCreator8.0.1(Community)qmake代码QStringphpD......
Spring Boot项目——logback 动态获取yml文件配置参数
背景在项目中，日志需要根据不同项目环境进行处理，比如记录日志级别，日志留存时间等。我们需要在不同的yml文件中设置变量，logback文件中动态获取参数，进行日志配置。方法......
利用Dockerfile文件和docker 命令生成docker镜像
一、sprinboot部分1、springboottest的springboot项目，写了controller测试importorg.springframework.beans.factory.annotation.Value;importorg.springframewor......
【前端】js实现JSON字符串格式化显示
一、效果二、代码JSON.parse：把JSON字符串转换为JSON对象JSON.stringify：把JSON对象转换为有缩进的JSON字符串格式<template><divcl......
.tiff后缀的文件
https://baike.baidu.com/item/TIFF/2106?fromtitle=TIFF%E6%A0%BC%E5%BC%8F&fromid=3463194&fr=aladdin标签图像文件格式（TagImageFileFormat，TIFF）是一种灵活的位图格式......
解决SQL映射文件的警告提示
解决SQL映射文件的警告提示产生原因：idea和数据库没有建立连接，不识别表信息解决方式：在idea中配置MySQL数据库连接配置MySQL数据库连接： ......
filebrowser指定配置文件，安装为windows服务
问题：filebrowser安装后，直接运行就可以提供服务，但管理cmdlet窗口，服务就停止了。打开windows计划任务，创建了一个系统启动时执行的计划任务，指向filebrowser.exe路径，然后运行......
uniapp小程序使用wxml-to-canvas生成图片
开发框架：uniapp场景：小程序保存页面为图片并上传尝试方案：使用html-to-canvas，问题：小程序不允许操作dom，也无法获取dom标签，只能通过wx.createSelectorQuery()获取dom信息。......

scrapy框架之生成存储文件json，xml、csv文件

爬取网页

1.先在控制台打印一下，查看是否爬取成功

2.循环取出数据并存到json文件中

运行爬虫

相关文章

赞助商

阅读排行