爬虫实战-爬取小说信息

时间：2022-11-30 16:45:18浏览次数：39

标签：实战 w100 text getall 爬虫 li 爬取小说 css

import requests
import parsel
import csv
for i in range(1,5):
    print(f"--------爬取第{i}页-----------")
    url = f'https://www.slyqw.com/sort/{i}'
    header = {
            'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 107.0.0.0Safari / 537.36',
            'Cookie': 'zh_choose = s;Hm_lvt_c4eec4b108dac241786b4218f0d27642 = 1669790844;Hm_lpvt_c4eec4b108dac241786b4218f0d27642 = 1669791342',
            'Referer': 'https: // www.slyqw.com / whole.html'
            }
        # 通过requests 模拟发送请求
    r = requests.get(url=url,headers=header)
    response = r.text
        # 引入pansel模块
    response = parsel.Selector(response)
    lis = response.css('.flex li')
    for li in lis:
        leibie = li.css('.img_span span::text').getall() # 小说类别
        title = li.css('.w100 a h2::text').getall()　　# 小说标题
        zuozhe = li.css('.w100 div i::text').getall()　　# 小说作者
        zishu = li.css('.w100 div .orange::text').getall()　　# 小说字数
        shijian = li.css('.w100 div .blue::text').getall()　　# 小说发布时间
        jieshao = li.css('.w100 p::text').getall()　　# 小说简介
        with open('小说连载.csv',mode='a',encoding='utf-8-sig',newline='') as f:   # 这里的newline='' 如果不加，会出现跳行空行 
            writefile = csv.writer(f)
            writefile.writerow([title,zuozhe,zishu,shijian,leibie,jieshao])
    print("完成！")

　　以上信息是爬取 5 页小说的信息。当然爬取信息之后需要在excel里面转换替换一下不要的字符，这里也可以在代码里面直接写 .replace()方法替换，我是直接用的excel的 ctrl+H 进行替换的。

标签：实战,w100,text,getall,爬虫,li,爬取,小说,css
From： https://www.cnblogs.com/frank1/p/16938899.html

Job/CronJob的理解（chrono《kubernetes入门实战课》笔记整理）
【k8s所有的服务是否都可以集成在一个个pod里？】pod里，已经可以直接调度其内部所有的容器，来一起提供一个整体的应用。为什么k8s还有其他额外的对象来做k8s的其他服务呢，直接......
SpringBoot Mongodb实战整合
目录找出数组中,具有qid=1并且reorderFlag=0的记录找出数组中,qid=1或者reorderFlag=0的记录新增数组数据修改数组数据，根据条件批量修改嵌套数组的字段值删除数组数据......
Vue3+Ts+Vite+Pinia后台管理项目实战
一、新建有一个文件夹命名cms二、使用VsCode打开cms文件夹，在终端中执行命令npminitvue@latest这一指令将会安装并执行create-vue，它是Vue官方的项目脚手架工具。......
三. 基于Jenkins与Gitlab的CI/CD及DevOps实战 -2
基于Jenkins与Gitlab的CI/CD及DevOps实战DevOps介绍：OPS部分职责：1.通过监控、告警、人工值守等方式保证应用程序的7*24的可用性。 2.系统选型、基础环境初始......
JAVA爬虫爬取网页数据数据库中,并且去除重复数据
pom文件<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><versio......
NLP实践！文本语法纠错模型实战，搭建你的贴身语法修改小助手 ⛵
......
【Java技术指南】「实战盲区」深入透析Java8的Stream的原理及实战指南
Java最有影响力的功能要说到Java8的技术体系中，最让人难以忘怀的功能，那非Lambda和Stream莫属了。两者结合操作，达成天作之合，有点势不可挡。它主要用于补充集合类，它的强大，相信......
Java并发编程实战: AQS 源码史上最详尽图解+逐行注释
Java并发编程实战:AQS源码史上最详尽图解+逐行注释引言:学习一个java并发编程工具的时候，我们首先要抓住这三点:状态一般是一个state属性，它基本是整个工具的核心，通常整个......
【推荐系统算法实战】 Spark ：大数据处理框架
Spark简介http://spark.apache.org/https://github.com/to-be-architect/spark与Hadoop和Storm等其他大数据和MapReduce......
【推荐系统算法实战】基于网页的 Notebook：Zeppelin 交互式数据分析
【推荐系统算法实战】基于网页的Notebook：Zeppelin交互式数据分析如果有一个工具，可以让你在同一个Web页面上写Shell代码，Python代码，Scala代码，你想要么？如果还可以执行PySpa......

爬虫实战-爬取小说信息

相关文章

赞助商

阅读排行