首页 > 其他分享 >简单的小说爬虫

简单的小说爬虫

时间:2024-12-21 23:52:28浏览次数:3  
标签:novel url 爬虫 class re 简单 div 小说 response

简单的python爬虫

准备工作

爬取网站77读书

先选择一本书:《万相之王》万相之王

复制链接:http://www.77shuku.org/chapter/34212/17138703.html

代码实操

import requests
from lxml import etree
import re

cookies = {
    'clickbids': '96780',
    'Hm_lvt_a5ca352c842077802ed8d4e53d0a525b': '1734608332',
    'HMACCOUNT': '652E632A38AD9859',
    'Hm_lpvt_a5ca352c842077802ed8d4e53d0a525b': '1734608337',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    # 'Cookie': 'clickbids=96780; Hm_lvt_a5ca352c842077802ed8d4e53d0a525b=1734608332; HMACCOUNT=652E632A38AD9859; Hm_lpvt_a5ca352c842077802ed8d4e53d0a525b=1734608337',
    'Referer': 'http://www.77shuku.org/novel/96780/',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
}
Url=input('输入你要爬77读书小说的网站:')
response = requests.get(Url, cookies=cookies, headers=headers, verify=False)
response.encoding=response.apparent_encoding
et=etree.HTML(response.text)
url=et.xpath("//div[@class='control']/span/a[@class=' pre_z pmulu']/@href")
ret=et.xpath("//div[@class='page-body']/div[@class='page-content']/text()")
novel=''.join(ret) 
novel_clean= re.sub(r'[\xa0\r\n]+', '', novel)
url_clenn=[re.sub(r''$', '', p) for p in url]
zurl=url_clenn[0]
with open(f'new{0}.tex','w') as file:
        file.write(novel_clean)
for i in range(1,3): ##爬多少张这里是3章
    response = requests.get(zurl, cookies=cookies, headers=headers, verify=False)
    response.encoding=response.apparent_encoding
    et=etree.HTML(response.text)
    url=et.xpath("//div[@class='control']/span/a[@class=' pre_z pmulu']/@href")
    ret=et.xpath("//div[@class='page-body']/div[@class='page-content']/text()")
    novel=''.join(ret) 
    novel_clean= re.sub(r'[\xa0\r\n]+', '', novel)
    url_clenn=[re.sub(r''$', '', p) for p in url]
    zurl=url_clenn[0]
    with open(f'new{i}.tex','w') as file:
        file.write(novel_clean)
print("成功")

总结

re库是找Ai的,后面需多加学习

这个太过简单,还需学习

标签:novel,url,爬虫,class,re,简单,div,小说,response
From: https://www.cnblogs.com/wuqu/p/18621567

相关文章

  • 「Mac玩转仓颉内测版54」应用篇1 - 编写一个简单的计算器
    本篇通过仓颉编程语言实现一个简单的计算器应用,支持加法、减法、乘法和除法四种基本运算。用户可通过交互式输入完成运算并实时查看结果。关键词仓颉编程语言输入与输出条件语句算术运算一、功能说明开发目标:用户输入两个数字。用户选择一个运算符(+、-、*、/)。程序根......
  • 爬虫Js逆向 -数据加密板块
    分析步骤:第一步分析是否为混淆JS        判断是否为混淆JS  看调用的堆栈名称是否简洁易懂  下图为非混淆​无混淆的情况下关键字(不可以很泛)   跟栈拦截器responseJSONparse hookdecrypt(本文讲的是非混淆的数据加密跟栈网站: 资讯-精灵数......
  • Python 自动化爬虫 绕过JS逆向 爬取淘宝商品数据
    声明:此篇博客仅用于学习交流使用 任何用于非法用途的均与作者无关需要登陆pc端淘宝账号本案例所使用到的模块及工具:Drissionpage  自动化模块  pipinstaldrissionpageJsontimepandas保存数据模块  网址: 淘宝(taobao.com) 爬取步骤:一.初始化浏览器......
  • 一个简单但不起眼的配置,提升MD04查询体验
    文章目录前言MD04界面MRP元素缩写SPRO配置修改后的MD04和ATP可用性检查界面前言【SAP系统PP模块研究】众所周知,MRP物料需求计划功能是很多项目中的核心难点、重点需求,也是PP顾问绕不过去的大山。MRP的逻辑、功能当然是非常复杂的,譬如MD04库存/需求这个实时报表功能......
  • Redis应用—9.简单应用汇总
    大纲1.基于Redis实现的简单缓存机制(String数据结构)2.实现一个最简单的分布式锁(String数据结构)3.博客网站的文章发布与查看(String数据结构)4.博客字数统计与文章预览(String数据结构)5.用户操作日志审计功能(String数据结构)6.实现一个简单的唯一ID生成器(incr命令)7.......
  • Redis应用—9.简单应用汇总
    大纲1.基于Redis实现的简单缓存机制(String数据结构)2.实现一个最简单的分布式锁(String数据结构)3.博客网站的文章发布与查看(String数据结构)4.博客字数统计与文章预览(String数据结构)5.用户操作日志审计功能(String数据结构)6.实现一个简单的唯一ID生成器(incr命令)......
  • CMake 语法简单整理 项目文件最后
    基本命令#HeadEnlargerWithCMake#CMake真是十分甚至九分的令人头大喵message("\n======================================================================")message("--基本命令喵")message("========================================================......
  • springboot毕设小说阅读平台的设计与实现论文+程序+部署
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、研究背景在当今数字化时代,人们的阅读习惯发生了巨大转变。随着互联网技术的飞速发展以及移动设备的广泛普及,传统纸质书籍的阅读逐渐被电子阅读所替代。在......
  • Spring Boot教程之三十五: 创建一个简单的 RestController
    在SpringBoot中创建一个简单的RestControllerSpringBoot建立在Spring之上,包含Spring的所有功能。由于其快速的生产就绪环境,使开发人员能够直接专注于逻辑,而不必费力配置和设置,因此如今它正成为开发人员的最爱。SpringBoot是一个基于微服务的框架,在其中创建生产就......
  • 【Rive】Rive在Android上的简单应用
    1前言​Rive是一款强大的矢量图编辑器,可以设计图形、也可以制作动画。Rive提供了矩形、圆形、三角形、多边形、星形、钢笔、文字等工具来绘制各式各样的矢量图形;提供了平移、旋转、缩放等工具对矢量图形进行各种变换;提供了骨骼、约束、时间线、状态机、过渡条件、事件监听......