首页 > 其他分享 >利用爬虫批量下载小说内容

利用爬虫批量下载小说内容

时间:2024-07-02 12:58:09浏览次数:15  
标签:xpath 批量 zhang text 22% list 爬虫 3A% 下载

# 此文章仅供学习参考
#   http://book.zongheng.com/
#   https://www.zongheng.com/books?worksTypes=6104  大类链接

#   https://read.zongheng.com/chapter/1215587/68240827.html   第一章链接< li class ="vip col-4" > < a href = "https://book.zongheng.com/chapter/1284449/76763917.html" target = "_blank"
#   title = "第225章、就在今夜! 字数:2034 更新时间:2024-03-11 22:40 " > 第225章、就在今夜! < / a >
#   < / li >

#   加载工具模块
import  requests
from lxml  import etree
#   伪装浏览器
url = 'https://book.zongheng.com/showchapter/1284449.html'
headers= {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.95 Safari/537.36',
    'Cookie':'ZHID=94DB8B154A85AE873EE5532658AF6563; ver=2018; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%221906991079d1e4f-06888a4be6cdcd-3f675015-1327104-1906991079e1793%22%2C%22%24device_id%22%3A%221906991079d1e4f-06888a4be6cdcd-3f675015-1327104-1906991079e1793%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; zh_visitTime=1719758030760; PassportCaptchaId=167327a4e811e11b8f784866c5da3d67; zhffr=0; Hm_lvt_c202865d524849216eea846069349eb9=1719758031,1719780859; Hm_lpvt_c202865d524849216eea846069349eb9=1719785764'
}
res = requests.get(url,headers=headers)
xs_list = etree.HTML(res.text)
#   定义变量
num = 0
#   执行语句
while True:
#   20章分界class 不一样
    if num < 20:
       zhang_list = xs_list.xpath('//li[@class=" col-4"]/a')
    else:
       zhang_list = xs_list.xpath('//li[@class="vip col-4"]/a')
#   循环语句获得章节名称和地址
    for zhang in zhang_list:
        zhangurl = zhang.xpath('@href')[0]
        zhangname = zhang.xpath('./text()')[0]

#   在章节页面找到文章内容
        res = requests.get(zhangurl,headers=headers)
        zj_list = etree.HTML(res.text)
        nr_list = zj_list.xpath('//div[@class="content"]/p')
#   将文本写入章节记事本
        with open(f'./text/{zhangname}.txt', 'w', enconding = "utf-8") as f:
            for nrlist in nr_list:
                 nr = nrlist.xpath('./text()')[0]
                 f.write(nr + '\n')

    num += 1


标签:xpath,批量,zhang,text,22%,list,爬虫,3A%,下载
From: https://blog.csdn.net/lfsysc/article/details/140123833

相关文章

  • 会声会影2024破解版永久免费版本下载地址
    会声会影2024破解版下载是一款功能强大的视频编辑软件,它提供了许多令人兴奋的功能和工具,使用户可以轻松地创建专业水平的视频。以下是该软件的一些主要特点:会声会影全版本绿色安装包获取链接:(抓紧保存以防失效)https://pan.quark.cn/s/06e2f90a8526会声会影最新一键安装包下载......
  • 更加优雅的下载文件 --- http header Content-Disposition 学习
    更加优雅的下载文件---httpheaderContent-Disposition学习在响应头中在请求头中a标签的download属性小结Content-Disposition在响应头中,告诉浏览器如何处理返回的内容,在表单提交中,说明表单字段信息。在响应头中用在响应头中,告诉浏览器如何处理返回的内容......
  • 会声会影2024破解版下载!电脑视频编辑的革新力量
    在数字化时代,视频已成为人们表达自我、分享生活的重要工具。然而,面对海量的视频素材,如何高效地剪辑和制作出令人瞩目的作品,成为了许多创作者的一大挑战。这时,一款功能强大、操作简便的视频编辑软件就显得尤为重要。今天,我要为大家介绍的是会声会影2024破解版,这款软件以其独特的......
  • 会声会影2024破解版永久免费安装包下载 附带激活码序列号
    “我正在使用会声会影2024,破解版。”在平台上搜索“会声会影”,这样的留言并不罕见。会声会影是一款视频剪辑软件,由友立公司出品。友立公司于1986年成立于美国加利福尼亚州,1990年推出了世界上第一个可负担的视频编辑系统。2023年,友立公司宣布,旗下视频编辑软件会声会影的2024......
  • 会声会影2024官方终身永久免费旗舰版下载 包含激活码注册码
    文图、标题、内容策划,一个人也很难完成。准备定位:账号运营,还是产品运营,根据自己的定位选取合适的自媒体平台。会声会影2024破解版是一款功能强大的视频编辑软件,它不仅提供了丰富的视频剪辑功能,还具备强大的特效和转场效果,让用户能够轻松制作出专业级别的视频作品。会声会影202......
  • 自动化(爬虫)工具 DrissionPage SessionPage模式 API介绍 使用笔记(三)
    自动化(爬虫)工具DrissionPageSessionPage模式API介绍使用笔记(三)目录启动驱动启动配置常用方法(API)启动最简单的启动方式,更多启动方式见这里fromDrissionPageimportSessionPage#session_or_options:Session对象或SessionOptions对象#timeout:超时时间(秒)o......
  • 银河麒麟高级服务器操作系统V10 SP3 2403 下载地址
      iso下载:https://distro-images.kylinos.cn:8802/web_pungi/download/share/l4IytxvsPQnbJK6T2krVHa0GANe9Mf7i/Kylin-Server-V10-SP3-2403-Release-20240426-x86_64.isoisoarm版下载:https://distro-images.kylinos.cn:8802/web_pungi/download/share/0EBoRu1yPhkcA8qxLFe......
  • 基于Python网络爬虫的二手房数据采集及可视化分析项目源码+使用教程+爬虫+报告PPT+详
    文章目录源码下载地址项目介绍项目功能界面预览项目备注源码下载地址源码下载地址点击这里下载代码项目介绍基于Python的南京二手房数据采集及可视化分析1内容简介首先通过爬虫采集链家网上所有南京二手房的房源数据,并对采集到的数据进行清洗;然后,对清洗后的数......
  • 3、爬虫-selenium-获取用户cookie的使用
    注意这里使用的是chrom浏览器、所以要下载对应版本的chromdriver.exe工具、且放在同一文件目录下或者在电脑中设置环境变量、或者放在pycharm安装目录下的 E:\installDir\python\Scripts 路径下即可chromedriver-120.exefromseleniumimportwebdriver#webdriver.Chrom......
  • 5、爬虫-数据的提取-xpath-html中提取
    从哪里提取:html、json、xml实现方式:正则、截取、xpath、css、bs4 这里使用xpath工具:  ·安装:pipinstalllxml """使用xpath工具提取网页中视频的标题"""importrequestsfromlxmlimportetree#使用xpathheaders={"User-Agent":"Mozilla/5.0......