xpath爬取笔趣阁小说_完美世界

时间：2022-12-11 15:01:50浏览次数：39

标签：xpath content url text chapter 爬取 html div 笔趣

1、获取小说名称、章节页链接、章节名

xpath爬取笔趣阁小说_完美世界_html

list_html = requests.get(url=url,headers=headers)
selector =etree.HTML(list_html.text)
lis =selector.xpath('/html/body/div[3]/div[2]/div[1]/div[2]/ul/li/a/@href') #提取所有章节页
title = selector.xpath('/html/body/div[3]/div[1]/div/div/div[2]/div[1]/h1/text()')[0]
chapters = selector.xpath('/html/body/div[3]/div[2]/div[1]/div[2]/ul/li/a/text()') #获取章节标题
print(title,chapters)

2、拼接所有章节页链接

lis =["http://www.bqge.com" + i for i in lis] #拼接所有章节完整链接

3、提取章节名和内容并下载

for li,chapter in zip(lis,chapters):
    req = requests.get(url=li,headers=headers)
    sel = etree.HTML(req.text)
    content = sel.xpath('////*[@id="content"]/p/text()') #获取小说内容
    content = '\n'.join(content) #连接小说内容，#用换行符\n 拼接列表
    this_chapter =f'\n{chapter}\n{content}'
    with open(file=file_name,mode='a',encoding='UTF-8') as f:
        f.write(this_chapter)
    print(f'{chapter}--下载完成！') #打印下载

4、翻页爬取

if __name__ == '__main__':
    urls = ['http://www.bqge.com/0_14/{}/'.format(str(i)) for i in range(1,44)]
    for url in urls:
        get_info(url)
        time.sleep(1)

5、代码

import requests
from lxml import etree
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}

def get_info(url):
    list_html = requests.get(url=url,headers=headers)
    selector =etree.HTML(list_html.text)
    lis =selector.xpath('/html/body/div[3]/div[2]/div[1]/div[2]/ul/li/a/@href') #提取所有章节页
    title = selector.xpath('/html/body/div[3]/div[1]/div/div/div[2]/div[1]/h1/text()')[0]
    chapters = selector.xpath('/html/body/div[3]/div[2]/div[1]/div[2]/ul/li/a/text()') #获取章节标题
    print(title,chapters)

    file_name = f'完美世界/{title}.txt' #定义本地存储名称
    lis =["http://www.bqge.com" + i for i in lis] #拼接所有章节完整链接
    for li,chapter in zip(lis,chapters):
        req = requests.get(url=li,headers=headers)
        sel = etree.HTML(req.text)
        content = sel.xpath('////*[@id="content"]/p/text()') #获取小说内容
        content = '\n'.join(content) #连接小说内容，#用换行符\n 拼接列表
        this_chapter =f'\n{chapter}\n{content}'
        with open(file=file_name,mode='a',encoding='UTF-8') as f:
            f.write(this_chapter)
        print(f'{chapter}--下载完成！') #打印下载

if __name__ == '__main__':
    urls = ['http://www.bqge.com/0_14/{}/'.format(str(i)) for i in range(1,44)]
    for url in urls:
        get_info(url)
        time.sleep(1)

标签：xpath,content,url,text,chapter,爬取,html,div,笔趣
From： https://blog.51cto.com/u_15698082/5928336

Python爬虫实战，requests+xlwt模块，爬取螺蛳粉商品数据（附源码）
前言今天给大家介绍的是Python爬取螺蛳粉商品数据，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫，基本的是......
【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论
您好，我是@马哥python说，一枚10年程序猿。一、爬取目标之前，我分享过一些B站的爬虫：【Python爬虫案例】用Python爬取李子柒B站视频数据【Python爬虫案例】用python爬哔哩哔......
PYTHON爬取图片
fromthreadingimportThreadfromconcurrent.futuresimportThreadPoolExecutorfrommultiprocessingimportProcess,Queueimportrequestsfromlxmlimportetreefro......
Xpath定位元素
1、Xpath语法xpath介绍：XPath即为XML路径语言（XMLPathLanguage），它是一种用来确定XML文档中某部分位置的语言。一，作用和痛点前面的只能是单一属性，文本，标签名称。可以通......
Python爬取世界杯热搜榜，并制作脚本自动发送信息到邮箱
前言现在正是卡塔尔世界杯激战正酣的时候，每天都有各种各样的新闻。而且，不同的球队，随着比赛的进程，关注的热度也会发生翻天覆地的变化。今天我们就来获取卡塔尔世界的球......
006爬虫之xpath获取猪八戒网商家信息
今天来学习一个之后会一直用到的解析方式：xpath，这个是重点，必须会。首先我们需要安装lxml模块：pipinstalllxml用法：1、将要解析的html内容构造出etree对象；2、使用etree......
使用Python爬取新冠肺炎实时情况
1.实验目的•理解抓取网页的含义和URL基本构成；•掌握类和函数及模块的设计与实现；•掌握网络爬虫原理。•理解Unicode编码。2.实验内容本次实验是通过编写Pyt......
Python爬虫实战，requests+time模块，爬取某招聘网站数据并保存csv文件（附源码）
前言今天给大家介绍的是Python爬取某招聘网站数据并保存本地，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬......
爬取腾讯职位
#coding=gbkimportrequestsfromlxmlimportetreeimporttime#每页的职位数PAGE_SIZE=10BASE_DOMAIN='https://hr.tencent.com/'HEADERS={"Use......
Python爬虫实战，Request+urllib模块，批量下载爬取网易云音乐飙歌榜所有音乐文件
前言今天给大家介绍的是Python爬取飙歌榜所有音频数据并保存本地，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来......

xpath爬取笔趣阁小说_完美世界

相关文章

赞助商

阅读排行