python学习记录：爬取起点小说信息保存到excel爬虫源码

时间：2022-10-17 18:00:44浏览次数：60

标签：info xpath style python text list 爬取源码 div

import xlwt
import requests
from lxml import etree
import time
import xlsxwriter
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
all_info_list=[]

def get_info(url):
    html=requests.get(url,headers=headers)
    selector=etree.HTML(html.text)
    infos=selector.xpath('//ul[@class="all-img-list cf"]/li')
    for info in infos:
        name=info.xpath('div[2]/h2/a/text()')[0]
        author=info.xpath('div[2]/p[1]/a[1]/text()')[0]
        style_1=info.xpath('div[2]/p[1]/a[2]/text()')[0]
        style_2=info.xpath('div[2]/p[1]/a[3]/text()')[0]
        style=style_1+'.'+style_2
        complete=info.xpath('div[2]/p[1]/span/text()')[0]
        introduce=info.xpath('div[2]/p[2]/text()')[0].strip()
        word=info.xpath('div[2]/p[3]/span/span/text()')[0].strip('万字')
        info_list=[name,author,style,complete,introduce,word]
        all_info_list.append(info_list)
    time.sleep(1)
if __name__=='__main__':
    urls=['https://www.qidian.com/all/page{}/'.format(str(i)) for i in range(1,6)]
    for url in urls:
        get_info(url)
    header=['书名','作者','小学类型','完成情况','摘要','字数']
    book=xlwt.Workbook(encoding='utf-8')
    sheet=book.add_sheet('小说信息')
    for h in range(len(header)):
        sheet.write(0,h,header[h])
    i=1
    for info_list in all_info_list:
        j=0
        for date in info_list:
            sheet.write(i,j,date)
            j=j+1
        i=i+1
    book.save('小说信息.xls')

标签：info,xpath,style,python,text,list,爬取,源码,div
From： https://www.cnblogs.com/qlsh/p/16800086.html

python学习记录：简单二维码生成器源码
Function: 二维码生成器Author: 琴棋书画'''importioimportsysimportqrcodefromPyQt5importQtWidgets,QtGuifromPyQt5.QtWidgetsimportQA......
【Python】第3章-6 求整数序列中出现次数最多的数
本题要求统计一个整型序列中出现次数最多的整数及其出现次数。输入格式：输入在一行中给出序列中整数个数N（0<N≤1000），以及N个整数。数字间以空格分隔。输出格式：在一行中输......
python第16课--
1.作业讲解登录校验装饰器+用户权限1.有几个普通函数2.需要在执行之前添加校验用户信息的功能3.编写一个校验用户是否登录的装饰器4.定义全局变量存储用户是否登录的......
python学习记录：爬取网易云音乐爬虫代码
#爬取163音乐 importrequestsfromlxmlimportetreeurl='https://music.163.com/discover/toplist?id=3779629'domain='http://music.163.com/song/media/outer/ur......
python学习记录：酷我音乐VIP付费歌曲下载工具源码
酷我音乐VIP付费歌曲下载工具importrequestsimportprettytableasptprint('*******欢迎使用酷我音乐VIP付费歌曲下载工具**********')print()key=input('请输入你......
Python入门篇--变量与数据类型
目录......
python进制转换（附10进制与(2/8/16)进制互转实例）
......
python爬取“舔狼”语录-助你520之前找到girlfriends
......
【Python】pyqt6入门到入土系列，非常详细...
最近真的是运气不好，国庆前一天，隔壁小区有人中招了，结果国庆出不了门，好不容易国庆结束了，准备上班，结果小区又有个叼毛中招了，搞得我直接国庆放了半个月，还只能在家过，没事干只能......
python进阶之路15 之异常处理、生成器相关
异常捕获处理1.异常异常就是代码运行报错行业术语叫bug代码运行中一旦遇到异常会直接结束整个程序的运行我们在编写代码的过程中要尽可能避免2.异常分类......

python学习记录：爬取起点小说信息保存到excel爬虫源码

相关文章

赞助商

阅读排行