Spider·爬取小说

时间：2022-10-27 09:56:24浏览次数：96

标签：headers text tr Spider 爬取 item div 小说 find

导入资源包

import requests
import bs4

获取链接


url = 'https://www.17k.com/top/refactor/top100/18_popularityListScore/18_popularityListScore_finishBook_top_100_pc.html?TabIndex=1&typeIndex=0'

伪装用户


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

发送网络请求

req=requests.get(url=url,headers=headers)

将网络请求的响应由二进制转换为可读模式

req.encoding='utf-8'

将爬取到的内容进行装饰

soup=bs4.BeautifulSoup(req.text,"html.parser")

将小说的序号，分类，名称，作者分别爬取出来

div=soup.find_all('div',attrs={'class':'BOX'})[1]
tr_list=div.find_all('tr')
try:
    for item in tr_list[1:]:
        id=item.find('td').text
        sign=item.find('a').text
        book=item.find('a',attrs={'class':'red'}).text
        author=item.find_all('a')[3].text
        print(id,sign,book,author)


except Exception:
    print('异常')

标签：headers,text,tr,Spider,爬取,item,div,小说,find
From： https://www.cnblogs.com/JK8395/p/16831091.html

noi.cn 访问量爬取
网课期间开始的一项无聊的项目，对noi.cn的访问量进行爬取。具体操作为直接访问对应的网址，获取其网站底部的总访问量信息。爬虫使用Python编写，配合bat文件和Windows......
Python|爬取每日疫情数据并使用matplotlib绘制图像进行分析
网页分析数据源腾讯疫情实时追踪打开网址，F12进入开发者工具（刷新一下页面），如下，所有数据都可以通过接口获取：国内数据接口：https://api.inews.qq.com/newsqa/v1/query/inn......
爬取js渲染或ajax加密的网页（万能方法）
requests库Requests是Python的第三方库，它的安装非常简便，如下所示：python-mpipinstallrequestsRequests库是在urllib的基础上开发而来，它使用Python语言编写，并......
【自然语言处理概述】百度百科数据爬取
【自然语言处理概述】百度百科数据爬取作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践资源建......
爬取古诗词，优化微信公众号的被动回复用户消息功能
数据抓取花了小一周的空闲时间，爬取了小2千条诗人数据和2万多条古诗词数据，为自动回复使用自动回复首次关注公众号，推送信息按照诗人朝代划分#朝代DYNASTY={......
Python爬取猫眼电影榜单电影数据以及遇到问题总结
代码importcsvimportrandomimportreimporttimefromurllibimportrequestfromfake_useragentimportUserAgent#定义一个爬虫类classMaoyanSpider(obje......
下载小说
点击查看代码#@Author:昊阳#_*_coding:utf-8_*_#@Time:2022/10/21002120:26#@File:xiaoshuo#@Project:MyCaseimportparselimportrequestsfrom......
爬取起点小说信息存入excel
点击查看代码importurllib.requestfromlxmlimportetreeimportxlwt#请求地址url='https://www.qidian.com/all/action1-page1'#用户代理headers={......
python 爬取网页，带有post参数
https://blog.csdn.net/weixin_40340586/article/details/119457955 记录一下自己的爬虫踩过的坑，上一次倒是写了一些，但是写得不够清楚，这次，写清楚爬取的过程。这个网站......
95后网文作家九月酱《大国科技》创作记：科幻小说要有人文关怀精神
《大国科技》95后网文作家九月酱今年2月10日开始在阅文集团旗下起点中文网更新的科幻小说《大国科技》目前已经连载134万字了，他想要通过科技来展示国家方方面面的进步和发......

Spider·爬取小说

导入资源包

获取链接

伪装用户

发送网络请求

将网络请求的响应由二进制转换为可读模式

将爬取到的内容进行装饰

将小说的序号，分类，名称，作者分别爬取出来

相关文章

赞助商

阅读排行