首页 > 其他分享 >正则爬取实例

正则爬取实例

时间:2022-08-19 14:59:35浏览次数:71  
标签:title url resp 爬取 headers 正则 实例 print data

import re

import requests


url = 'https://b.faloo.com/1183478 1.html'


headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
res = requests.get(url,headers=headers)
# 匹配每个章节的链接

chapter_url = re.findall('<a class="c_con_li_datail" href="(.*?)',res.text)
# print(chapter_url)
for data_url in chapter_url:
new_url = 'https:'+data_url
# print(new_url)
# 请求单个章节的完整内容
resp = requests.get(new_url,headers=headers)
# 提取标题
title = re.findall('<h1>(.*?)</h1>',resp.text)
# print(title)
# 提取文章内容
content = re.findall('<div class="noveContent">([\s\S]*?)<b><font color=red>',resp.text)
# 内容处理
data = content[0].replace('<p>','\n').replace('</p>','')
with open('./novel/{}.txt'.format(title),'w',encoding='utf-8') as f1:
f1.write(data)
print('正在写入--{}--'.format(title))

标签:title,url,resp,爬取,headers,正则,实例,print,data
From: https://www.cnblogs.com/longwanghzx/p/16601958.html

相关文章

  • 一次正则表达式的使用记录
    背景今天老大让我解决一个问题,这个问题的场景是后台管理商品模块编辑商品时,商品信息的商品详情无法回显,但是不是所有商品都不能回显,有的能回显,有的不能回显.定位问......
  • Nginx 反向代理实例1
     一、实现效果打开浏览器,在浏览器地址栏输入地址www.123.com,跳转到liunx系统tomcat主页面中  二、准备工作在linux中安装tomcathttps://www.cnblogs.com/zy......
  • js正则过滤字母
    <inputtype="text"id="txt"/><inputtype="button"onclick="check()"value="检测输入"/><script>functioncheck(){varreg=/[A-Za-z]/g;varinpu......
  • 学习:python 小试验 ruquest爬虫 爬取音乐
    控制台抓包获取音乐链接不多说了   最后成功下载到本地 ......
  • python爬虫实例: 对指定城市kfc餐厅信息的爬取
    python爬虫实例:对指定城市kfc餐厅信息的爬取要求:爬取指定kfc餐厅数据kfc餐厅查询的url:http://www.kfc.com.cn/kfccda/storelist/index.aspx分析:由于餐厅信息......
  • 正则
    正则表达式的概述正则表达式(RegularExpression)是一个描述字符模式的对象,用于对字符串进行匹配,一般用在有规律的字符串匹配中;常用于表单验证以及相关的字符串匹配......
  • 从操作实例“UI界面实现SSH登录服务器并执行命令监控”中学习到的线程与线程间参数传
    从操作实例“UI界面实现SSH登录服务器并执行命令监控”中学习到的线程与线程间参数传递方法记录;https://www.cnblogs.com/babashi9527/p/16594881.html参照此代码中的实......
  • leetcode10-正则表达式匹配
    正则表达式匹配dpdp[i][j]表示s[0:i]和p[0:j]是否匹配。如果i==0&&j==0,那么说明两个字符串都没有选择字符,是true如果j==0,那么说明匹配串没有字符而原字符串......
  • el-input onkeyup 正则验证
    <el-inputv-model.trim="formData.businessBudget"placeholder="请输入商机预算"clearable:disabled="disabled"onkeyup="value=value.replace......
  • 正则表达式断言和分组捕获以及贪婪
    正则的写法比较多,而且方法也很多,做到提取,替换,都需要不同的正则来一,零宽断言(正向先行断言,负向先行断言,负向后行断言,正向后行断言) 断言:断定正则里面有什么字符 零宽:......