正则爬取实例

正则爬取实例

时间：2022-08-19 14:59:35浏览次数：76

标签：title url resp 爬取 headers 正则实例 print data

import re

import requests


url = 'https://b.faloo.com/1183478 1.html'


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
res = requests.get(url,headers=headers)
# 匹配每个章节的链接

chapter_url = re.findall('<a class="c_con_li_datail" href="(.*?)',res.text)
# print(chapter_url)
for data_url in chapter_url:
    new_url = 'https:'+data_url
    # print(new_url)
    # 请求单个章节的完整内容
    resp = requests.get(new_url,headers=headers)
    # 提取标题
    title = re.findall('<h1>(.*?)</h1>',resp.text)
    # print(title)
    # 提取文章内容
    content = re.findall('<div class="noveContent">([\s\S]*?)<b><font color=red>',resp.text)
    # 内容处理
    data = content[0].replace('<p>','\n').replace('</p>','')
    with open('./novel/{}.txt'.format(title),'w',encoding='utf-8') as f1:
        f1.write(data)
        print('正在写入--{}--'.format(title))

标签：title,url,resp,爬取,headers,正则,实例,print,data
From： https://www.cnblogs.com/longwanghzx/p/16601958.html

一次正则表达式的使用记录
背景今天老大让我解决一个问题,这个问题的场景是后台管理商品模块编辑商品时,商品信息的商品详情无法回显,但是不是所有商品都不能回显,有的能回显,有的不能回显.定位问......
Nginx 反向代理实例1
一、实现效果打开浏览器，在浏览器地址栏输入地址www.123.com，跳转到liunx系统tomcat主页面中二、准备工作在linux中安装tomcathttps://www.cnblogs.com/zy......
js正则过滤字母
<inputtype="text"id="txt"/><inputtype="button"onclick="check()"value="检测输入"/><script>functioncheck(){varreg=/[A-Za-z]/g;varinpu......
学习：python 小试验 ruquest爬虫爬取音乐
控制台抓包获取音乐链接不多说了最后成功下载到本地 ......
python爬虫实例: 对指定城市kfc餐厅信息的爬取
python爬虫实例:对指定城市kfc餐厅信息的爬取要求：爬取指定kfc餐厅数据kfc餐厅查询的url：http://www.kfc.com.cn/kfccda/storelist/index.aspx分析:由于餐厅信息......
正则
正则表达式的概述正则表达式(RegularExpression)是一个描述字符模式的对象,用于对字符串进行匹配,一般用在有规律的字符串匹配中;常用于表单验证以及相关的字符串匹配......
从操作实例“UI界面实现SSH登录服务器并执行命令监控”中学习到的线程与线程间参数传
从操作实例“UI界面实现SSH登录服务器并执行命令监控”中学习到的线程与线程间参数传递方法记录；https://www.cnblogs.com/babashi9527/p/16594881.html参照此代码中的实......
leetcode10-正则表达式匹配
正则表达式匹配dpdp[i][j]表示s[0:i]和p[0:j]是否匹配。如果i==0&&j==0，那么说明两个字符串都没有选择字符，是true如果j==0，那么说明匹配串没有字符而原字符串......
el-input onkeyup 正则验证
<el-inputv-model.trim="formData.businessBudget"placeholder="请输入商机预算"clearable:disabled="disabled"onkeyup="value=value.replace......
正则表达式断言和分组捕获以及贪婪
正则的写法比较多，而且方法也很多，做到提取，替换，都需要不同的正则来一，零宽断言（正向先行断言，负向先行断言，负向后行断言，正向后行断言）断言：断定正则里面有什么字符零宽：......

相关文章

赞助商

阅读排行