首页 > 系统相关 >Python 爬虫html内存 re.findall 正则提取span

Python 爬虫html内存 re.findall 正则提取span

时间:2024-03-31 23:24:56浏览次数:22  
标签:提取 Python res re hot html findall

前言全局说明

爬虫html内存 re.findall 正则提取


一、百度首页热搜

(和百度原网页代码有修改)
需求:提取内容文字。

<ul class="s-hotsearch-content" id="hotsearch-content-wrapper">
  <li class="hotsearch-item odd" data-index="0">
    <span class="title-content-title">必须坚持人民至上</span>
    <span class="title-content-title">因平凡的你们熠熠闪光</span>
    <span class="title-content-title">已婚男子找王婆说媒 妻子:将离婚</span>
    <span class="title-content-title">凯迪拉克:泼天的流量轮到我了</span>
    <span class="title-content-title">爸爸穿得太显眼竟把女儿气哭</span>
    <span class="title-content-title">女子辅导儿子作业情绪崩溃踹断脚趾</span>
  </li>
</ul>

实现代码:
baidu_hot.py

import re

html_hot = """<ul class="s-hotsearch-content" id="hotsearch-content-wrapper">
  <li class="hotsearch-item odd" data-index="0">
    <span class="title-content-title">必须坚持人民至上</span>
    <span class="title-content-title">因平凡的你们熠熠闪光</span>
    <span class="title-content-title">已婚男子找王婆说媒 妻子:将离婚</span>
    <span class="title-content-title">凯迪拉克:泼天的流量轮到我了</span>
    <span class="title-content-title">爸爸穿得太显眼竟把女儿气哭</span>
    <span class="title-content-title">女子辅导儿子作业情绪崩溃踹断脚趾</span>
  </li>
</ul>"""

res = re.findall('<span class="title-content-title">(.*?)</span>', html_hot)

print("html_hot=", html_hot)
print("res=", res)

说明:
re.findall(<正则规则>, <待提取的数据>)
.*? 任意字符串内容
() 优先提取的内容,就是我们想要的内容

注意点:

  1. html_hot 的内容必须用 六个双引号内。

效果:
image


二、



三、



四、




免责声明:本号所涉及内容仅供安全研究与教学使用,如出现其他风险,后果自负。




参考、来源:
https://www.luffycity.com/ 路飞学城
2024-03-24_路飞3天/Day01/converter_1-1740_.ts.mp4 01:36:34



标签:提取,Python,res,re,hot,html,findall
From: https://www.cnblogs.com/wutou/p/18107435

相关文章

  • 虚拟机环境的搭建及Red Hot系统安装
     VMware虚拟机的安装准备好VMware安装包并下载虚拟机设置注:位置需自定义一个目录并保证所在磁盘空间足够大RedHat系统安装选择提前下载好的rhel系统镜像调出鼠标快捷键:ctrl+alt小键盘上下键移动光标按enter回车键取消启用kdump设置root账户......
  • Redis持久化:RDB与AOF
    redis将数据以键值对的形式存储在内存之中,而内存中的数据会掉电丢失,因此仅仅是把数据存储在内存是无法做到数据持久化的,因此还需要把数据转移到硬盘中去。Redis数据持久化有两只方式:定期备份RDB、实时备份AOF。RDB(RedisDataBase):数据备份存储的位置:(我们可以从redis.conf配置......
  • 在vmware16.2.5上安装虚拟机centos7.9镜像文件
    1:首先,下载vmware 进入到VMware的官网,这里小元子要和大家提前说一下哦,大家可以提前看一下自己的windous的版本,选择适合自己windous版本的vmware进行下载,避免下载以后由于版本问题不兼容。由于小元子是windous11,所以我选择下载vmware16.2.5,(温馨提示:版本兼容问题很重要,windous1......
  • Python数据结构与算法——数据结构(栈、队列)
    目录数据结构介绍列表栈栈的基本操作:栈的实现(使用一般列表结构即可实现):栈的应用——括号匹配问题队列队列的实现方式——环形队列 队列的实现方式——双向队列 队列内置模块栈和队列应用——迷宫问题栈——深度优先搜索 队列——广度优先搜索数据结构介绍......
  • Python数据结构与算法——数据结构(链表、哈希表、树)
    目录链表  链表介绍  创建和遍历链表  链表节点插入和删除  双链表  链表总结——复杂度分析哈希表(散列表)哈希表介绍哈希冲突哈希表实现哈希表应用树树树的示例——模拟文件系统二叉树二叉树的链式存储 二叉树的遍历二叉搜索树插入......
  • redis 5.0命令处理流程
    redis5.0命令处理流程初始化事件驱动数据结构:initServer中调用aeCreateEventLoop方法初始化server.el属性,然后调用listenToPort方法设置listen的fd,并为这些fd绑定读事件anetTcpHandler。anetTcpHandler循环1000次accept,然后对于连接调用acceptCommonHandle......
  • python str.format高级用法
    在Python2中,str.format()函数可以使用一些高级的格式化选项,下面是一些常用的高级用法:1.格式化数字可以使用格式化选项来控制数字的显示方式,例如:#将数字格式化为带千位分隔符的字符串n=1234567s="{:,}".format(n)print(s)#输出:1,234,567#将数字格式化为指定......
  • Springboot + redis分布式锁
    1.引入redis和redisson<!--redis--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency><!......
  • import resolve from '@rollup/plugin-node-resolve' 这个包的作用是什么
    importresolvefrom'@rollup/plugin-node-resolve'这行代码引入了Rollup.js的一个插件——@rollup/plugin-node-resolve。这个插件在使用Rollup进行模块打包时起到至关重要的作用,具体作用如下:**1.Node.js模块解析:@rollup/plugin-node-resolve插件的主要职责是帮助Ro......
  • 从虚拟dom知识无痛深入vue与react的原理
     我们都知道像vue、react都有用到虚拟dom,那么虚拟dom到底是什么?框架为什么不直接操作真实dom而要在中间要引入虚拟dom呢?vue和react的虚拟dom又有什么异同呢?我们就从虚拟dom开始讲起,再来逐步引入讲解vue与react的部分原理及其异同,这里会顺便讲解到数据驱动视图及视图驱动数据,......