首页 > 编程语言 >python使用lxml库进行本地html文件的内容提取

python使用lxml库进行本地html文件的内容提取

时间:2023-02-11 22:35:24浏览次数:42  
标签:xpath lxml 提取 python html etree timus

从某些网站上得到了一些考试题目,但是人家的排版时:题目、选项、正确答案

怎么才能把题目都提取到文件的一列,选项提取到一列,答案提取到一列呢?

使用了lxml这个库,不过这个库需要安装:  pip install lxml

>>> from lxml import etree

#打开这个本地文件,然后把这个html文件使用open打开,然后read到data,然后让etree.HTML处理这些

#然后重点时使用xpath就可以进行搜索了
>>> f=open("gov.html","r",encoding="utf8")
>>> data=f.read()

>>>f.close()
>>> html=etree.HTML(data)
>>> timus=html.xpath("//span[@class='p-ques-desc']")
>>> len(timus)
10
>>> print(timus[0].text)
可视化展示为一体的经济大数据智能分析平台:

-------

重点就是使用xpath来进行规整了

标签:xpath,lxml,提取,python,html,etree,timus
From: https://www.cnblogs.com/zhangruipeng/p/17112706.html

相关文章

  • python and or 运算
    1. and x= yandz前后两个值用and,如果两个都为真,返回第二个值;如果两只都为假,则返回顺序上第一个出现为假值的值;如果一个为真,一个为假,则返回顺序上第一个出......
  • 利用python自动将下载好的音视频合成
    网上看到一个油猴脚本,可以自动下载任何视频,下载后自动生成音频和视频,需要用到ffmpeg对音视频进行合成,于是花了几个小时写了一个python脚本,实现自动扫描并合成视频功能使用......
  • Python 高级编程之生成器与协程进阶(五)
    目录一、概述二、生成器1)生成器和迭代器的区别2)生成器创建方式1、通过生成器函数创建2、通过生成器表达式创建3)生成器表达式4)yield关键字5)生成器函数6)return和yield异同......
  • python 变量拷贝(深拷贝&浅拷贝)
    #浅拷贝:拷贝父对象,不拷贝对象内部的子对象importcopya={'a':[1,2,3]}b=a.copy()a['a'].append(4)print(a,b)print(id(a['a']),id(b['a']))print("="*......
  • Python黑客编程之爆破网站登录表单
    描述遍历字典,发送requests请求到目标网站,根据响应判断是否登录成功分析SecLists仓库中存放了大量有用的字典文件,我这里用了一个爆破字典cain.txt在本地部署wordpres......
  • 2023最新Python阅读书籍推荐
    abyteofpython(中文:简明Python教程)入门的书很多,但能让新手轻松看懂的就少了,作者写的思路非常清晰,对每一个知识点讲解的很到位,不多不少,对初学者来说,力道刚刚好。这本书是......
  • HTML6 All In One
    HTML6AllInOnehttps://en.wikipedia.org/wiki/HTML6❌dialoghttps://developer.mozilla.org/en-US/docs/Web/HTML/Element/dialoghttps://developer.mozilla.org......
  • python路径 目录 文件夹
    绝对路径1、os.path方法importosimportsyscurrent_directory=os.path.dirname(os.path.abspath(__file__))print(current_directory)2、os.path.abspath方法import......
  • Python黑客编程之暴力字典web扫描器
    描述通过读取字典中的关键字,拼接成url,来测试目标站点文件目录结构代码设置了一个resume参数,如果因为网络等问题导致扫描中断,重新启动扫描时可以将resume设置为上次......
  • Python SQLite创建数据库和数据表及数据的增删改查
    SQLite是一款轻型的SQL类型数据库,处理速度快且占用资源非常低,Python自带,不需要配置不需要任何外部的依赖。数据库本身就是一个.db文件,非常适合存储本地数据。本文主要介绍......