python使用lxml库进行本地html文件的内容提取

时间：2023-02-11 22:35:24浏览次数：47

标签：xpath lxml 提取 python html etree timus

从某些网站上得到了一些考试题目，但是人家的排版时：题目、选项、正确答案

怎么才能把题目都提取到文件的一列，选项提取到一列，答案提取到一列呢？

使用了lxml这个库，不过这个库需要安装: pip install lxml

>>> from lxml import etree

#打开这个本地文件，然后把这个html文件使用open打开，然后read到data，然后让etree.HTML处理这些

#然后重点时使用xpath就可以进行搜索了
>>> f=open("gov.html","r",encoding="utf8")
>>> data=f.read()

>>>f.close()
>>> html=etree.HTML(data)
>>> timus=html.xpath("//span[@class='p-ques-desc']")
>>> len(timus)
10
>>> print(timus[0].text)
可视化展示为一体的经济大数据智能分析平台：

-------

重点就是使用xpath来进行规整了

标签：xpath,lxml,提取,python,html,etree,timus
From： https://www.cnblogs.com/zhangruipeng/p/17112706.html

python and or 运算
1. and x= yandz前后两个值用and，如果两个都为真，返回第二个值；如果两只都为假,则返回顺序上第一个出现为假值的值;如果一个为真,一个为假，则返回顺序上第一个出......
利用python自动将下载好的音视频合成
网上看到一个油猴脚本，可以自动下载任何视频，下载后自动生成音频和视频，需要用到ffmpeg对音视频进行合成，于是花了几个小时写了一个python脚本，实现自动扫描并合成视频功能使用......
Python 高级编程之生成器与协程进阶（五）
目录一、概述二、生成器1）生成器和迭代器的区别2）生成器创建方式1、通过生成器函数创建2、通过生成器表达式创建3）生成器表达式4）yield关键字5）生成器函数6）return和yield异同......
python 变量拷贝（深拷贝&浅拷贝）
#浅拷贝：拷贝父对象，不拷贝对象内部的子对象importcopya={'a':[1,2,3]}b=a.copy()a['a'].append(4)print(a,b)print(id(a['a']),id(b['a']))print("="*......
Python黑客编程之爆破网站登录表单
描述遍历字典，发送requests请求到目标网站，根据响应判断是否登录成功分析SecLists仓库中存放了大量有用的字典文件，我这里用了一个爆破字典cain.txt在本地部署wordpres......
2023最新Python阅读书籍推荐
abyteofpython（中文：简明Python教程）入门的书很多，但能让新手轻松看懂的就少了，作者写的思路非常清晰，对每一个知识点讲解的很到位，不多不少，对初学者来说，力道刚刚好。这本书是......
HTML6 All In One
HTML6AllInOnehttps://en.wikipedia.org/wiki/HTML6❌dialoghttps://developer.mozilla.org/en-US/docs/Web/HTML/Element/dialoghttps://developer.mozilla.org......
python路径目录文件夹
绝对路径1、os.path方法importosimportsyscurrent_directory=os.path.dirname(os.path.abspath(__file__))print(current_directory)2、os.path.abspath方法import......
Python黑客编程之暴力字典web扫描器
描述通过读取字典中的关键字，拼接成url，来测试目标站点文件目录结构代码设置了一个resume参数，如果因为网络等问题导致扫描中断，重新启动扫描时可以将resume设置为上次......
Python SQLite创建数据库和数据表及数据的增删改查
SQLite是一款轻型的SQL类型数据库，处理速度快且占用资源非常低，Python自带，不需要配置不需要任何外部的依赖。数据库本身就是一个.db文件，非常适合存储本地数据。本文主要介绍......

python使用lxml库进行本地html文件的内容提取

相关文章

赞助商

阅读排行