从某些网站上得到了一些考试题目,但是人家的排版时:题目、选项、正确答案
怎么才能把题目都提取到文件的一列,选项提取到一列,答案提取到一列呢?
使用了lxml这个库,不过这个库需要安装: pip install lxml
>>> from lxml import etree
#打开这个本地文件,然后把这个html文件使用open打开,然后read到data,然后让etree.HTML处理这些
#然后重点时使用xpath就可以进行搜索了
>>> f=open("gov.html","r",encoding="utf8")
>>> data=f.read()
>>>f.close()
>>> html=etree.HTML(data)
>>> timus=html.xpath("//span[@class='p-ques-desc']")
>>> len(timus)
10
>>> print(timus[0].text)
可视化展示为一体的经济大数据智能分析平台:
-------
重点就是使用xpath来进行规整了
标签:xpath,lxml,提取,python,html,etree,timus From: https://www.cnblogs.com/zhangruipeng/p/17112706.html