首页 > 编程语言 >Python Selenium 获取页面所有文本内容

Python Selenium 获取页面所有文本内容

时间:2022-11-01 12:36:08浏览次数:69  
标签:lxml Python text Selenium source html 文本 driver 页面


分享知识  传递快乐

用 Selenium 爬虫获取网页上显示的文本,首先安装 lxml 模块:

pip install lxml

代码:

driver = webdriver.Chrome()
driver.maximize_window()
driver.get("url")

# 获取页面源代码
html_source = driver.page_source
# 重点
html = lxml.html.fromstring(html_source)
# 获取标签下所有文本
items = html.xpath("//div[@id='y_prodsingle']//text()")
# 正则 匹配以下内容 \s+ 首空格 \s+$ 尾空格 \n 换行
pattern = re.compile("^\s+|\s+$|\n")

clause_text = ""
for item in items:
# 将匹配到的内容用空替换,即去除匹配的内容,只留下文本
line = re.sub(pattern, "", item)
if len(line) > 0:
clause_text += line + "\n"
#
#
print(clause_text)

参考:

Python lxml 从网页HTML/XML提取数据

如果您另有获取页面文本的方法请留言。

—————————
如有不足请留言指正
相互学习,共同进步

标签:lxml,Python,text,Selenium,source,html,文本,driver,页面
From: https://blog.51cto.com/u_15856116/5813276

相关文章

  • Centos7 安装Python3环境
    分享知识 传递快乐  很多linux系统上都会自带python2的环境,这里主要记录在centos7中安装python3。安装依赖[root@contos7local]#yuminstallgcc-c++zlibzl......
  • python安全学习笔记-沙箱逃逸
    沙箱逃逸免责声明本文档仅供学习和研究使用,请勿使用文中的技术源码用于非法用途,任何人造成的任何负面影响,与本人无关.相关文章初探Python沙箱逃逸IS-pwn-escape......
  • 学习笔记-Python安全
    Python安全免责声明本文档仅供学习和研究使用,请勿使用文中的技术源码用于非法用途,任何人造成的任何负面影响,与本人无关.代码混淆Hnfull/Intensio-Obfuscator:Ob......
  • Python matplotlib 学习——建立画布和坐标系
    #导入包importmatplotlib.pyplotasplt#让图表在jupyter展示出来%matplotlibinline#解决中文乱码问题plt.rcParams["font.sans-serif"]='SimHei'#解决负号无法显示plt.......
  • Python 生成器
    什么是生成器:生成器是Python中的一个对象(按照某种规律,来生成元素的对象),生成器不是列表,保存了产生元素的算法,同时会记录游标的位置(现在拿到第几个元素了),为了下次继续拿......
  • JavaWeb学习(四)期中考试总结(方框形式超链接,对修改页面进行优化,多条件模糊查询、输入长
    一、方框形式超链接 <inputtype="button"value="注册"onclick="location.href='zhuce.jsp'"/>  二、对修改页面进行优化<tr><td>活动主题(不超过20个汉......
  • Java实现HTML页面截图功能
    概述业务开发中,经常会有HTML页面截图,或打印另存为PDF文件的需求。本文即是HTML页面截图需求的技术调研过程的成文。不想看长篇大论的同学,可以直接看Selenium部分,本人最后也......
  • 【Python】AES.MODE_CBC和 AES.MODE_ECB 加解密
    AES加解密MODE_CBC和MODE_ECB两种模式的完整实现 importjsonfromCrypto.CipherimportAESimportbase64importbinascii#数据类classMData():def__i......
  • Python 基础:入门必备知识
    Python基础:入门必备知识1标识符标识符是编程时使用的名字,用于给变量、函数、语句块等命名,Python中标识符由字母、数字、下划线组成,不能以数字开头,区分大小写。以下......
  • 【Python】django
    安装虚拟环境windowsmkvirtualenv-pC:\Users\Administrator\AppData\Local\Programs\Python\Python38\Python.exedjango_testlinuxmkvirtualenv-ppython3django......