首页 > 其他分享 >xpath 一键去除前后空白、回车、换行

xpath 一键去除前后空白、回车、换行

时间:2024-01-22 18:23:10浏览次数:38  
标签:xpath 10 一键 出版社 广西师范大学 11 2017 回车

使用xpath方式,打印结果,经常出现大量换行、空格等情况

from lxml import etree
# data = etree.parse('./素材/示例网站.html')

parser = etree.HTMLParser(encoding="utf-8") # 出现读取错误时,需要加入parser参数
data = etree.parse('./素材/示例网站.html', parser=parser)
chuban = data.xpath('//p[@class="color-gray"]/text()')
print(chuban)

# 打印结果,出现大量换行、空格等情况
['\r\n                        [意] 埃莱娜·费兰特 / 人民文学出版社 / 2017-10\r\n                    ', 
 '\r\n                        [美] 彼得·布雷瓦 / 后浪丨文化发展出版社 / 2017-11\r\n                    ', 
 '\r\n                        刘震云 / 长江文艺出版社 / 2017-11-1\r\n                    ', 
 '\r\n                        [美] 约翰·约瑟夫·亚当斯 编 / 新星出版社 / 2017-10\r\n                    ', 
 '\r\n                        [英] 约翰·福尔斯 / 百花文艺出版社 / 2017-10\r\n                    ', 
 '\r\n                        [俄] 列夫·托尔斯泰 / 东方出版社 / 2017-10\r\n                    ', 
 '\r\n                        [美] 芭芭拉·金索沃 / 南海出版公司 / 2017-10\r\n                    ', 
 '\r\n                        [英] 格雷厄姆·格林 / 江苏凤凰文艺出版社 / 2017-11\r\n                    ', 
 '\r\n                        [加] 艾丽丝·门罗 / 理想国丨广西师范大学出版社 / 2017-11-1\r\n                    ', 
 '\r\n                        木心 / 理想国 | 广西师范大学出版社 / 2017-10\r\n                    ', 
 '\r\n                        [日] 岩井俊二 / 浙江文艺出版社 / 2017-10\r\n                    ', 
 '\r\n                        [英] 萨拉·沃特斯 / 世纪文景/上海人民出版社 / 2017-10\r\n                    ', 
 '\r\n                        [美] 菲利普·迪克 / 译林出版社 / 2017-10\r\n                    ', 
 '\r\n                        [日] 东野圭吾 / 南海出版公司 / 2017-11\r\n                    ', 
 '\r\n                        程波 / 张乐山 / 沐来文化/鹭江出版社 / 2017-9\r\n                    ', 
 '\r\n                        [日] 涩泽龙彦 / 广西师范大学出版社 / 2017-9\r\n                    ']

使用一个推导式循环,直接替换掉原代码,可实现一步解决。(这里aaa可以随意取名,不冲突即可)

chuban = [aaa.strip() for aaa in data.xpath('//p[@class="color-gray"]/text()')]
# chuban = data.xpath('//p[@class="color-gray"]/text()') # 被替换的原代码
print(chuban)

#
['[意] 埃莱娜·费兰特 / 人民文学出版社 / 2017-10', '[美] 彼得·布雷瓦 / 后浪丨文化发展出版社 / 2017-11', 
 '刘震云 / 长江文艺出版社 / 2017-11-1', '[美] 约翰·约瑟夫·亚当斯 编 / 新星出版社 / 2017-10', 
 '[英] 约翰·福尔斯 / 百花文艺出版社 / 2017-10', '[俄] 列夫·托尔斯泰 / 东方出版社 / 2017-10', 
 '[美] 芭芭拉·金索沃 / 南海出版公司 / 2017-10', '[英] 格雷厄姆·格林 / 江苏凤凰文艺出版社 / 2017-11', 
 '[加] 艾丽丝·门罗 / 理想国丨广西师范大学出版社 / 2017-11-1', '木心 / 理想国 | 广西师范大学出版社 / 2017-10', 
 '[日] 岩井俊二 / 浙江文艺出版社 / 2017-10', '[英] 萨拉·沃特斯 / 世纪文景/上海人民出版社 / 2017-10', 
 '[美] 菲利普·迪克 / 译林出版社 / 2017-10', '[日] 东野圭吾 / 南海出版公司 / 2017-11', 
 '[美] 米奇·阿尔博姆 / 南海出版公司 / 2017-11', '[英] 约翰·克利兰 / 江苏凤凰文艺出版社 / 2017-9', 
 '[美] 菲利普·迪克 / 译林出版社 / 2017-10', '[意大利] 亚历山德罗·巴里科 / 浦睿文化·湖南文艺出版社 / 2017-10',']

 

标签:xpath,10,一键,出版社,广西师范大学,11,2017,回车
From: https://www.cnblogs.com/Magiclala/p/17980695

相关文章

  • Jmeter后置处理器之xpath提取器
    一前言:环境:Jmeter5.3window10简单介绍下后置处理器中的xpath提取器二xpath提取器当接口返回内容是xml格式或者html格式时,可以使用xpath提取器从中提取值参数字段说明:applyto:前面介绍的断言及其他提取器都有这个选项,就不重复了xmlparsingoptions:与前面介绍的xpa......
  • Ubuntu一键安装/卸载docker和docker compose,可指定版本或安装最新版本。
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档@目录前言一、docker是什么?二、dockercompose是什么?三、安装步骤1.Ubuntu安装脚本2.生成脚本3.启动和验证四、卸载步骤1.Ubuntu卸载脚本2.保存文件后设置执行权限3.运行文件4.验证是否删除成功CentOS安装脚本卸载......
  • 魔搭+ 函数计算_ 一键部署,缩短大模型选型到生产的距离
    引言面对魔搭ModelScope社区提供的海量模型,用户希望快速进行选型并生产使用起来,但在此之前,却一定会面临算力管理难、模型部署难等一系列问题,那么能否实现快速把选定的模型部署在云端功能强大的GPU上,由云端负责服务,扩展,保护和监控模型服务,同时免于运维和管理云上算力等基础......
  • 为文件一键命名为其md5值
    为文件一键命名为其md5值不知道怎么给文件命名?一键命名为其md5不就是了!单文件拖拽版无需启动,直接将文件拖拽到.bat文件上@echooffsetlocalenabledelayedexpansion::获取文件完整路径set"file_path=%~1"::检查文件是否存在ifnotexist"!file_path!"(echoF......
  • Qt/C++自定义界面大全/20套精美皮肤/26套精美UI界面/一键换肤/自定义颜色/各种导航界
    一、前言这个系列对应自定义控件大全,一个专注于控件的编写,一个专注于UI界面的编写,程序员有两大软肋,一个是忌讳别人说自己的程序很烂很多bug,一个就是不擅长UI,基本上配色就直接rgb,对于第一点,只要放松心态,直面自己的不足,不断改进,才能问鼎武林至尊。至于第二点,因为程序员擅长的是逻辑......
  • 如何运行.sh文件?一键搞定!教你几种简单方法!
    如何运行.sh文件?一键搞定!教你几种简单方法!.sh文件是一种使用Shell语言编写的脚本文件,它可以在Linux或Unix系统中执行一系列的命令。要运行.sh文件,您需要有一个支持Shell语言的解释器,例如bash、zsh或ksh。一、如果您使用的是Linux或Unix系统,您可以使用以下方法之一来运行.sh文件:1......
  • 这个插件厉害了!助你一键生成网页、视频总结!
    大家好,我是Java陈序员。如今是信息时代,想必大家经常上网冲浪!互联网的信息纷乱繁杂,各种广告、标题党等,大大的影响了我们获取信息的效率!那么有没有一款工具可以帮助我们快速高效的总结网页信息呢?答案是有的,今天给大家介绍一个浏览器插件,基于AI实现总结网页、视频等资源信息。......
  • MySQL一键安装Shell脚本的实现
    本文主要介绍了MySQL一键安装Shell脚本,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧−目录一、脚本说明1、linux系统版本2、MySQL版本3、运行方式二、脚本内容一、脚本说明1、linux系统版本EL6,EL7,EL8,......
  • 智能注册与一键养号,为我的亚马逊购物体验添彩
    想要充分利用亚马逊鲲鹏系统进行智能自动注册,首先需要妥善准备相关账户信息,包括邮箱、手机号、IP地址、收货地址和支付卡等必备资料。将这些信息按照规定的格式添加到软件中,然后即可启动注册任务。在注册过程中,该软件会以全自动方式模拟真实用户操作,实现自动输入账号密码、接收验证......
  • 智能AI一键养号,助力账号增加浏览轨迹的全新体验
    我想分享一下我对亚马逊鲲鹏系统的智能AI一键养号功能的使用体验。这一创新性的功能让账号的养号过程变得更加轻松、灵活且有效。首先,我对软件的AI功能页面印象深刻。通过勾选不同的姓名、职业、性别等选项,我可以生成各种不同的AI角色。这些角色使得账号在养号过程中能够随机搜索、......