Python采集html页面时如何去除掉script,link等指定html标签

时间：2023-12-27 15:55:22浏览次数：53

标签：script Python 标签 tags remove html 去除源码

python爬虫去除html中特定标签、去除注释、替换实体
前言：本文主要讲w3lib库的四个函数

html.remove_tags()
html.remove_tags_with_content()
html.remove_comments()
html.remove_entities()

remove_tags
作用：去除或保留标签，但是仅仅是去除标签，正文部分是不做处理的

看其函数具有四个变量，

第一个是文本，即你需要传入的网页源码，必须是字符串

第二个是你要去除掉的标签，需要传入的参数类型是元组，原理是根据正则匹配去除的

第三个是你要保留的标签，需要传入的参数类型依旧是元组

第四个是编码

看备注我们可以得知，第二第三个参数总共有四种状态

`which_ones`	`keep`	what it does
非空	空	去除掉所有 `which_ones`里面的标签
空	非空	只保留`keep`里的标签
空	空	去除所有的标签
非空	非空	不允许的情况

代码示例：
以下的代码以example.com的部分源码进行测试

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is established to be used for illustrative examples in documents. You may use this
    domain in examples without prior coordination or asking for permission.</p>
    <p><a href="http://www.iana.org/domains/example">More information...</a></p>
</div>
</body>

from w3lib import html
import requests
from lxml import etree

res = requests.get("http://www.example.com/")
response = etree.HTML(res.content)
temp = response.xpath('//body') # 返回值为一个列表
doc = etree.tostring(temp[0])   # 将定位到的元素转成str，即获得源码

# 以上代码只是为了获取body的源码，与函数演示无关

result = html.remove_tags(doc) # 标签全部去除
print(result)

只留下正文部分

result = html.remove_tags(doc,which_ones = ('body','h1','div'))

p标签与a标签还留着

remove_tags_with_content
作用：去除标签，包括其正文部分

参数变成了三个，与上面的用法一致，只是少了一个keep参数，无法保留，只能去除

remove_comments
作用：去除掉网页的注释

参数只有两个，一个是text（网页源码），str类型，一个是编码（encoding）

from w3lib.html import remove_comments
remove_comments(b"test <!--textcoment--> whatever")

结果即test whatever

remove_entities
作用：将网页中的一些特殊字符的源码显示改变成正常显示（个人理解）

官方解释是通过将实体转换为相应的unicode字符，从给定的text中删除实体。

在函数源码中已声明，该函数即将被剔除，将被replace_entities取代

函数具有三个参数，第一个是源码（字符串），第二个是你需要保留不变的实体（元组），第三个是是否删除无法转换的实体（true删除，false不删除），第四个是编码，默认utf-8

from w3lib.html import replace_entities
print(replace_entities(b'Price: &pound;100'))

以下为结果

Price: £100

标签：script,Python,标签,tags,remove,html,去除,源码
From： https://www.cnblogs.com/shanhubei/p/17930740.html

script, first, second, third = argv
fromsysimportargv#从Python的特性库中引入argv特性到自己的脚本中#readtheWYSSsectionforhowtorunthisscript,first,second,third=argv#解包argv，并依次赋值给左边的变量print("Thescriptiscalled:",scr......
python代码pycharm 中可以运行 vscode无法运行
问题：pycharm中可以运行，切到vscode中时无法运行，都是路径无法读取到导致模块无法加载。分析：主要原因有可能是VSCode默认使用项目文件夹根目录作为工作目录(cwd)，这会使得子文件夹中的程序无法使用相对路径。vscode中设置一下：文件=>首选项=>设置中搜索ExecuteinFileDir,......
centos 7.9 安装 python 3.10.5 和 openssl 3.0.12
centos编译安装python和openssl安装环境：centos7.9：python3.10.5和openssl3.0.12centos6.10：python3.10.5和openssl1.1.1两个环境都能安装成功，可以正常使用。安装openssl下载地址下载后解压，进入到解压目录执行：./Configure--prefix=/usr/local/openssl3.......
怎么用 python 项目函数实现字符串反转
字符串反转是一个常见的操作，可以通过Python函数轻松实现。在本文中，我们将探讨如何使用Python函数来反转字符串，无论是针对单个字符串还是列表中的多个字符串。1.反转单个字符串要反转单个字符串，我们可以使用Python的切片功能或者内置的reversed()函数。使用切片功能defrevers......
Python 爬虫与网络安全有什么关系
Python爬虫和网络安全之间存在密切的关系。爬虫是一种用于自动化从网络上获取信息的程序，而网络安全是保护计算机网络和系统免受未经授权的访问、攻击和数据泄露的实践。本文将探讨Python爬虫与网络安全之间的关系以及如何在爬虫开发中注意网络安全。爬虫的作用和风险爬虫通常用于从......
怎样实现使用python实现自动排班
自动排班是一项常见的任务，可以使用Python编程语言来实现。本文将介绍如何使用Python实现自动排班的步骤和技术。步骤一：收集排班需求和数据首先，您需要收集排班的需求和相关数据。这可能包括员工的工作时间、班次要求、休假时间等。您可以将这些数据存储在Excel表格、数据库或其他数......
如何快速还原Python内置模块的功能
Python作为一门开源的编程语言，提供了丰富的内置模块和库，使开发者能够快速开发各种应用。然而，有时候我们可能在使用内置模块时不小心修改了其源代码，导致功能不正常或无法正常使用。本文将介绍如何快速还原Python内置模块的功能，以便恢复正常的开发环境。步骤一：确认问题首先，我们需要确......
解决Python项目部署到服务器上的编码问题
在将Python项目部署到服务器上时，经常会遇到编码问题，例如中文乱码、字符集不匹配等。这些问题可能导致项目无法正常运行或显示正确的内容。本文将介绍如何解决Python项目部署到服务器上的编码问题，以确保项目能够在服务器上正常运行。步骤一：确认编码问题首先，我们需要确认是否存在编码......
html复制文本逻辑
//复制文本functioncopyTxt(text){if(navigator.clipboard){navigator.clipboard.writeText(text)$Sys.notify('复制成功')}elseif(document.execCommand){letinput=document.createElement(�......
Python windows下subprocess模块 cwd 参数不支持相对路径
前言全局说明Pythonwindows下subprocess模块cwd参数不支持相对路径一、问题程序要执行命令，用到了subprocess模块，并指定了cwd运行路径，在MAC系统下运行正常，在Windows下运行报错。经过查询，是系统差异导致，所以为了方便，在windows下获取当前路径后拼接再生成绝对路径......

Python采集html页面时如何去除掉script,link等指定html标签

相关文章

赞助商

阅读排行