为什么得到的html content.txt是空的？

时间：2024-08-01 16:47:16浏览次数：20

标签：python web-scraping

该计划的目标很简单，就是获得 tageschau.de 的头条新闻。一开始很正常，但是运行几次后什么也得不到。

import requests
from bs4 import BeautifulSoup

headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                          'AppleWebKit/537.36 (KHTML, like Gecko)'
                          'Chrome/86.0.4240.111 Safari/537.36',
            'Host': 'www.tagesschau.de',
            'Referer': 'https://www.tagesschau.de/'
          }

# get and parse the HTML of tageschau.de
URL = 'https://www.tagesschau.de/'
html = requests.get(URL, headers=headers)
html_parse = BeautifulSoup(html.content, 'lxml')

# find all headline in homepage
elements = html_parse.find_all('h4',{'class':'headline'})
for element in elements:
    print(element.txt)

什么也没有。

None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None

但是当我使用 element 而不是 element.txt 时，有一些正确的输出

<h4 class="headline"><a href="/multimedia/livestreams/livestream3/">Live: tagesschau24</a></h4>
<h4 class="headline"><a href="/100sekunden/">100 Sekunden</a></h4>
<h4 class="headline"><a href="/multimedia/sendung/ts-39833.html">tagesschau 20 Uhr</a></h4>
<h4 class="headline"><a href="/multimedia/sendung/ts-39841.html">Letzte Sendung</a></h4>
<h4 class="headline">++ Fauci warnt vor "einer Menge Leid" ++</h4>
<h4 class="headline">Weniger Party, mehr Wellness</h4>
<h4 class="headline">November-Lockdown kostet 19 Milliarden</h4>

这让我如此很困惑，为什么？

你遇到这个问题的原因是，你正试图在一个不包含任何文本的BeautifulSoup Tag 对象上使用 .txt 属性。在你的代码中， element 是一个 h4 标签，它包含一个 a 标签，而文本内容（比如"Live: tagesschau24"）实际上是在 a 标签内的。

你可以使用 .text 属性（而不是 .txt ）或者 .get_text() 方法来获取一个标签及其子标签中的所有文本。这两种方法都能正常工作。

下面是你的代码的修改版本：

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                  'AppleWebKit/537.36 (KHTML, like Gecko)'
                  'Chrome/86.0.4240.111 Safari/537.36',
    'Host': 'www.tagesschau.de',
    'Referer': 'https://www.tagesschau.de/'
}

# get and parse the HTML of tageschau.de
URL = 'https://www.tagesschau.de/'
html = requests.get(URL, headers=headers)
html_parse = BeautifulSoup(html.content, 'lxml')

# find all headline in homepage
elements = html_parse.find_all('h4', {'class': 'headline'})
for element in elements:
    # 使用 .text 或 .get_text() 获取文本内容
    print(element.text.strip())  # 或 print(element.get_text(strip=True))

这段代码将打印出 h4 标签及其子标签内的所有文本内容。 .strip() 方法用于移除开头和结尾的空白字符。

标签：python,web-scraping
From： 64633967

通过 GraalVM 在 Spring Boot 项目中运行 Python 脚本（强化学习）
我想要完成的是通过GraalVM在SpringBoot项目中运行python脚本（在我的例子中是agent.py）。我已经安装了GraalVM(cejdk21)并给它一个路径。还在项目结构中定义并根据graalvm和graalvm的python更改了pom.xml。即使它给出了无法找到火炬模块的错误。我还有一个安装了......
为什么Python库中还没有Gauss-Jordan消去函数？
Gaussian-Jordan消除法是一种常用且方便的技术。在矩阵计算中，该方法得到广泛应用。但是，Python库中没有此方法的内置函数。设计这样的功能并不困难。开发人员似乎忽略了这个功能。这可能是什么原因？希望开发者能够重视这一点，并开发与该方法相关的功能。虽然高斯-约旦消元......
Python爬虫 - js逆向之扣出某平台的_signature加密字段
前言好久没有做逆向案例分析了，最近都在看同行朋友写好的案例，感觉学到很多，算是取长补短了不多bb，机缘巧合下，拿到个目标网站分析首先抓个包，就看到请求参数里带着这几个参数主要就是_signature了，其他的参数都不重要得想必你一看就知道啥意思了。行，开始分析_signature......
python 音频处理（1）——重采样、音高提取
采集数据->采样率调整使用torchaudio进行重采样（cpu版）首先导入相关包，既然使用torch作为我们的选项，安装torch环境我就不必多说了，如果你不想用torch可以使用后文提到的另一个库1importtorch2importtorchaudio3fromtorchaudio.transformsimportResample4fromtime......
用于从连接到 LAN 交换机的四个 Arduino 扩展板读取/保存数据的 Python 代码
我有四个Arduino扩展板连接到LAN交换机。每个人都会发出一条“HelloJane”消息。LAN交换机已连接到我的PC。我需要将每个Arduino的数据/消息保存在PC上的单独文件夹中。请帮助使用Python脚本/代码。我能够看到来自所有四个Arduino的消息，但无法将它们保存到文......
使用 Python 生产者和消费者在 Kubernetes minikube 上设置 Kafka Kraft
我正在尝试从kubernetes集群外部连接到kubernetesminikubekafkapod。服务器启动没有任何问题，但我无法设法将本地kafka生产者/消费者连接到外部kafkapod。在集群内的kafka服务器映像上，我将bootstrap-server设置为：bin/kafka-topics.sh--create--bootst......
python llama_index.indices.list.retrievers 导入错误
fromllama_indeximportGPTListIndexfromllama_index.indices.list.retrieversimportListIndexLLMRetrieverdocuments=SimpleDirectoryReader('./data').load_data()index=GPTListIndex.from_documents(documents,service_context=service_context)r......
如何使用 python 和 bs4 修复抓取 web 表输出 csv
请帮帮我，，我想在“td”、“Barcode”和“namaproduk”中获取2个数据，但我得到的数据非常糟糕。我应该修复什么？importcsvimportrequestsfrombs4importBeautifulSoupoutfile=open("dataaa.csv","w",newline='')writer=csv.writer(outfile)page=0whilepag......
基于Django的超市小程序+47822（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小
基于django超市小程序摘要随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，超市小程序被用户普遍使用，为方便用户能够可以随时进行超市小程序的数据信息管理，特开发了基于djan......
【优秀python django系统案例】基于python的医院挂号管理系统，角色包括医生、患者、管
随着信息技术的迅猛发展，传统的医院挂号管理方式面临着效率低下、排队时间长、信息不对称等诸多问题。这些问题不仅影响患者的就医体验，也加重了医院工作人员的负担。在此背景下，基于Python的医院挂号管理系统应运而生。该系统旨在通过信息化手段优化挂号流程，提高管理效率，提升医疗......

为什么得到的html content.txt是空的？

相关文章

赞助商

阅读排行