bs4解析并提取人民网新闻标题数据

时间：2024-09-28 19:33:54浏览次数：1

标签：www bs4 标签 resp 新闻标题人民网 import 选择器

1. 目标url：http://www.people.com.cn/

2. 查找标题信息所在标签：标题的文本信息在<a>标签中，且<a>标签有target属性，属性值为"_blank"。<a>标签有父辈标签<div>和<h3>。

当需要根据元素的层级关系、属性组合等复杂条件定位时；文档层次分明时CSS选择器非常有用，对于熟悉CSS选择器的开发者来说使用CSS选择器可以使代码更加简洁易读。可以在bs4官网https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id83或Soup Sieve（通过 pip 安装 Beautiful Soup 时，Soup Sieve 也会自动安装，不用其它额外操作。）官网https://facelessuser.github.io/soupsieve/selectors/basic/中查看。

运行代码：

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
# 请求地址
url = 'http://www.people.com.cn'
# 封装请求头
headers = {'User-Agent': UserAgent().chrome}
# 发送get请求
resp = requests.get(url, headers=headers)
# 设置编码为gbk
resp.encoding = 'gbk'
# 构建一个bs4对象
bs = BeautifulSoup(resp.text, 'lxml')
# bs4实现css选择器提取数据
infos = bs.select('div > h3 [target]')
for info in infos:
    print(info.string)

运行结果：

坚持全面深化改革开放
一面留言墙 书不尽两岸情
青海贵德：从滴水崖渡口 守护黄河安澜
谢兆寿过节记
国资委：国企到2025年须普遍推行末等调整和不胜任退出制度
国家网信办就终端设备直连卫星服务管理规定公开征求意见
越是假期 出行越繁忙 安全越重要
教育获得感更充实 支撑发展更有力
利比里亚农业部部长：“希望继续学习借鉴中方水稻种植技术”
匈塞铁路匈牙利段中方段铺轨作业基本完成
“共和国勋章”获得者、“二级战斗英雄”黄宗德：英雄的“心”
海南省部署国庆旅游和文化市场综合监管工作
国庆假期长线游成预订主流
“中网热”折射中国网球运动发展新图景
医保支付资格管理制度发布:“驾照式记分”守好医保“钱袋子”

标签：www,bs4,标签,resp,新闻标题,人民网,import,选择器
From： https://www.cnblogs.com/qyly/p/18438299

HTML 新闻标题与正文
<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"content=&q......
【爬虫实战】——利用bs4和sqlalchemy操作mysql数据库，实现网站多行数据表格爬取数据
前言此篇接上一篇的内容，在其基础上爬取网站的多行表格数据，以及把数据写入到mysql数据库中目录一、定位表格查找元素二、提取数据三、写入mysql数据库四、附录一、定位表格查找元素首先打开网站，如图需要爬取多行数据的表格，利用查找元素定位，看图中分析得知我要爬取的是tr......
爬虫：xpath高级使用，bs4使用，bs4-css选择器
xpath高级使用fromlxmlimportetree#由于本次要格式化的内容是一个文件，所以用parse，如果是一个html格式的字符串就用HTMLhtml=etree.parse('02_xpath.html')#可以连接多个但是每两个之间要用一个管道符来连接#print(html.xpath('//ol/li[@data="one"]/text()|......
如何使用 python 和 bs4 修复抓取 web 表输出 csv
请帮帮我，，我想在“td”、“Barcode”和“namaproduk”中获取2个数据，但我得到的数据非常糟糕。我应该修复什么？importcsvimportrequestsfrombs4importBeautifulSoupoutfile=open("dataaa.csv","w",newline='')writer=csv.writer(outfile)page=0whilepag......
如何使用 bs4 在 phyton 中传递表情符号抓取文本
我正在创建一个抓取器，用于抓取URL页面中的所有评论，并将文本保存在txt文件中（1条评论=1txt）。现在，当评论文本中有一些表情符号时，我遇到了问题。事实上，程序停止并显示“UnicodeEncodeError：‘charmap’编解码器无法对字符进行编码”。我怎样才能解决这个问题？（我用的是bs4）......
维基百科页面的 bs4 方法：获取信息框
我目前正在尝试将bs4方法应用于维基百科页面：结果不会存储在df中，因为维基百科上的抓取是一种非常非常常见的技术-我们可以使用适当的方法来处理许多不同的工作-我在获取结果方面确实遇到了一些问题-并将其存储到df中-作为一个非常常见的Wikipedia-bs4工作的......
试图找出此页面的逻辑：存储了大约 ++ 100 个结果 - 并使用 Python 和 BS4 进行了解析
试图找出此页面背后的逻辑：我们已将一些结果存储在以下数据库中：https://www.raiffeisen.ch/rch/de/ueber-uns/raiffeisen-gruppe/Organization/raiffeisenbanken/deutsche-schweiz.html#accordionitem_18104049731620873397从a到z大约：120个结果或更多：......
尝试将 bs4 方法应用于维基百科页面：结果不存储在 df 中
由于维基百科上的抓取是一种非常非常常见的技术-我们可以使用适当的方法来处理许多不同的工作-我在获取结果方面确实遇到了一些问题-并将其存储到df中好吧-作为一个非常常见的Wikipedia-bs4作业的示例-我们可以采用这个：在此页面上，我们有超过600个结果-......
8、爬虫-beatifulsoup-bs4
beatifulsoup的概念：BeautifulSoup就是Python的一个HTML或XML的解析库，可以用它方便地提取页面的数据。 1、安装bs4：pipinstallbs42、使用：frombs4importBeautifulSoup3、创建对象：BeautifulSoup（文本，“html.parser”） #html.parser告诉解析器这是个html文本4、b......
爬取同样内容，xpath方法会比bs4要慢很多吗？
大家好，我是Python进阶者。一、前言前几天在Python白银交流群【沐子山树】问了一个Python网络爬虫的问题，问题如下：爬取同样内容，xpath方法会比bs4要慢很多吗？二、实现过程这里【Kimi】给了个思路如下：爬取网页内容时，使用XPath和BeautifulSoup（bs4）这两种方法的速度差异通常不会特别......

bs4解析并提取人民网新闻标题数据

相关文章

赞助商

阅读排行