首页 > 其他分享 >bs4解析并提取人民网新闻标题数据

bs4解析并提取人民网新闻标题数据

时间:2024-09-28 19:33:54浏览次数:1  
标签:www bs4 标签 resp 新闻标题 人民网 import 选择器

1. 目标url:http://www.people.com.cn/

2. 查找标题信息所在标签:标题的文本信息在<a>标签中,且<a>标签有target属性,属性值为"_blank"。<a>标签有父辈标签<div>和<h3>。

当需要根据元素的层级关系、属性组合等复杂条件定位时;文档层次分明时CSS选择器非常有用,对于熟悉CSS选择器的开发者来说使用CSS选择器可以使代码更加简洁易读。可以在bs4官网https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id83或Soup Sieve(通过 pip 安装 Beautiful Soup 时,Soup Sieve 也会自动安装,不用其它额外操作。)官网https://facelessuser.github.io/soupsieve/selectors/basic/中查看。

运行代码:

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
# 请求地址
url = 'http://www.people.com.cn'
# 封装请求头
headers = {'User-Agent': UserAgent().chrome}
# 发送get请求
resp = requests.get(url, headers=headers)
# 设置编码为gbk
resp.encoding = 'gbk'
# 构建一个bs4对象
bs = BeautifulSoup(resp.text, 'lxml')
# bs4实现css选择器提取数据
infos = bs.select('div > h3 [target]')
for info in infos:
    print(info.string)

运行结果:

坚持全面深化改革开放
一面留言墙 书不尽两岸情
青海贵德:从滴水崖渡口 守护黄河安澜
谢兆寿过节记
国资委:国企到2025年须普遍推行末等调整和不胜任退出制度
国家网信办就终端设备直连卫星服务管理规定公开征求意见
越是假期 出行越繁忙 安全越重要
教育获得感更充实 支撑发展更有力
利比里亚农业部部长:“希望继续学习借鉴中方水稻种植技术”
匈塞铁路匈牙利段中方段铺轨作业基本完成
“共和国勋章”获得者、“二级战斗英雄”黄宗德:英雄的“心”
海南省部署国庆旅游和文化市场综合监管工作
国庆假期长线游成预订主流
“中网热”折射中国网球运动发展新图景
医保支付资格管理制度发布:“驾照式记分”守好医保“钱袋子”

 

标签:www,bs4,标签,resp,新闻标题,人民网,import,选择器
From: https://www.cnblogs.com/qyly/p/18438299

相关文章

  • HTML 新闻标题与正文
    <!--文档类型为HTML--><!DOCTYPEhtml><htmllang="en"><head><!--字符集为UTF-8--><metacharset="UTF-8"><!--设置浏览器兼容性--><metahttp-equiv="X-UA-Compatible"content=&q......
  • 【爬虫实战】——利用bs4和sqlalchemy操作mysql数据库,实现网站多行数据表格爬取数据
    前言此篇接上一篇的内容,在其基础上爬取网站的多行表格数据,以及把数据写入到mysql数据库中目录一、定位表格查找元素二、提取数据三、写入mysql数据库四、附录一、定位表格查找元素首先打开网站,如图需要爬取多行数据的表格,利用查找元素定位,看图中分析得知我要爬取的是tr......
  • 爬虫:xpath高级使用,bs4使用,bs4-css选择器
    xpath高级使用fromlxmlimportetree#由于本次要格式化的内容是一个文件,所以用parse,如果是一个html格式的字符串就用HTMLhtml=etree.parse('02_xpath.html')#可以连接多个但是每两个之间要用一个管道符来连接#print(html.xpath('//ol/li[@data="one"]/text()|......
  • 如何使用 python 和 bs4 修复抓取 web 表输出 csv
    请帮帮我,,我想在“td”、“Barcode”和“namaproduk”中获取2个数据,但我得到的数据非常糟糕。我应该修复什么?importcsvimportrequestsfrombs4importBeautifulSoupoutfile=open("dataaa.csv","w",newline='')writer=csv.writer(outfile)page=0whilepag......
  • 如何使用 bs4 在 phyton 中传递表情符号抓取文本
    我正在创建一个抓取器,用于抓取URL页面中的所有评论,并将文本保存在txt文件中(1条评论=1txt)。现在,当评论文本中有一些表情符号时,我遇到了问题。事实上,程序停止并显示“UnicodeEncodeError:‘charmap’编解码器无法对字符进行编码”。我怎样才能解决这个问题?(我用的是bs4)......
  • 维基百科页面的 bs4 方法:获取信息框
    我目前正在尝试将bs4方法应用于维基百科页面:结果不会存储在df中,因为维基百科上的抓取是一种非常非常常见的技术-我们可以使用适当的方法来处理许多不同的工作-我在获取结果方面确实遇到了一些问题-并将其存储到df中-作为一个非常常见的Wikipedia-bs4工作的......
  • 试图找出此页面的逻辑:存储了大约 ++ 100 个结果 - 并使用 Python 和 BS4 进行了解析
    试图找出此页面背后的逻辑:我们已将一些结果存储在以下数据库中:https://www.raiffeisen.ch/rch/de/ueber-uns/raiffeisen-gruppe/Organization/raiffeisenbanken/deutsche-schweiz.html#accordionitem_18104049731620873397从a到z大约:120个结果或更多:......
  • 尝试将 bs4 方法应用于维基百科页面:结果不存储在 df 中
    由于维基百科上的抓取是一种非常非常常见的技术-我们可以使用适当的方法来处理许多不同的工作-我在获取结果方面确实遇到了一些问题-并将其存储到df中好吧-作为一个非常常见的Wikipedia-bs4作业的示例-我们可以采用这个:在此页面上,我们有超过600个结果-......
  • 8、爬虫-beatifulsoup-bs4
     beatifulsoup的概念:BeautifulSoup就是Python的一个HTML或XML的解析库,可以用它方便地提取页面的数据。  1、安装bs4:pipinstallbs42、使用:frombs4importBeautifulSoup3、创建对象:BeautifulSoup(文本,“html.parser”)  #html.parser告诉解析器这是个html文本4、b......
  • 爬取同样内容,xpath方法会比bs4要慢很多吗?
    大家好,我是Python进阶者。一、前言前几天在Python白银交流群【沐子山树】问了一个Python网络爬虫的问题,问题如下:爬取同样内容,xpath方法会比bs4要慢很多吗?二、实现过程这里【Kimi】给了个思路如下:爬取网页内容时,使用XPath和BeautifulSoup(bs4)这两种方法的速度差异通常不会特别......