首页 > 其他分享 >爬虫利用bs4解析练习demo

爬虫利用bs4解析练习demo

时间:2023-02-19 17:11:58浏览次数:32  
标签:02 bs4 demo 爬虫 ele print news com select

同样也是爬取新闻页的简要信息

import requests
from bs4 import BeautifulSoup

Base_url = "https://news.cnblogs.com"
Base_path = "/n/page/"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
}
for i in range(1, 2):
    url = f"{Base_url}{Base_path}{i}/"
    with requests.get(url=url, headers=headers) as res:
        if res.status_code != 200:
            print(res.status_code)
            break
        # 用bs4解析
        root = BeautifulSoup(res.content, "lxml")
        # 找到单个新闻块的大标签
        b = root.select(".news_block")
        for ele in b:
            # 清洗数据
            print("标题:", ele.select(".news_entry a")[0].text)
            print("作者:", ele.select(".entry_footer .gray")[0].text.strip())
            print("链接:", Base_url + ele.select(".news_entry a")[0].get("href"))
            print("发布时间:", ele.select(".entry_footer span.gray")[0].text.strip())
            print("标签:", *[e.text.strip() for e in ele.select(".entry_footer span.tag a")])
            print(ele.select(".entry_footer span.view")[0].text)
            print("=" * 50)

# 部分打印内容
"""
标题: 马云澳洲见老朋友,43年前曾在西湖边合影
作者: itwriter
链接: https://news.cnblogs.com/n/736836/
发布时间: 2023-02-19 14:02
标签: 马云
33 人浏览
==================================================
标题: 微软必应计划在AI搜索中引入广告模式 或于3月公布细节
作者: itwriter
链接: https://news.cnblogs.com/n/736835/
发布时间: 2023-02-19 13:55
标签: bing
7 人浏览
==================================================
标题: 中国工程院院士王坚:我国已具备支撑ChatGPT发展的算力基础
作者: itwriter
链接: https://news.cnblogs.com/n/736834/
发布时间: 2023-02-19 13:47
标签: 王坚
13 人浏览
==================================================
标题: 微软将把必应聊天回复限制在 5 条以内,以防人工智能越界
作者: itwriter
链接: https://news.cnblogs.com/n/736833/
发布时间: 2023-02-19 13:40
标签: bing
7 人浏览
==================================================
标题: 设计师编辑成ChatGPT用户主力!程序员仅占4.4%
作者: itwriter
链接: https://news.cnblogs.com/n/736832/
发布时间: 2023-02-19 13:35
标签: ChatGPT
9 人浏览
==================================================
"""

学习练习使用,切勿过度爬取

标签:02,bs4,demo,爬虫,ele,print,news,com,select
From: https://www.cnblogs.com/guangdelw/p/17135084.html

相关文章

  • 简单的python格网算法算数据密集度demo
    #格网算法计算数据集区域数据密集度importtimeimportrandomimportnumpyasnpimportpandasaspd#模拟数据集defcreate_data():data_x=[]data_y......
  • 爬虫利用Xpath解析练习demo
    爬取新闻页的简要信息importrequestsfromlxmlimportetreefromlxml.etreeimport_ElementBase_url="https://news.cnblogs.com"Base_path="/n/page/"heade......
  • 利用php爬虫querylist框架 监听CSDN 关注博主的文章,并发送邮件php爬虫Demo
    有时候挺喜欢一个人的csdn里面的文章,但是又想第一时间知道更新了什么,新鲜内容。所以做了一个极其简单的,爬ssdn网站的小工具,能实现功能即可。后面可以新增规则,监听官方网站的......
  • scout-elasticsearch-driver + laravel Demo学习
    项目地址:​​https://github.com/yb19890724/laravel-es​​1。在本地穿件数据库,修改.env的信息我的env文件​​点击下载​​2。env中配置es的地址。3.根目录下执行compo......
  • egg.js. demo
    丑团git前端expo​​​https://gitee.com/honbingitee/ugly-tuan-expo​​​后端egg.js​​https://gitee.com/honbingitee/ugly-tuan-egg​​/*eslint-disableinde......
  • fastapi_sqlalchemy_mysql_rbac_jwt_gooddemo
    /Users//codelearn/fastapi_sqlalchemy_mysql_01/init_test_data.py#!/usr/bin/envpython3#-*-coding:utf-8-*-importasynciofromemail_validatorimportEmai......
  • Dapr Workflow构建块的.NET Demo
    Dapr1.10版本中带来了最有亮点的特性就是工作流构建块的的发布,虽然是Alpha阶段,可以让我们尽早在应用系统中规划工作流,在使用Dapr的系统中更好的编写负责的分布式应用系......
  • Python爬虫-第五章-2-爬取某网站图库
    技术点  1.requests  2.beautifulSoupps:程序可扩展  1.比如翻页下载  2.下拉加载更多可以用selenium  3.多线程或者异步协程提升下载效率 ......
  • 如何用chatGPT、代理IP和网络爬虫,打造一个智能有趣的聊天机器人?
    AI(人工智能)是指让机器具有感知、合成和推理信息的能力,与人类和非人类动物的智能相对应。AI可以实现从经验中学习、适应新的输入和执行类似人类的任务。我们今天听到的大多......
  • SPI读写官方Demo
    //SPDX-License-Identifier:GPL-2.0-only/**SPItestingutility(usingspidevdriver)**Copyright(c)2007MontaVistaSoftware,Inc.*Copyright(c)......