首页 > 编程语言 >通过Python爬取公告内容

通过Python爬取公告内容

时间:2024-05-25 18:00:58浏览次数:34  
标签:报名 Python text 公告 爬取 soup registration print select

在网络时代,信息获取变得更加便捷。通过网络爬虫技术,我们可以从互联网上快速获取各种信息。本文将介绍如何使用 Python 爬虫工具从指定网站上获取公告内容,并提取其中的关键信息。

1. 简介

在本文中,我们将使用 Python 的 requests 库和 BeautifulSoup 库来实现网页内容的获取和解析。具体来说,我们将从一个示例网站中获取公告内容,并提取标题、报名方式、报名截止日期、报名状态以及发布时间等信息。

2. 准备工作

在开始之前,确保你已经安装了 Python 和相应的库。可以使用以下命令安装所需库:

pip install requests beautifulsoup4

3. 代码实现

下面是我们的 Python 代码实现:

import requests
from bs4 import BeautifulSoup

# 发送请求获取页面内容
url = 'https://bp.cfldcn.com/article!list.do?categoryCode=zbgg&request_time=1716616589463'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'  # 如果页面内容不是utf-8编码,需要根据实际情况修改

# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 获取所有<tr>元素
    trs = soup.find_all('tr')

    # 遍历每个<tr>元素
    for tr in trs:
        # 获取<tr>元素下的所有<td>元素
        tds = tr.find_all('td')

        # 遍历每个<td>元素,并获取其内容
        for td in tds:
            content = td.get_text()
            print(content)

    # 提取标题
    title = soup.find('title').text if soup.find('title') else '标题未找到'

    # 假设报名方式、报名截止日期、报名状态、发布时间在特定的标签中
    # 这里的示例假设这些信息在一个特定的div或其他标签中
    # 你需要根据实际的HTML结构调整选择器
    registration_method = soup.select_one('.submit_online').text if soup.select_one('.submit_online') else '报名方式未找到'
    registration_deadline = soup.select_one('.registration-deadline').text if soup.select_one('.registration-deadline') else '报名截止日期未找到'
    registration_status = soup.select_one('.submit_ing').text if soup.select_one('.submit_ing') else '报名状态未找到'
    publication_date = soup.select_one('.submit_ing').text if soup.select_one('.submit_ing') else '发布时间未找到'

    # 打印提取的信息
    print('标题:', title)
    print('报名方式:', registration_method)
    print('报名截止日期:', registration_deadline)
    print('报名状态:', registration_status)
    print('发布时间:', publication_date)
else:
    print('无法访问页面,状态码:', response.status_code)

4. 结果解析

在代码中,我们首先发送 HTTP 请求获取网页内容,然后使用 BeautifulSoup 解析页面内容。接着,我们通过选择器提取所需信息,并将其打印输出。

5. 总结

通过本文的介绍,我们学习了如何使用 Python 爬虫工具从指定网站上获取公告内容,并提取其中的关键信息。这种技术在实际工作中具有广泛的应用,可以帮助我们快速获取所需的信息,提高工作效率。

希望本文能对你有所帮助,谢谢阅读!

标签:报名,Python,text,公告,爬取,soup,registration,print,select
From: https://blog.csdn.net/qq_43580271/article/details/139201080

相关文章

  • Python--List列表
    list列表⭐⭐1高级数据类型Python中的数据类型可以分为:数字型(基本数据类型)和非数字型(高级数据类型)●数字型包含:整型int、浮点型float、布尔型bool、复数型complex●非数字型包含:字符串str、列表list、元组tuple、集合set、字典dict高级数据类型的特点●都是一个序列se......
  • 【爬虫软件】用Python开发的抖音关键词搜索工具,可筛选爬取热门视频、最新视频等
    一、背景介绍1.1爬取目标用python开发的爬虫采集软件,可自动按关键词抓取抖音视频数据。为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!软件界面截图:爬取结果截图:结果截图1:结果截图2:结果截图3:以上。1.2演......
  • 切换python3 版本
    在Ubuntu上安装了多个Python版本后,你可以使用`update-alternatives`命令来管理和切换默认的Python版本。以下是具体步骤:###使用`update-alternatives`切换Python版本1.**添加Python3.12到`update-alternatives`系统:**```bashsudoupdate-alternatives......
  • 利用Python+OpenCV实现截图匹配图像,支持自适应缩放、灰度匹配、区域匹配、匹配多个结
    一、依赖安装pipinstallopencv-pythonpipinstallpyautogui二、获取系统缩放比例注意:必须先通过ctypes获取wid之后才能导入pyautogui,如果需要在其它代码中引用该模块,最好把获取分辨率这部分代码放到程序入口处,然后传递给识图函数,避免提前导入pyautogui导致获取分辨率失......
  • Windows pyinstaller wxPython pyecharts无法正常显示问题
    WindowspyinstallerwxPythonpyecharts无法正常显示问题最近遇到一个pyinstaller打包wxPythonpyecharts无法显示的问题,pyecharts生成的html页面显示空白。未使用pyinstaller打包时显示正常。问题原因WebViewBackendDefault=b''WebViewBackendEdge=b'wxWebViewEdge'Web......
  • 爬虫-Python操作MySQL数据库
    Python操作MySQL数据库1、安装pipinstallpymysql2、连接数据库使用connect函数创建连接对象,此连接对象提供关闭数据库、事务提交、事物回滚等操作。importpymysqlconn=pymysql.connect(host='127.0.0.1',user='xxx',password='xxxx',port=3306,......
  • 在excel中使用python 快速作图示例
    前言Excel中可以使用python算是一个旧闻了,是python之父GuidovanRossum加入微软的重要产品。刚出来的第一时间我也尝鲜了,最近作图的时候,再次使用了这个功能,感觉非常方便,推荐大家也用一下。优点:Python在云端运行,无需部署环境。可以编写脚本来自动化日常的Excel任务......
  • 图书管理系统(二)--用户模块--Python版
    本课题要求编写Python程序实现对图书信息录入、图书信息查询、图书借阅等方面的管理。一个综合的图书借阅管理系统,要求能够管理图书的基本信息(包含新图书入库、读者图书查询借阅等),需要实现以下功能:读取以数据文件形式存储的图书信息;管理员可以增加、修改、删除图书的信息;读者可......
  • pyinstaller 打包无窗口python http.server无法启动
    最近在写一个简单的文件服务器用来访问静态文件,遇到在pyinstaller无窗口模式下无法启动的问题,记录一下解决方案。原因:http.server需要将记录输出到窗口,而pyinstaller打包无窗口模式没有地方输出classBaseHTTPRequestHandler(socketserver.StreamRequestHandler):.........
  • python多线程
    1、当程序中有耗时操作时,我们应该使用多线程来进行操作。多线程就像是多辆火车,可以在不同的轨道上同时运行。而进程就像是火车站,正在运行的一个程序的实例。python中多线程可以提供threading模块来实现。简单的多线程案例:importthreadingimporttime#定义线程执行的......