通过Python爬取公告内容

时间：2024-05-25 18:00:58浏览次数：36

标签：报名 Python text 公告爬取 soup registration print select

在网络时代，信息获取变得更加便捷。通过网络爬虫技术，我们可以从互联网上快速获取各种信息。本文将介绍如何使用 Python 爬虫工具从指定网站上获取公告内容，并提取其中的关键信息。

1. 简介

在本文中，我们将使用 Python 的 requests 库和 BeautifulSoup 库来实现网页内容的获取和解析。具体来说，我们将从一个示例网站中获取公告内容，并提取标题、报名方式、报名截止日期、报名状态以及发布时间等信息。

2. 准备工作

在开始之前，确保你已经安装了 Python 和相应的库。可以使用以下命令安装所需库：

pip install requests beautifulsoup4

3. 代码实现

下面是我们的 Python 代码实现：

import requests
from bs4 import BeautifulSoup

# 发送请求获取页面内容
url = 'https://bp.cfldcn.com/article!list.do?categoryCode=zbgg&request_time=1716616589463'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'  # 如果页面内容不是utf-8编码，需要根据实际情况修改

# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 获取所有<tr>元素
    trs = soup.find_all('tr')

    # 遍历每个<tr>元素
    for tr in trs:
        # 获取<tr>元素下的所有<td>元素
        tds = tr.find_all('td')

        # 遍历每个<td>元素，并获取其内容
        for td in tds:
            content = td.get_text()
            print(content)

    # 提取标题
    title = soup.find('title').text if soup.find('title') else '标题未找到'

    # 假设报名方式、报名截止日期、报名状态、发布时间在特定的标签中
    # 这里的示例假设这些信息在一个特定的div或其他标签中
    # 你需要根据实际的HTML结构调整选择器
    registration_method = soup.select_one('.submit_online').text if soup.select_one('.submit_online') else '报名方式未找到'
    registration_deadline = soup.select_one('.registration-deadline').text if soup.select_one('.registration-deadline') else '报名截止日期未找到'
    registration_status = soup.select_one('.submit_ing').text if soup.select_one('.submit_ing') else '报名状态未找到'
    publication_date = soup.select_one('.submit_ing').text if soup.select_one('.submit_ing') else '发布时间未找到'

    # 打印提取的信息
    print('标题:', title)
    print('报名方式:', registration_method)
    print('报名截止日期:', registration_deadline)
    print('报名状态:', registration_status)
    print('发布时间:', publication_date)
else:
    print('无法访问页面，状态码:', response.status_code)

4. 结果解析

在代码中，我们首先发送 HTTP 请求获取网页内容，然后使用 BeautifulSoup 解析页面内容。接着，我们通过选择器提取所需信息，并将其打印输出。

5. 总结

通过本文的介绍，我们学习了如何使用 Python 爬虫工具从指定网站上获取公告内容，并提取其中的关键信息。这种技术在实际工作中具有广泛的应用，可以帮助我们快速获取所需的信息，提高工作效率。

希望本文能对你有所帮助，谢谢阅读！

标签：报名,Python,text,公告,爬取,soup,registration,print,select
From： https://blog.csdn.net/qq_43580271/article/details/139201080

Python--List列表
list列表⭐⭐1高级数据类型Python中的数据类型可以分为：数字型（基本数据类型）和非数字型（高级数据类型）●数字型包含：整型int、浮点型float、布尔型bool、复数型complex●非数字型包含：字符串str、列表list、元组tuple、集合set、字典dict高级数据类型的特点●都是一个序列se......
【爬虫软件】用Python开发的抖音关键词搜索工具，可筛选爬取热门视频、最新视频等
一、背景介绍1.1爬取目标用python开发的爬虫采集软件，可自动按关键词抓取抖音视频数据。为什么有了源码还开发界面软件呢？方便不懂编程代码的小白用户使用，无需安装python，无需改代码，双击打开即用！软件界面截图：爬取结果截图：结果截图1:结果截图2:结果截图3:以上。1.2演......
切换python3 版本
在Ubuntu上安装了多个Python版本后，你可以使用`update-alternatives`命令来管理和切换默认的Python版本。以下是具体步骤：###使用`update-alternatives`切换Python版本1.**添加Python3.12到`update-alternatives`系统:**```bashsudoupdate-alternatives......
利用Python+OpenCV实现截图匹配图像，支持自适应缩放、灰度匹配、区域匹配、匹配多个结
一、依赖安装pipinstallopencv-pythonpipinstallpyautogui二、获取系统缩放比例注意：必须先通过ctypes获取wid之后才能导入pyautogui，如果需要在其它代码中引用该模块，最好把获取分辨率这部分代码放到程序入口处，然后传递给识图函数，避免提前导入pyautogui导致获取分辨率失......
Windows pyinstaller wxPython pyecharts无法正常显示问题
WindowspyinstallerwxPythonpyecharts无法正常显示问题最近遇到一个pyinstaller打包wxPythonpyecharts无法显示的问题，pyecharts生成的html页面显示空白。未使用pyinstaller打包时显示正常。问题原因WebViewBackendDefault=b''WebViewBackendEdge=b'wxWebViewEdge'Web......
爬虫-Python操作MySQL数据库
Python操作MySQL数据库1、安装pipinstallpymysql2、连接数据库使用connect函数创建连接对象，此连接对象提供关闭数据库、事务提交、事物回滚等操作。importpymysqlconn=pymysql.connect(host='127.0.0.1',user='xxx',password='xxxx',port=3306,......
在excel中使用python 快速作图示例
前言Excel中可以使用python算是一个旧闻了，是python之父GuidovanRossum加入微软的重要产品。刚出来的第一时间我也尝鲜了，最近作图的时候，再次使用了这个功能，感觉非常方便，推荐大家也用一下。优点：Python在云端运行，无需部署环境。可以编写脚本来自动化日常的Excel任务......
图书管理系统（二）--用户模块--Python版
本课题要求编写Python程序实现对图书信息录入、图书信息查询、图书借阅等方面的管理。一个综合的图书借阅管理系统，要求能够管理图书的基本信息（包含新图书入库、读者图书查询借阅等），需要实现以下功能：读取以数据文件形式存储的图书信息；管理员可以增加、修改、删除图书的信息；读者可......
pyinstaller 打包无窗口python http.server无法启动
最近在写一个简单的文件服务器用来访问静态文件，遇到在pyinstaller无窗口模式下无法启动的问题，记录一下解决方案。原因：http.server需要将记录输出到窗口，而pyinstaller打包无窗口模式没有地方输出classBaseHTTPRequestHandler(socketserver.StreamRequestHandler):.........
python多线程
1、当程序中有耗时操作时，我们应该使用多线程来进行操作。多线程就像是多辆火车，可以在不同的轨道上同时运行。而进程就像是火车站，正在运行的一个程序的实例。python中多线程可以提供threading模块来实现。简单的多线程案例：importthreadingimporttime#定义线程执行的......