首页 > 编程语言 >python爬虫简易demo

python爬虫简易demo

时间:2023-09-21 23:35:35浏览次数:47  
标签:python demo 爬虫 BeautifulSoup 网页内容 link print requests

以下是一个简单的Python爬虫示例,用于从指定的网页中提取标题和链接:

import requests
from bs4 import BeautifulSoup

def crawl(url):
    # 发送HTTP GET请求获取网页内容
    response = requests.get(url)
    
    # 使用BeautifulSoup解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取所有的<a>标签
    links = soup.find_all('a')
    
    # 打印标题和链接
    for link in links:
        print(link.text.strip())
        print(link['href'])
        print('---')

# 调用爬虫函数
crawl('https://www.example.com')

这个爬虫使用了第三方库requests来发送HTTP请求,使用BeautifulSoup来解析网页内容。它会从指定的URL中提取所有的<a>标签,并打印出标题和链接。你可以将'https://www.example.com'替换为你想要爬取的网页URL。

标签:python,demo,爬虫,BeautifulSoup,网页内容,link,print,requests
From: https://blog.51cto.com/u_15668841/7558172

相关文章

  • Python集合
    #集合是一个无序的不重复元素序列numset={1,2,2,3}#如果存在重复元素保留一个print(numset)sqared={x**2forxin[1,2,3]}#也支持集合推导式print(sqared)set1=set([1,2,3])#从列表和元组通过set()都可转集合print(set1)set1=set(range(1,5))print(set1)s......
  • python实现消消乐游戏界面
    功能需求创建一个简单的10x10的游戏区域,其中包含了6种颜色的方块。实现思路1.首先导入pygame和random库。2.设置屏幕大小为800x600像素。3.定义一个颜色列表,包含了6种不同的颜色。 定义方块的大小为40像素。4.创建一个10x10的游戏区域,每个格子的颜色从颜色列表中随机选择。5.......
  • python: Bubble Sort
     #encoding:utf-8#版权所有2023涂聚文有限公司#许可信息查看:#描述:#Author:geovindu,GeovinDu涂聚文.#IDE:PyCharm2023.1python311#Datetime:2023/9/2121:55#User:geovindu#Product:PyCharm#Project:EssentialAlgor......
  • Python - 读取CSV文件发现有重复数据,如何清洗以及保存为CSV文件,这里有完整的过程!!!!
    语言:Python功能:1、清洗CSV文件中重复数据。2、保存为CSV文件大体流程:1、首先观察CSV文件中的数据布局格式如何?2、通过csv包读取数据。并根据规则使用continue,来跳过本次循环,并将所需数据保存到列表A中,当列表A中的数据变成len(列表A)==2时,将此数据保存到列......
  • Python中numpy出现has no attribute '_no_nep50_warning'错误怎么办?
      本文介绍在Python中,numpy库出现报错module'numpy'hasnoattribute'_no_nep50_warning'的解决方法。  一次,在运行一个Python代码时,发现出现报错module'numpy'hasnoattribute'_no_nep50_warning',如下图所示。  其中,这一代码本来在Windows平台下运行是没有问题的,......
  • 编译 OpenCV 的 Python 依赖
    这一次编译OpenCV的Python依赖为了方便运行我们使用Docker进行编译,环境准备如下:系统依赖:Ubuntu18.04Python版本:3.6,Ubuntu18.04官方源安装的默认版本OpenCV版本:3.4.16,是目前3.x的最新版CMake版本:3.10GCC版本(含C++):7.5我们首先拉取并进入镜像:dock......
  • 20230921-python的get请求和post请求区别
    1.。get请求  2。post请求   ......
  • python+playwright 学习-81 page.expect_request()捕获网络请求
    前言page.expect_request()可以捕获网页上发出去的请求,当有多个请求时,可以根据请求url,请求方式判断。expect_request官方文档示例withpage.expect_request("http://example.com/resource")asfirst:page.get_by_text("triggerrequest").click()first_request=firs......
  • python: Essential Algorithms
     #encoding:utf-8#版权所有2023涂聚文有限公司#许可信息查看:#描述:#Author:geovindu,GeovinDu涂聚文.#IDE:PyCharm2023.1python311#Datetime:2023/9/2121:28#User:geovindu#Product:PyCharm#Project:EssentialAlgor......
  • Python 内置数据类型详解
    内置数据类型在编程中,数据类型是一个重要的概念。变量可以存储不同类型的数据,不同类型可以执行不同的操作。Python默认内置了以下这些数据类型,分为以下几类:文本类型:str数值类型:int、float、complex序列类型:list、tuple、range映射类型:dict集合类型:set、frozenset布尔类型......