首页 > 编程语言 >python爬虫多个页面数据代码详解

python爬虫多个页面数据代码详解

时间:2023-11-22 18:04:45浏览次数:44  
标签:函数 get python html 爬虫 url 详解 解析 页面

下面是一个简单的 Python 网页爬虫程序,可以用于爬取多个页面的数据:

import requests
from bs4 import BeautifulSoup

# 获取网页内容的函数
def get_html(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

# 解析页面内容的函数
def parse_html(html):
    soup = BeautifulSoup(html, "html.parser")
    # 这里可以通过查找 HTML 标签和属性来定位需要的数据
    data = soup.find_all("div", class_="data")
    return data

# 主函数
def main():
    # 需要爬取的页面 URL 列表
    url_list = ["http://www.example.com/page1.html",
                "http://www.example.com/page2.html",
                "http://www.example.com/page3.html"]
    # 遍历 URL 列表,爬取并解析页面数据
    for url in url_list:
        html = get_html(url)
        data = parse_html(html)
        # 处理数据
        for item in data:
            print(item)

if __name__ == "__main__":
    main()

在这个程序中,我们首先定义了一个 get_html 函数,用于获取指定 URL 的网页内容。该函数使用了 Python 的 requests 库发送 HTTP 请求,并调用 BeautifulSoup 库将 HTML 内容解析成 BeautifulSoup 对象。如果请求失败或解析出错,该函数会返回一个空字符串。

接着,我们定义了一个 parse_html 函数,用于解析 BeautifulSoup 对象,并提取需要的数据。在这个函数中,我们通过查找 HTML 标签和属性来定位需要的数据,然后返回一个包含这些数据的列表。

最后,我们定义了一个主函数 main,用于遍历需要爬取的页面 URL 列表,爬取并解析页面数据。在遍历过程中,我们调用 get_html 函数获取页面内容,然后调用 parse_html 函数解析数据。如果解析成功,我们会打印出每个页面的数据。

请注意,本程序仅供学习和参考使用,如果您使用爬虫程序进行商业用途,需要遵守相关法律法规,并确保不会侵犯其他网站的合法权益。

标签:函数,get,python,html,爬虫,url,详解,解析,页面
From: https://blog.51cto.com/u_16018896/8519055

相关文章

  • python tkinter treeview 操作示例
    1.建立Treeviewfromtkinterimport*fromtkinter.ttkimport*root=Tk()#建立Treeviewcolumns=(('ID',50),('S_ID',50),('S_NAME',120),('B_NAME',120),('Date_Taken',100),......
  • 【主流技术】详解 Spring Boot 2.7.x 集成 ElasticSearch7.x 全过程(二)
    目录前言一、添加依赖二、yml配置三、注入依赖四、CRUD常用APIES实体类documents操作常见条件查询(重点)分页查询排序构造查询测试调用五、文章小结前言ElasticSearch简称es,是一个开源的高扩展的分布式全文检索引擎,目前最新版本已经到了8.11.x了。它可以近乎实时的存储、......
  • python字典中删除键值的方法
    一、pop()方法删除keyPython字典是一种无序的映射数据类型,通过键值对的形式进行存储,可以使用键来快速找到对应的值。在某些情况下,我们可能需要在字典中删除某个键,这时候就可以使用Python字典提供的pop()方法。pop()方法用于删除字典中指定的键,并返回该键对应的值。使用该方法时......
  • python中四种方法提升数据处理的速度
    在数据科学计算、机器学习、以及深度学习领域,Python是最受欢迎的语言。Python在数据科学领域,有非常丰富的包可以选择,numpy、scipy、pandas、scikit-learn、matplotlib。但这些库都仅仅受限于单机运算,当数据量很大时,比如50GB甚至500GB的数据集,这些库的处理能力都显得捉襟见肘,打......
  • python中常见函数
    filter,reduce,和map是Python中用于对集合数据进行处理和转换的内置函数。它们分别用于筛选、归约和映射集合中的元素。filter函数:filter(function,iterable)用于筛选集合中的元素。它接受一个函数function和一个可迭代的对象iterable,并返回一个包含iterable中满足......
  • python多线程中一种错误的写法
    直接先上错误代码:importmultiprocessingdeffirst_way():init=3defprocess_function(item):result=item*initreturnresultdata=[1,2,3,4,5,6,7,8,9,10]pool=multiprocessing.Pool(processes=4)#创建一个......
  • Python基础知识
    一、先置知识1、标识符标识符由字母、数字、下划线组成。所有标识符可以包括英文、数字以及下划线(_),但不能以数字开头。标识符是区分大小写的。以下划线开头的标识符是有特殊意义的。以单下划线开头_foo的代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用**fr......
  • 如何在Python中向一个集合添加值
    用Set.add()函数向一个集合只添加一个值从数学上讲,集合是一个在逻辑上有联系的不同对象的集合。在Python中,集合是一个内置的数据类型,它是无索引的和不可变的。这意味着我们可以通过一些特定的索引来访问集合项,而且我们不能修改集合内的现有数据。我们可以通过在Python中创建一个......
  • 使用Python协程并发测试cdn响应速度
    代码干净清爽才能看着赏心悦目:#!/usr/bin/envpython3.11importtimefromcontextlibimportcontextmanagerfromenumimportStrEnumimportanyioimporthttpx@contextmanagerdeftimeit(msg:str):start=time.time()yieldcost=time.time()-sta......
  • python wordcloud生成词云
    #!/usr/bin/envpython#coding:utf-8#pipinstallwordcloud#pipinstallmatplotlibimportwordcloudimportmatplotlib.pyplotaspltimportnumpyasnpfromPILimportImagetext="""给你一瓶魔法药水喝下去就不需要氧气给你一瓶魔法药水喝下去就不怕身体......