首页 > 编程语言 >7个用于机器学习和数据科学的基本 Python 库

7个用于机器学习和数据科学的基本 Python 库

时间:2023-08-25 15:34:39浏览次数:56  
标签:机器 Python 数据 学习 PyTorch TensorFlow NumPy

推荐:使用NSDT场景编辑器助你快速搭建3D应用场景

这篇文章针对的是刚开始使用Python进行AI的人,以及那些有经验的人,但对下一步要学习什么有疑问的人。我们将不时花点时间向初学者介绍基本术语和概念。如果您已经熟悉它们,我们鼓励您跳过更基本的材料并继续阅读,以了解对图形执行和急切执行等更精细的观点的看法。这篇文章将解释人工智能最重要的 Python 库和包,解释如何使用它们,并介绍它们的优点和缺点。

用于AI和ML的最广泛使用的Python库

将正确的库组合添加到开发环境中至关重要。以下包和库对于大多数 AI 开发人员至关重要。所有这些都可以作为开源发行版免费提供。

Scikit-learn:如果你需要做机器学习

它是什么:Scikit-learn是一个用于实现机器学习算法的Python库。

背景:一位名叫David Cournapeau的开发人员最初在2007年以学生身份发布了scikit-learn。开源社区迅速采用了它,多年来已经多次更新它。

特征: Scikit-learn中的软件包专注于建模数据。

  • Scikit-learn包括所有核心机器学习算法,其中包括向量机,随机森林,梯度提升,k均值聚类和DBSCAN。
  • 它旨在与 NumPy 和 SciPy(如下所述)无缝协作,以进行数据清理、准备和计算。
  • 它具有用于加载数据以及将其拆分为训练集和测试集的模块。
  • 它支持文本和图像数据的特征提取。

最适合:Scikit-learn是任何从事机器学习工作的人的必备品。如果您需要实现分类、回归、聚类、模型选择等算法,它被认为是可用的最佳库之一。

缺点:Scikit-learn是在深度学习起飞之前建立的。虽然它非常适合核心机器学习和数据科学工作,但如果你正在构建神经网络,你将需要TensorFlow或Pytorch(下图)。
最佳学习场所:Python 中的机器学习与数据学校的 Scikit-Learn 一起。(注意:Scikit-learn是最容易学习的Python库之一。一旦你精通Python本身,Scikit-learn就很容易了。

NumPy:如果您需要处理数字

它是什么:NumPy是一个Python包,用于处理数组或大型同质数据集合。您可以将数组视为电子表格,其中数字存储在列和行中。

背景:Python在1991年推出时最初并不是为了数值计算。尽管如此,它的易用性还是很早就引起了科学界的注意。多年来,开源社区开发了一系列用于数值计算的软件包。2005年,开发人员Travis Oliphant将十多年的开源开发合并到一个用于数值计算的库中,他称之为NumPy。

特征:NumPy的核心功能是对数组的支持,它允许您快速处理和操作大型数据集合。

  • NumPy 中的数组可以是 n 维的。这意味着数据可以是单列数字,也可以是多列和多行数字。
  • NumPy有用于执行一些线性代数函数的模块。
  • 它还具有用于绘制和绘制数字数组的模块。
  • NumPy 数组中的数据是同质的,这意味着它必须全部定义为相同的类型(数字、字符串、布尔值等)。这意味着数据得到有效处理。

最适合:操作和处理数据以进行更高级的数据科学或机器学习操作。如果你正在处理数字,你需要NumPy。

缺点:由于 NumPy 数组是同类的,因此它们不适合混合数据。你最好使用Python列表。此外,当处理超过 500,000 列时,NumPy 的性能往往会下降。
最佳学习场所:Linear Regression with NumPy and Python from Coursera。

Pandas:如果您需要操作数据

它是什么:Pandas是一个同时处理不同类型的标记数据的软件包。例如,如果您需要分析包含数字、字母和字符串数据的 CSV 文件,则可以使用它。

背景:韦斯·麦金尼(Wes McKinney)于2008年发行了《熊猫》。它建立在 NumPy 之上(事实上,您必须安装 NumPy 才能使用 Pandas),并扩展该包以处理异构数据。

特征:Pandas的核心功能是其多样化的数据结构,允许用户执行各种分析操作。

  • Pandas 有各种用于数据操作的模块,包括重塑、连接、合并和透视。
  • 熊猫具有数据可视化功能。
  • 用户可以执行数学运算,包括微积分和统计,而无需调用外部库。
  • 它具有可帮助您解决丢失数据的模块。

最适合:数据分析。

缺点:在vanilla Python和Pandas之间切换可能会令人困惑,因为后者的语法稍微复杂一些。熊猫的学习曲线也很陡峭。这些因素,再加上糟糕的文档,可能使其难以上手。
最好的学习场所:我从 DeepLearning.AI 开始介绍pandas。

SciPy:如果你需要为数据科学做数学

它是什么:SciPy是一个用于科学计算的Python库。它包含用于执行计算的包和模块,可帮助科学家进行或分析实验。

背景:在 1990 年代末和 2000 年代初,Python 开源社区开始开发一系列工具以满足科学界的需求。2001年,他们以SciPy的形式发布了这些工具。社区保持活跃,并始终更新和添加新功能。

特征:SciPy 的软件包包括一个完整的数学技术工具包,包括微积分、线性代数、统计学、概率等。

  • 它对数据科学家来说最受欢迎的一些软件包是用于插值、K 均值检验、数值积分、傅里叶变换、正交距离回归和优化。
  • SciPy 还包括用于图像处理和信号处理的软件包。
  • Weave功能允许用户在Python中用C / C++编写代码。

最适合:SciPy是数据科学家最好的朋友。

缺点:一些用户发现 SciPy 的文档缺乏,并批评它的几个软件包不如 MatLab 中的类似软件包。

最佳学习场所:Ahmad Bazzi 的 SciPy 编程。

如果你需要做机器学习:TensorFlow vs. PyTorch

TensorFlow和PyTorch执行与深度学习相关的相同基本任务:它们使获取数据,训练模型和生成预测变得容易。从人脸识别到大型语言模型,许多神经网络都是使用TensorFlow或PyTorch进行编码的。这些库曾经在前端和后端都明显不同。随着时间的推移,他们围绕同一套最佳实践趋同。

尽管如此,人工智能社区内部仍在争论哪个是最好的。2015年发布的TensorFlow是第一个出现在现场。它在商业人工智能和产品开发中占主导地位,但许多用户抱怨它的复杂性。

PyTorch于2016年发布,被广泛认为它更容易学习,实施起来更快。它是学术界的最爱,并在工业界稳步普及。但是,众所周知,它在缩放方面很困难。

选择哪个?

TensorFlow仍然是业界占主导地位的深度学习库。这部分是由于惯性,部分原因是TensorFlow在处理大型项目和复杂工作流程方面比PyTorch更好。它能够处理针对商业部署进行扩展的 AI 产品,使其成为产品开发的最爱。

如果你只是跳入深度学习,并希望专注于快速构建和原型设计模型,PyTorch可能是更好的选择。请注意,根据你的工作要求和公司技术,你可能有一天必须学习TensorFlow(特别是如果你梦想的工作是在TensorFlow的故乡谷歌)。

在下面详细了解这两个库的优缺点。

TensorFlow

这是什么? TensorFlow 是一个端到端的开源库,用于开发、训练和部署深度学习模型。

背景: TensorFlow最初由Google Brain于2015年发布。最初,它的前端不是用户友好的,并且它具有冗余的API,这使得构建和实现模型变得繁琐。随着时间的推移,其中许多问题已经通过更新以及通过将 Keras(见下文)集成为默认前端而得到解决。

特征: TensorFlow有许多用于构建深度学习模型并将其扩展以进行商业部署的软件包。

  • TensorFlow用户可以调用Dev Hub和Model Garden中的数百个预先训练的模型。开发人员中心包含即插即用模型,而模型花园适用于习惯于进行自定义的更高级用户。
  • 它在使用内存方面非常有效,可以并行训练多个神经网络。
  • TensorFlow 应用程序可以在各种硬件系统上运行,包括 CPU、GPU、TPU 等。
  • TensorFlow Lite针对移动和嵌入式机器学习模型进行了优化。
  • 用户可以在 Tensorboard.dev 上自由上传和分享他们的机器学习实验。

最适合:大规模构建生产就绪的深度学习模型。

缺点:一些用户仍然抱怨前端相当复杂。您可能还会遇到TensorFlow执行缓慢的批评。这主要是TensorFlow 1.0的遗留问题,当时它默认以图形模式执行操作。TensorFlow 2.0默认为预先执行模式。

最佳学习场所:来自 DeepLearning.ai 的TensorFlow开发人员专业证书。

Keras:

它是什么:Keras是一个适合初学者的工具包,用于处理神经网络。它是TensorFlow的前端接口。

背景:谷歌工程师Francois Choillet于2015年发布了Keras,作为许多深度学习库的API。截至 2020 年,Keras 是 TensorFlow 独有的。

特征: Keras 处理在 TensorFlow 中构建神经网络的高级任务,因此包含激活函数、层、优化器等基本模块。

  • Keras 支持原版神经网络、卷积神经网络和递归神经网络以及实用程序层,包括批量归一化、辍学和池化。
  • 它旨在简化深度神经网络的编码。

最适合:开发深度学习网络。

缺点:它仅适用于TensorFlow用户。如果你使用TensorFlow,你就是在使用Keras。

最佳学习场所: IBM 的 Keras 深度学习和神经网络简介。

PyTorch

它是什么:PyTorch是Facebook AI研究实验室对TensorFlow的回答。它是一个开源的通用库,用于机器学习和数据科学,特别是深度学习。

背景: Facebook在2016年发布了PyTorch,比TensorFlow晚了一年,它迅速受到对快速原型感兴趣的学者和其他研究人员的欢迎。这是由于其简化的前端以及其默认模式立即执行操作的事实(而不是像TensorFlow那样将它们添加到图形中以供以后处理)。

特征:PyTorch有许多类似于TensorFlow的特性。事实上,自推出以来的几年里,每个库都进行了更新,以包含用户最喜欢的功能。

  • PyTorch有自己的预训练模型库。PyTorch Hub 面向想要尝试模型设计的学术用户,生态系统工具包含预先训练的模型。
  • PyTorch 具有内存效率,可以并行训练多个模型。
  • 它支持多种硬件类型。

最适合:深度学习模型的快速原型设计。Pytorch 代码运行快速高效。

缺点:一些用户报告说,PyTorch 在处理大型项目、大型数据集和复杂的工作流程时遇到了困难。构建要大规模部署的AI产品的开发人员可能更喜欢TensorFlow。

最佳学习地点:来自 PyTorch.org 的 PyTorch 教程。

结论

Python库的成熟是它在AI社区中如此受欢迎的主要原因之一。它们可以轻松地将Python扩展到远远超出其原始设计的任务。一旦你牢牢掌握了 Python 语言和与你的工作相关的库,你将能够为广泛的应用程序构建、训练和迭代机器学习模型。

原文链接:7个用于机器学习和数据科学的基本 Python 库 (mvrlink.com)

标签:机器,Python,数据,学习,PyTorch,TensorFlow,NumPy
From: https://www.cnblogs.com/mvrlink/p/17657081.html

相关文章

  • 一、【ChatGLM-6B学习】-搭建一个简单的大模型
    最近业务上需要用到大模型相关的知识,所以准备简单的搭建一个环境,详细的细节后面慢慢研究,现记录下搭建过程。至于为什么选择ChatGLM-6B,主要原因是它支持中英双语,同时支持离线部署,可以方便的构建本地化的问答知识库。由于ChatGLM-6B对python版本有一定要求,目前要求3.7+版本,为了减......
  • Redis-持久化的学习
    持久化-rdbredis.conf中已经自动配置好了持久化设置,但我们可以改为自己需要的设置。当条件触发时会在同级文件夹内生成dump.rdb文件(快照)。 触发条件:1:满足config中设置的触发条件2:使用flushall命令3:退出redis,也会自动生成dump.rdb  如何打开rdb文件?在redis中输入conf......
  • Lnton羚通算法算力云平台在OpenCV-Python中如何图像修复 Image Inpainting
    OpenCVPython图像修复【理论】大多数人家里都会有一些旧照片,上面有一些黑点,一些笔画等。你想过把它修复回来吗?我们不能简单地在油漆工具中删除它们,因为它只会用白色结构取代黑色结构,这是没有用的。在这些情况下,使用一种称为图像修补的技术。基本的想法很简单:用邻近的像素替换......
  • Redis学习笔记
    1.Redis安装配置及开启自启1.1安装Redis依赖Redis是基于C语言编写的,因此首先需要安装Redis所需要的gcc依赖:yuminstall-ygcctcl1.2安装Redis获取Rediscd/opt/wgethttp://download.redis.io/releases/redis-6.2.6.tar.gz解压Reids#解压到/usr/local/src/......
  • 工控机赋能移动机器人,实现高效的自动化操作与管理!
    随着制造业数字化转型的加速,工业4.0时代的到来,工业互联网逐步成为中国推进新型工业化进程的核心驱动力量。而工控机作为工业互联网领域的重要组成部分,已经在越来越多行业得到广泛应用。据中商情报网数据显示,2022年我国工业自动化市场规模达2807亿元,预计2023年市场规模将增长至3115......
  • IM跨平台技术学习(八):新QQ桌面版为何选择Electron作为跨端框架
    本文由QQ技术团队王辉、吴浩、陈俊文分享,编辑Tina整理,本文收录时有内容修订和排版优化。1、引言在瞬息万变的互联网行业中,年过二十四的即时通讯IM应用QQ堪称超长寿的产品,见证了中国互联网崛起的完整历程。然而,如今这个元老级产品经历了一次从内到外彻底的重构。在这次重构......
  • LangChain-Chatchat学习资料-Windows开发部署(踩坑篇)
    LangChain-Chatchat学习资料-Windows开发部署(踩坑篇)环境准备的坑1.CUDA版本问题我是用的RTX3060显卡,通过nvidia-smi命令,查看显卡支持的CUDA版本为12.2,然后下载版本的CUDA,后续发现这里是个坑,pytorch目前最新版为2.0.1,支持的cuda版本最高为11.8,所以想使用显卡跑pytorch,需要讲CUDA......
  • Robot 框架学习笔记
    Robot框架学习笔记为了更好地让读者理解快速学习新框架的思路,笔者接下来会继续介绍另一个名为Robot的自动化测试框架,希望读者能参考笔者从零开始讲解一个开发/测试框架的流程,从中总结出适合于自己的快速学习方法。与Selenium框架相比,Robot框架是一款更为通用的、可扩展的......
  • 无涯教程-Python - 循环语句
    通常,语句是按顺序执行的:函数中的第一个语句首先执行,然后第二个执行,依此类推。在某些情况下,您需要多次执行一个代码块。循环语句使无涯教程可以多次执行一个语句或一组语句。下图说明了循环语句-Python编程语言提供了以下类型的循环来处理循环需求。Sr.No.LoopType&描述1......
  • 用python写了个简单ADB调试小工具
    整体框架基于python3.10编写,使用tkinter库作为程序主窗口GUI;用pyinstaller库打包.exe包,方便Windows系统直接双击使用;对安卓设备进行调试,管理应用,查看adblog,对设备root,remount,截屏,录屏,发送adb命令等。。。。。。。。PS:由于安卓系统安全限制原因,对于安卓10+设备存在不能录屏问题,暂......