GPT之路(二) AI基础之机器学习ML工作原理

1.什么是机器学习？

机器学习 (ML) 是人工智能 (AI) 的一部分，属于计算科学领域，专门分析和解释数据的模式及结构，以实现无需人工交互即可完成学习、推理和决策等行为的目的。机器学习在没有明确指令的情况下，依靠既有模式和推理来执行任务。计算机系统使用机器学习算法来处理大量历史数据，并识别数据模式。这可让计算机系统根据给出的输入数据集更准确地预测结果。简而言之，机器学习就是训练机器去学习，而不需要明确编程。机器学习作为 AI 的一个子集，以其最基本的形式使用算法来解析数据、学习数据，然后对现实世界中的某些内容做出预测或判断。换句话说，机器学习使用算法从输入到机器学习平台的数据中自动创建模型。典型的程序化或基于规则的系统获取程序化规则中的专家知识，但当数据发生变化时，这些规则可能会变得难以更新和维护。机器学习的优势在于，它能够从越来越多输入算法的数据中学习，并且可以给出数据驱动的概率预测。这种在当今大数据应用中快速有效地利用和应用高度复杂算法的能力是一种相对较新的发展。几乎任何可以用数据定义的模式或一组规则来完成的离散任务都可以通过自动化方式进行，因此使用机器学习可以大大提高效率。这使得公司可以改变以前只有人工才能完成的流程，包括客户服务电话路由以及履历审查等等。机器学习系统的性能取决于一些算法将数据集转换为模型的能力。不同算法适用于不同问题和任务，而这些问题的解决和任务的完成也取决于输入数据的质量以及计算资源的能力。

2.为何机器学习至关重要？

机器学习可促进企业发展、为企业拓展新的收入源、解决企业难题，在多方面提供帮助。数据是商业决策背后的关键驱动力，但传统上，公司大多使用不同来源的数据，例如客户反馈、员工和财务数据。机器学习研究对这一流程进行了自动化和优化。通过使用能够高速分析大量数据的软件，企业可以更快取得成果。

3.机器学习可用在哪些领域？

3.1 制造业

机器学习可以为制造业的预测性维护、质量控制和创新研究提供支持。机器学习技术还可以帮助公司改进物流解决方案，包括资产、供应链以及库存管理。

3.2 医护及生命科学

加速计算和 ML 正推动医疗健康领域的智能计算。NVIDIA Clara™ 提供单一平台，整合医学影像、基因组学、患者监控以及药物研发，并可将该平台部署在嵌入式系统、边缘、每个云端等任何地方，助力医疗健康行业进行创新并加快实现精准医疗的目标。

可穿戴传感器和设备的激增产生了大量的健康数据。机器学习程序可以分析此信息，并为医生的实时诊断和治疗提供支持。机器学习研究人员正在开发发现癌症肿瘤并诊断眼睛疾病的解决方案，这会对人类健康结果产生巨大影响。

3.3 金融服务

金融机构正在采用 ML 来提供更智能、更安全的服务。GPU 驱动的 ML 解决方案可以在大量数据中识别关键见解，通过自动化减轻员工的日常任务负担，加速风险计算和欺诈检测，并借助更准确的推荐系统改善客户服务。

金融机器学习方案改进了风险分析和监管程序。机器学习技术可让投资者分析股市走势、评估对冲基金或校准金融服务产品组合，从而发现新的机会。此外，它还有助于识别高风险贷款客户，减少欺诈问题。

3.4 零售

领先的零售商正利用 ML 来减少损耗、改善预测、实现仓库物流自动化、确定店内促销活动和实时定价、为客户提供个性化服务和建议，以及在实体店和网店提供更出色的购物体验。了解消费者行为对于零售商而言变得更为重要。为了推动发展，采用智能推荐进行个性化营销。为提高收入，在线零售商使用由 GPU 提供支持的机器学习 (ML) 和深度学习 (DL) 算法来打造更快速、更准确的推荐引擎。购物者的购买以及网络操作历史记录为机器学习模型的分析提供了数据，从而得出建议，并支持零售商在促销方面所作的努力。

3.5 媒体和娱乐

娱乐公司转向使用机器学习，希望更好地了解他们的目标受众，并根据受众需求提供沉浸式的个性化内容。部署机器学习算法有助于设计预告片和其他广告，为消费者提供个性化的内容建议，甚至还可以简化生产。

4.机器学习的工作原理是什么？

机器学习的核心思想是任意输入和输出数据组合之间的现有数学关系。机器学习模型事先不知道这种关系，但如果给出足够的数据集，它可以猜测出来。这意味着每个机器学习算法都是围绕一个可修改的数学函数构建的。基本原理可以这样理解：

1.我们为算法提供了以下输入/输出 (i,o) 组合来“训练”算法 – (2,10)、(5,19) 和 (9,31)
2.算法计算出输入和输出之间的关系为：o=3*i+4
3.我们为算法提供输入 7，并要求算法预测输出。算法会自动确定输出为 25。

虽然这只是机器学习的基本理解，但机器学习关注的是一个原则，即所有复杂的数据点都可以通过计算机系统建立数学关联，只要它们有足够的数据和计算能力来处理这些数据。因此，输出的准确度与给定的输入大小直接相关。

5.机器学习算法有哪些类型？

机器学习采用两种主要技术，将算法的使用划分为不同类型：监督式、无监督式以及这两种技术的组合。监督式学习算法使用已标记数据，无监督式学习算法在未标记数据中找规律。半监督式学习混合使用已标记和未标记数据。增强学习训练算法，基于反馈更大限度地利用奖励。根据预期输出和输入类型，算法可以分为 4 种不同的学习风格

1.有监督机器学习
2.无监督机器学习
3.半监督学习
4.强化机器学习

5.1有监督机器学习

数据科学家为算法提供标注和定义的训练数据，以评估相关性。样本数据指定了算法的输入和输出。例如，为手写数字的图像添加注释，指示它对应于哪个数字。有监督学习系统在样本充分的情况下，可以识别与每个数字相关的像素和形状的集群。最终有监督学习系统可以识别手写的数字，可以稳定地区分数字 9 和 4 或 6 和 8。有监督学习的优点是设计简单易行。它在预测可能的有限结果集、将数据划分为类别，或组合其他两种机器学习算法的结果时非常有用。但是，为数百万个未标注的数据集添加标注是一项难题。我们来深入了解下：

什么是数据标注？

数据标注是根据相应的定义输出值对输入数据进行归类的过程。有监督学习必需使用标注后的训练数据。例如，数百万张苹果和香蕉图片需要贴上“苹果”或“香蕉”的标签。然后机器学习应用程序就会在给出水果图片后，使用此训练数据猜测水果的名称。

监督式机器学习（也称为预测分析）使用算法来训练模型，以在包含标签和特征的数据集中找规律。然后，它使用经过训练的模型预测新数据集的特征标签。

监督式学习可以进一步分为分类和回归。分类根据已知项目的已标签示例来确定一个项目属于哪个类别。逻辑回归用于根据已知为/非欺诈交易的特征（交易金额、时间以及上次交易地点）来估计信用卡交易为欺诈交易的概率（标签）

其他分类示例包括：垃圾邮件检测，文本情感分析，预测患者风险、败血症或癌症

回归可估算目标结果标签与一个或多个特征变量之间的关系，以预测连续数值。在下面的简单示例中，线性回归用于根据房屋面积（特征）估算房价（标签）

回归的其他示例包括：预测欺诈数量，预测销售额

监督式学习算法包括：逻辑回归，线性回归，支持向量机，决策树，随机森林和梯度提升决策树

5.2 无监督机器学习

无监督学习算法会使用未标注的数据进行训练。该算法会扫描新数据，试图在输入和预先确定的输出之间建立有意义的连接。它们可以发现模式并对数据进行分类。例如，无监督算法可以将来自不同新闻网站的新闻文章分为体育、犯罪等常见类别。该算法可以利用自然语言处理来理解文章的意义和感情。在零售业中，无监督学习可以在顾客购买活动中发现一些模式，并提供数据分析结果，比如，如果顾客购买了黄油，那再购买面包的可能性最大。无监督学习在模式识别、异常检测、数据自动归类方面十分有用。训练数据不需要添加标注，因此设置十分简单。这些算法还可用于清理和处理数据，以供进一步自动建模。这种方法的局限性在于它不能给出精确的预测。此外，它也不能单独挑出特定类型的数据结果。无监督式学习（也称为描述性分析）事先未提供已标记数据，因此有助于数据科学家发现先前未知数据规律。这些算法尝试“学习”输入数据中的固有结构，并发现相似性或规律性。

常见的无监督式任务包括聚类和关联。

在聚类中，算法通过分析输入示例之间的相似性将输入分为不同类别。聚类的一个示例是，为了更好地定制产品和服务，公司希望对其客户进行细分。客户可以按人口统计数据和购买记录等特征进行分组。为了得到更有价值的结果，通常将无监督式学习聚类与监督式学习聚类相结合。

其他聚类示例包括：搜索结果分组,对相似患者进行分组,文本分类和异常检测（从集群中找出不相似的地方，即异常值）

关联或频繁模式挖掘可以在大型数据项集合中发现频繁同时发生的关联（关系、依赖关系）。一个同时发生的关联示例是经常一起购买的产品，例如有名的啤酒和纸尿裤。对购物者行为的分析发现，购买纸尿裤的男性通常也会买啤酒。

无监督式学习算法包括：K-means，隐含狄利克雷分布 (LDA)，高斯混合模型 (GMM)，交替最小二乘法 (ALS)和FP 增长

5.3 半监督学习

顾名思义，该方法结合了有监督学习和无监督学习。该技术使用少量已标注数据和大量未标注数据来训练系统。首先，标注的数据用于部分训练机器学习算法。然后，部分训练后的算法本身会为未标注数据添加标注。此流程被称为伪标注。然后，该模型在没有明确编程的情况下，根据生成的数据组合进行重新训练。该方法的优势在于，您不需要大量的标注数据。当处理像长文档这样的数据时，它非常方便，因为人工处理这些数据太费时了，难以阅读和标注。

5.4 强化学习

强化学习是在算法必经的多个阶段附加奖励值的方法。因此，该模型的目标是积累尽可能多的奖励积分，并实现最终目标。在过去的 10 年间，强化学习的大多实际应用都在电子游戏领域。先进的强化学习算法在经典和现代游戏中都取得了令人印象深刻的结果，往往大大超越人类的能力。这种方法在不确定且复杂的数据环境中表现非常好，但在商业环境中却很少得到应用。该方法对于预先定义好的任务而言效率较低，并且开发人员的偏好也会影响结果。这是因为数据科学家设计了奖励，它们可以影响结果。

6.机器学习模型具有确定性吗？

如果系统的输出可预测，那么它就可以说具有确定性。大多数软件应用程序对用户操作的反应都是可预测的，因此您可以说“如果用户这样做，他就能得到确定的结果”。但是，机器学习算法通过观察和经验来学习。因此，它们本质上具有概率性。上述语句现在更改为：“如果用户这样做，他有 X% 的几率得到确定的结果。”在机器学习中，决定论是应用上述学习方法时使用的一种策略。有监督、无监督及其他训练方法均可以根据企业想要的结果决定。研究问题、数据检索、结构和存储决策决定了采用的是确定性策略还是非确定性策略。

7.确定性方法与概率性方法

确定性方法注重准确性和收集的数据量，因此效率优先于不确定性。另一方面，非决定性（或概率性）流程旨在管理机会因素。机器学习算法中集成了内置工具，有助于量化、识别和衡量学习和观察过程中的不确定性。

8.机器学习的优点和缺点都有哪些？

8.1 机器学习模型的优点：

1.可以识别人类可能遗漏的数据趋势和模式。
2.设置后无需人工干预即可运作。例如，网络安全软件中的机器学习即使没有管理员输入，也能持续监控和识别网络流量的异常情况。
3.结果会随着时间推移越来越准确。
4.可以在动态、大容量和复杂的数据环境中处理各种数据格式。
5.以足够及时的方式进行快速分析、预测和处理，使企业能够快速做出基于数据的决策
6.通过快速识别高风险患者、推荐一系列药物以及预测再入院率，促进准确的医学预测和诊断
7.通过显著减少由数据重复和其他不准确造成的错误，简化数据输入中的时间密集型文档，同时使工作人员摆脱繁重的数据输入任务
8.提高金融规则和模型的精确度，促进投资组合管理；实现算法交易、贷款承销，重要的是推进欺诈检测
9.改善客户分割和生命周期价值预测，为营销人员提供宝贵信息以优化潜在客户，更大限度地提高网络流量，以及提高邮件和电子邮件活动的回报。

8.2 机器学习模型的缺点：

初始训练成本较高且非常耗时。如果没有充足的数据，可能难以运作。
如果在内部设置硬件，则机器学习是一种需要大量初始投资的计算密集型流程。
在没有专家帮助的情况下，可能很难正确解释结果并消除不确定性。

标签：机器,AI,ML,监督,学习,算法,GPT,数据,标注
From： https://www.cnblogs.com/hlkawa/p/17626279.html