首页 > 其他分享 >统计学习方法第1章 统计学习方法概论1.1李航

统计学习方法第1章 统计学习方法概论1.1李航

时间:2023-12-28 17:35:04浏览次数:37  
标签:李航 1.1 方法 模型 学习 learning 数据 统计

1章 统计学习方法概论

本章简要叙述统计学习方法的一些基本概念。这是对全书内容的概括,也是全书内容

的基础。首先叙述统计学习的定义、研究对象与方法;然后叙述监督学习,这是本书的主

要内容;接着提出统计学习方法的三要素:模型、策略和算法;介绍模型选择,包括正则

化、交叉验证与学习的泛化能力;介绍生成模型与判别模型;最后介绍监督学习方法的应

用:分类问题、标注问题与回归问题。

1.1 统计学习

1.统计学习的特点

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型

对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical

machine

learning)。

统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及

网络之上的;(2)统计学习以数据为研究对象,是数据驱动的学科;(3)统计学习的目

的是对数据进行预测与分析;(4)统计学习以方法为中心,统计学习方法构建模型并应

用模型进行预测与分析;(5)统计学习是概率论、统计学、信息论、计算理论、最优化

理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法

论。

赫尔伯特·西蒙(Herbert A. Simon)曾对“学习”给出以下定义:“如果一个系统能够通

过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统

通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往

是指统计机器学习。

2.统计学习的对象

统计学习的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模

型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是

多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们

的组合。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前

提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库

中的数据等。由于它们具有统计规律性,所以可以用概率统计方法来加以处理。比如,可

以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。

在统计学习过程中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示

的类型。本书以讨论离散变量的方法为主。另外,本书只涉及利用数据构建模型及利用模

型对数据进行分析与预测,对数据的观测和收集等问题不作讨论。

3.统计学习的目的

统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。对数据

的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可

以让人们获取新的知识,给人们带来新的发现。

对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学

习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考

虑尽可能地提高学习效率。

4.统计学习的方法

统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监

督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi

supervised learning)和强化学习(reinforcement learning)等组成。

本书主要讨论监督学习,这种情况下统计学习的方法可以概括如下:从给定的、有限

的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并

且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个

评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数

据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算

法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算

法,称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法

(algorithm)。

实现统计学习方法的步骤如下:

(1)得到一个有限的训练数据集合;

(2)确定包含所有可能的模型的假设空间,即学习模型的集合;

(3)确定模型选择的准则,即学习的策略;

(4)实现求解最优模型的算法,即学习的算法;

(5)通过学习方法选择最优模型;

(6)利用学习的最优模型对新数据进行预测或分析。

本书以介绍统计学习方法为主,特别是监督学习方法,主要包括用于分类、标注与回

归问题的方法。这些方法在自然语言处理、信息检索、文本数据挖掘等领域中有着极其广

泛的应用。

5.统计学习的研究

统计学习研究一般包括统计学习方法(statistical learning method)、统计学习理论

(statistical learning theory)及统计学习应用(application of statistical learning)三个方

面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习

方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统

计学习方法应用到实际问题中去,解决实际问题。

6.统计学习的重要性

近20年来,统计学习无论是在理论还是在应用方面都得到了巨大的发展,有许多重大

突破,统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音

识别、图像识别、信息检索和生物信息等许多计算机应用领域中,并且成为这些领域的核

心技术。人们确信,统计学习将会在今后的科学发展和技术应用中发挥越来越大的作用。

统计学习学科在科学技术中的重要性主要体现在以下几个方面:

(1)统计学习是处理海量数据的有效方法。我们处于一个信息爆炸的时代,海量数

据的处理与利用是人们必然的需求。现实中的数据不但规模大,而且常常具有不确定性,

统计学习往往是处理这类数据最强有力的工具。

(2)统计学习是计算机智能化的有效手段。智能化是计算机发展的必然趋势,也是

计算机技术研究与开发的主要目标。近几十年来,人工智能等领域的研究表明,利用统计

学习模仿人类智能的方法,虽有一定的局限性,但仍然是实现这一目标的最有效手段。

(3)统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三维

组成:系统、计算、信息。统计学习主要属于信息这一维,并在其中起着核心作用。

标签:李航,1.1,方法,模型,学习,learning,数据,统计
From: https://blog.51cto.com/u_15892225/9017007

相关文章

  • 【python机器学习课程设计】驾驶员睡意检测——机器模型训练
    一.选题背景  驾驶员的疲劳和睡意是道路交通安全的重要隐患之一。据统计,疲劳驾驶导致的交通事故占比较高,甚至可能造成生命和财产的巨大损失。因此,开发一种有效的驾驶员睡意检测系统对于提高交通安全具有重要意义。  通过监测驾驶员的眼部数据等,可以建立一个机器学习模型来......
  • 算法题遇到不会的题目应该怎么学习?
    从别人那里学来的刷题策略,主要是因为自己太菜,很多题目都做不出来!第一步:看题目,想解法(十几分钟想不出来直接看题解,看看别人的解法,最好能够默写出来)第二步:自己尝试写出来第三步:隔几天再次写一下,体会+优化第四步:一周过去后,再来一遍第五步:复习,例如面试或者机试前重点:能够在其中获......
  • 锁定1.17|PolarDB开发者大会,我们将聊些什么?
     大会免费门票领取通道已开启 扫描图片二维码 or点击「报名」即可注册报名 现场还有机会领取多款PolarDB定制礼品 2024年1月17日 北京·嘉瑞文化中心 期待与你相聚~......
  • (数据科学学习手札156)地图可视化神器kepler.gl 3.0版本发布
    本文已收录至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师,地图可视化神器kepler.gl终于带来了其3.0大版本的更新......
  • 《算法笔记》学习记录
    算法笔记散列字符串散列//把字符串当成26进制数,转换成10进制,建立映射关系inthash(charS[],intlen){intres=0;for(inti=0;i<len;++i){res=res*26+(S[i]-'A');}returnres;}/**给出n个字符串,每个字符串由三位大......
  • 测试开发 | 拓展学习范式:人工智能半监督学习的探索与应用
    半监督学习(Semi-supervisedLearning)是人工智能领域中一种独特而富有挑战性的学习范式。与监督学习和无监督学习不同,半监督学习在训练过程中同时利用标记和未标记的数据,以提高模型性能。本文将深入探讨半监督学习的定义、原理、应用领域以及未来发展趋势。1.半监督学习的定义半监......
  • 测试开发 | 深度学习:人工智能的前沿驱动力
    随着科技的迅速发展,深度学习作为人工智能的前沿驱动力,正日益引领着技术创新和应用领域的变革。本文将深入探讨深度学习的基本原理、关键技术、应用领域以及未来发展趋势。1.深度学习的基本原理1.1神经网络结构深度学习的核心是神经网络,它模拟了人脑中神经元之间的连接。深度神经......
  • Docker实现原理学习
    Docker实现原理学习Namespaces命名空间(namespaces)是Linux为我们提供的用于分离进程树、网络接口、挂载点以及进程间通信等资源的方法。在日常使用Linux或者macOS时,我们并没有运行多个完全分离的服务器的需要,但是如果我们在服务器上启动了多个服务,这些服务其实会相互......
  • Java 系统学习 | Springboot 写 hello world
    经过一段时间基础学习,现在开始使用Springboot框架完成项目,特地记录一下,方便后续查漏补缺。本篇使用Springboot3框架,IDEA2022编辑器,java17版本。新建项目file->new->project弹框中填入自己的信息Name项目名称Location项目存放路径LanguageJavaB......
  • 基于代码一步一步教你深度学习中循环神经网络(RNN)的原理
    当谈到基于RNN(循环神经网络)的机器学习例子时,一个常见的任务是文本生成。RNN是一种能够处理序列数据的神经网络,它具有记忆能力。以下是一个基于RNN的文本生成例子,并给每一行添加了详细注释:1.importtorch2.importtorch.nnasnn3.importtorch.optimasoptim4.5.#定义......