课程描述
机器学习在现实应用中可以形式化为经典的统计问题,例如模式识别、回归或降维,但需要注意的是数据通常不是数字的向量。例如,计算生物学中的蛋白质序列和结构,网络挖掘中的文本和XML文档,图像处理中的分割图片,或者语音识别和金融中的时间序列,都具有特定的结构,这些结构包含统计问题的相关信息,但是很难被编码成有限维向量表示。
核方法是一类非常适合这类问题的算法。事实上,它们将许多最初为向量设计的统计方法的适用性扩展到几乎任何类型的数据,而不需要数据的显式矢量化。这种向非向量扩展的代价是需要在对象之间定义一个所谓的正定核函数,形式上相当于数据的隐式矢量化。近年来,各种对象的内核设计“艺术”取得了重要进展,产生了许多最先进的算法和在许多领域的成功应用。
本课程的目标是介绍内核方法的数学基础,以及目前在内核设计中出现的主要方法。我们将首先介绍正定核和再生核希尔伯特空间的理论,这将允许我们介绍几种核方法,包括核主成分分析和支持向量机。然后我们将回到定义内核的问题。我们将介绍关于Mercer核和半群核的主要结果,以及字符串和图形的核的几个例子,取自计算生物学、文本处理和图像分析中的应用。最后,我们将涉及主动研究的主题,例如大规模内核方法和深内核机器。
课程首页
https://members.cbio.mines-paristech.fr/~jvert/svn/kernelcourse/course/2021mva/index.html
课程大纲
课程视频截图