课程描述
多模态机器学习(MMML)是一个充满活力的多学科研究领域,它通过集成和建模多种交流模式(包括语言、声音和视觉信息)来解决人工智能的一些基础问题。随着对视听语音识别的初步研究,以及最近对图像和视频字幕等语言和视觉项目的研究,这一研究领域给多模态研究人员带来了一些独特的挑战,因为数据具有异质性,模态之间往往存在偶然性。本课程将教授与MMML相关的基本数学概念,包括多模态对齐和融合、异构表示学习和多数据流时间建模。我们还将回顾最近描述MMML最先进的概率模型和计算算法的论文,并讨论当前和未来的挑战。
本课程将介绍与多模态机器学习的五个主要挑战相关的机器学习和深度学习的基本数学概念:(1)多模态表示学习,(2)翻译和映射,(3)模态对齐,(4)多模态融合和(5)协同学习。这些包括但不限于多模态自动编码器、深度典型相关分析、多核学习、注意力模型和多模态递归神经网络。本课程还将讨论MMML最近的许多应用,包括多模态情感识别、图像和视频字幕以及跨模态多媒体检索。
文末附本课程视频及ppt下载地址。
课程首页
https://cmu-multicomp-lab.github.io/mmml-course/fall2020/
课程大纲
课程视频截图
课程视频及ppt免费下载地址
微信公众号“深度学习与NLP”回复关键字“dmtml”获取下载地址。