近日因为项目需要,开始恶补预习NLP的相关知识。以前也看过两本相关书籍,但是都十分浅显。这次准备详细的学一下并记录。
李宏毅老师的网课是 Deep Learning for Human Language Processing
Lecture 1 - Intro
- 没有人能够说同一句话两次
网课特色:加强了对语音的识别的讲解
- 有很多语言虽然有文字但是文字的使用频率非常低
这门课讲六个模型
- 输入语音,输出文字:语音辨识 (数字语音处理)Automatic Speech Recognition (ASR)其中有个很重要的问题是——模型本身的size要小。
- 输入语音,输出语音:Speech Separation, Voice Convention
- 输入语音,输出分类:Speaker Recognition, Keyword Spotting (唤起语音助手)
- 输入文字,输出文字:translation, chat-bot, question answering, summerization
- 输入文字,输出语音:语音合成 但是对于一个很短的词汇容易出错,可能有重音的问题。
- 输入文字,输出分类:
硬train一发
没有硬train一发不能解决的问题,如果有,那就是训练样本不够或者GPU不够。
"Every time I fire a linguist, the performance of the speech recognizer goes up." by Frederick Jelinek.
cocktail party effect 鸡尾酒效应
是指人的一种听力选择能力,在这种情况下,注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。
就是Speech Separation的问题,人可以这样,机器可以吗
one-shot learning
BERT
芝麻街~~
Meta Learning
例:先学其他语言的语音辨识,然后再学一个新的语言的语音辨识。
Learning from Unpaired Data
特别是再voice conversion, image style transfer 上
Knowledge Graph
发现时间好有限55555写不完笔记嗷嗷嗷真的写不完
标签:文字,NLP,Learning,输出,李宏毅,网课,语音,输入 From: https://www.cnblogs.com/pny01/p/17071266.html