【转载-摘录-侵删】
【小宇科技说】【撞墙了吗?深度学习未来十年的发展方向】https://www.bilibili.com/video/BV1Me4y1v78B
一、深度学习的缺点
1.1 泛化性
深度学习目前的主要缺点:泛化性不强。
泛化(generalization)是指训练好的模型在前所未见的数据上的性能好坏。泛化能力最直接的定义是训练数据和真实数据间的差异,训练模型的目地是要模型在完全陌生的数据上进行测试的。【深入理解泛化】https://blog.csdn.net/sc2079/article/details/103090727
当前的深度学习算法都是处在封闭环境中的,即训练集的数据和未来遇到的实际数据都是来自同一个数据分布。其隐含的假设就是,在封闭环境中,特征分布是不变的,学习目标的分布也是不变的,比如分类样本不能从两个类变成三个类。
只有在这种封闭环境中,机器学习模型才表现得好。就好像,机器学习模型必须做过所有的考题,才能在真正的考试当中取得较好的分数。
但实际生活中,我们面对的是开放环境,没办法穷举所有的数据,并且数据分布漂移的现象也时有发生。因此,泛化性不强是目前遇到的最大挑战之一。
当数据的分布随着时间推移逐渐发生变化,需要预测的数据和用于训练的数据分布表现出明显的偏移,这就是数据漂移问题。【数据漂移解析】https://zhuanlan.zhihu.com/p/546635906
变量漂移(Covariate Drift),某些独立的特征发生偏移,P(X)变化,P(Y|X)不变
概念漂移(Concept Drift),特征和目标变量之间的关系发生偏移,即P(X)不变,P(Y|X)变化
1.2 可解释性
深度学习的另一个缺点是:可解释性不强。
当前,深度学习模型很多都无法解释它为什么能够取得较好的效果,或者它为什么表现较差。虽然目前已经有学者在用博弈论等方法来解释,但总体而言,可解释性仍是深度学习的一个短板。
1.3 长尾问题
最后是长尾问题。
长尾问题是实际生产数据中的一种数据分布。在实际的视觉相关问题中,数据都存在长尾分布:少量类别占据绝大多数样本,大量的类别仅有少量的样本,比如open-images,ImageNet等。常见的长尾问题解决方案:对于长尾问题的解决,主要分为两部分
高频部分通过人工筛选 + 人工标注,产出高质量可用数据。
低频部分,通过自动化构建的方式,产出一份可用的指定质量的数据。
【现实数据之长尾问题】https://www.jianshu.com/p/e6860cb901bf
【Long-Tail(长尾)问题的解决方案】https://blog.csdn.net/qq_36523203/article/details/107019526
不管是传统的机器学习还是深度学习,它们都对解决长尾问题束手无策。长尾问题中有很多东西都是我们未知的,我们不知道这些未知样本的标签label,也不知道它们在什么时候发生。
其次,很多科研文章中大家说自己刷新了SOTA,在某个数据集上达到了更好的效果。但其实很多时候我们并不关心SOTA,我们真正关心的是这个模型最差的效果在哪里,即下限在哪儿,因为下限决定了这个系统模型的可靠性。
SOTA:state-of-the-art
SOTA model:state-of-the-art model,并不是特指某个具体的模型,而是指在该项研究任务中,目前最好/最先进的模型。
SOTA result:state-of-the-art result,指的是在该项研究任务中,目前最好的模型的结果/性能/表现。
二、深度学习撞墙的原因
Judeal Pearl认为,当前深度学习的技术其实都是在不断地用统计学方面的知识深挖和拟合数据,但仅有数据是不够的,我们还需要让机器学习模型具备逻辑推理能力。
举个例子,公鸡通常在太阳升起后打鸣,那么是太阳升起导致公鸡打鸣,还是公鸡打鸣导致太阳升起呢?对人来说这其中的因果关系是显而易见的,但模型并不能理解因果,它只能理解相关关系。从数据中,模型能发现二者存在强相关,进而可能认为公鸡打鸣导致了太阳升起。在公鸡不打鸣时,模型就可能给出太阳并未升起的错误预测。
朱迪亚·珀尔(Judea Pearl)——以色列裔美籍计算机科学家、哲学家,以倡导人工智能的概率方法和贝叶斯网络而闻名。他还因在结构模型的基础上发展出因果和反事实推论而受到广泛称赞。2011年,ACM授予Judea Pearl图灵奖,以表彰他“通过发展概率和因果推理演算对人工智能做出的基础性贡献”。
【图灵奖得主Judea Pearl :从“贝叶斯网络之父”到“AI社区的叛徒”】https://www.jiqizhixin.com/articles/2020-06-08-4
三、深度学习的未来
“数据+知识/逻辑”才是深度学习未来发展的方向。
大数据、大模型,一味的追求“大”是不可能解决所有问题的,一个显而易见的问题就是,我们无法穷举所有的可能,也无法搜集所有的数据。因此,知识和逻辑就成为了数据之外帮助模型学习的关键。
那么,什么是知识?怎么进行逻辑推理呢?
3.1 因果学习
Judeal Pearl在他的新书《为什么/THE BOOK OF WHY》中提出了因果学习的概念,因果学习也是未来的热门方向之一。
因果学习(Causal Learning),让机器具备因果思维,通过输入数据,算法可以推断某件事的前因后果,进行反事实推理。
【人工智能的因果学习(Causal Learning)到底想解决什么问题?】https://www.zhihu.com/question/506585967
【因果学习的三个层次】https://zhuanlan.zhihu.com/p/161825331
3.2 反绎学习
其次,周志华老师提出的反绎学习也很有趣。
【理解反绎学习(Abductive Learning)】https://zhuanlan.zhihu.com/p/563251058
演绎deductive,从一般性原理出发证明某个特殊情况,如定理证明;归纳inductive,从观察得到一般性的原理,如机器学习;反绎abductive,从不完全的观察中找到合理的解释。
反绎学习的例子如下:先由分类器从数据中得到标签label;将这些数据和label转换成逻辑表达式;再结合我们的知识系统进行逻辑推理,让这些逻辑表达式尽量符合我们呢的知识系统,在这个过程中可能会修改我们预测的label;修改完成后,用新的到label和数据重新学习。这样不断循环往复地将逻辑推理和学习有机地结合在一起,就是反绎学习。
3.3 生物遗传学
除此之外,还有一些学者提出从生物遗传学的角度来进行学习。对于人类来说,我们的祖辈把他们的经验和知识都浓缩在了基因中传递给我们,因此有人便提出了学习基因的概念。
标签:03,模型,学习,杂记,缺点,https,深度,数据,因果 From: https://www.cnblogs.com/steven913/p/16926617.html