首页 > 其他分享 >特征学习——特征工程自动化,无非类似CNN最后一层softmax前的输出层就是特征表征层,但那是分类器,如何用在无标注数据中是难

特征学习——特征工程自动化,无非类似CNN最后一层softmax前的输出层就是特征表征层,但那是分类器,如何用在无标注数据中是难

时间:2023-08-02 23:02:43浏览次数:44  
标签:学习 特征 中是 神经网络 分类器 监督 表征 字典

通过representation learning,我们可以把一些抽象的知识转化为具体的数值的形式,例如我们使用word2vec对“上下文”的模糊的概念进行了具象的表达,生成的word vector包含了这种先验知识(具体的表现形式就是常出现在上下文里的单词其向量的距离很接近,实际上理解word2vec是基于embedding 空间的相似性作为目标函数进行设计的就不难理解为什么word2vec可以捕捉到这种抽象关系了)

 

机器学习中,特征学习表征学习[1]是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。

机器学习任务,例如分类问题,通常都要求输入在数学上或者在计算上都非常便于处理,在这样的前提下,特征学习就应运而生了。然而,在我们现实世界中的数据例如图片,视频,以及传感器的测量值都非常的复杂,冗余并且多变。那么,如何有效的提取出特征并且将其表达出来就显得非常重要。传统的手动提取特征需要大量的人力并且依赖于非常专业的知识。同时,还不便于推广。这就要求特征学习技术的整体设计非常有效,自动化,并且易于推广。

特征学习可以被分为两类:监督的和无监督的,类似于机器学习。

  • 在监督特征学习中,被标记过的数据被当做特征用来学习。例如神经网络,多层感知器,(监督)字典学习。
  • 在无监督特征学习中,未被标记过的数据被当做特征用来学习。例如(无监督)字典学习,独立成分分析自动编码矩阵分解[2] ,各种聚类分析及其变形[3][4][5]

目录

监督特征学习

监督特征学习就是从被标记的数据中学习特征。大致有以下几种方法。

监督字典学习

总体来说,字典学习是为了从输入数据获得一组的表征元素,使每一个数据点可以(近似的)通过对表征元素加权求和来重构。字典中的元素和权值可以通过最小化表征误差来得到。通过L1正则化可以让权值变得稀疏(例,每一个数据点的表征只有几个非零的权值)。

监督字典学习利用输入数据的结构和给定的标签(输出)来优化字典。例如,2009年Mairal等人提出的一种监督字典学习方案被应用在了分类问题上。这个方案的优化目标包括最小化分类误差,表征误差,权值的1范数(L1正则化)和分类器参数的2范数。 有监督的字典学习可以被视为一个三层神经网络(一层隐含层),第一层(输入层)到第二层(隐含层)是表征学习,第二层到第三层(输出)是分类器的参数回归。

神经网络

神经网络是通过多层由内部相连的节点组成的网络的一个学习算法。它的命名是受到神经系统的启发,它的每一个节点就像神经系统里的神经元,而每一条边就像一条突触。神经网络里面的每一条边都有对应的权值,而整个网络则定义运算法则将输入数据转换成为输出。神经网络的网络函数通过权值来刻画输入层跟输出层之间的关系。通过适当的调整网络函数,可以尽量最小化损耗的同时解决各种各样的机器学习任务。

无监督特征学习

κ-平均算法

主要成分分析

独立成分分析

局部线性嵌入算法

无监督字典学习

另见

标签:学习,特征,中是,神经网络,分类器,监督,表征,字典
From: https://blog.51cto.com/u_11908275/6944138

相关文章

  • C--存储类型和特征修饰
    C语言中的存储类型和特征修饰C语言中的变量定义C语言变量定义的格式为:存储类型特征修饰数据类型变量名存储类型:决定变量的存储位置特征修饰:决定变量的特征属性数据类型:决定变量的存储空间和数据范围变量名:决定变量的引用标识一般定义变量时,前两者都是省略的,比如c......
  • pytorch实现cnn&图像分类器
    1pytorch实现神经网络1.1定义网络从基类nn.Module继承过来,必须重载def__init__()和defforward()classNet(nn.Module):def__init__(self):#网络结构super(Net,self).__init__()#1inputimagechannel,6outputchannels,5x5squareco......
  • HBase-HBase的特征、优缺点、应用场景
    一、Hbase的概念HBase是Hadoop的生态系统,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。如果你需要进行实时读写或者随机访问大规模的数据集的时候,请考虑使用HBase!HBase作为GoogleBigtable的开源实现,GoogleBigtable利用GFS作......
  • 操作系统的特征和体系结构
    操作系统的主要特征         OS特征--并发并发(concurrency):指处理多个同时性活动的能力。由于并发将会引发很多的问题:活动切换,保护,相互依赖的活动间的同步。注意与并行(parallel)区分:与并发类似,但多指不同程序同时在多个硬件部件上执行。OS特征--共......
  • 基于双目人脸图像ORB特征提取匹配的人脸三维点云提取和建模的matlab仿真
    1.算法理论概述      三维人脸建模是计算机视觉领域的一个重要研究方向。传统的人脸建模方法通常基于单张图像,难以准确地获取人脸的三维信息。而基于双目图像的人脸建模方法则可通过多视角的信息获取,实现更加精确的三维人脸建模。本文提出了一种基于双目人脸图像ORB特征提......
  • 概念与特征
    一、概念负责管理协调硬件、软件等计算机资源的工作;为上层用户、应用程序提供简单易用的服务;是一种系统软件。二、特征1.并发、共享、虚拟、异步指两个或多个事件在同一时间间隔内发生。操作系统的并发性是指计算机中同时存在多个运行的程序,因此它具有处理和调度多个程序同时......
  • OpenCV4之特征提取与对象检测
    1、图像特征概述图像特征的定义与表示图像特征表示是该图像唯一的表述,是图像的DNA图像特征提取概述传统图像特征提取-主要基于纹理、角点、颜色分布、梯度、边缘等深度卷积神经网络特征提取-基于监督学习、自动提取特征特征数据/特征属性尺度空间不变性像素迁移不......
  • 如何优雅地判断数据库中是否存在某些记录
    如何优雅地判断数据库中是否存在某些记录在开发过程中,经常需要从数据库中查询某些记录是否存在。如果我们使用传统的方式,比如逐条查询或者使用IN子句查询,可能会造成性能瓶颈。本文将介绍如何优雅地判断数据库中是否存在某些记录,并提供示例代码和详细说明。问题描述假设我们有......
  • 特征选择 - Fisher Score
    特征选择的目的在理想情况下,特征选择想要达到以下效果:简化模型以提高可解释性:通过减少特征的数量,模型变得更简单,更容易理解。这对于那些需要理解模型如何做出预测的领域(如医疗或信贷评分)非常重要。改进模型性能:通过消除无关或冗余的特征,模型的预测性能可能会得到提高。这是......
  • 2023.29 人工智能的发展特征
    今年以来,人工智能又热了起来,发展有以下几个特征:涌现出很多大模型,它们使用大量数据集进行训练,所以称它们为大型语言模型(LLM)。这些模型是生成式的。这意味着他们可以创建新内容,无论是文本、图像、声音、视频、3D对象,甚至是计算机代码。这是相较于旧人工智能模型的一个进步,旧的......