首页 > 其他分享 >理解Transformer [数据挖掘深度学习]

理解Transformer [数据挖掘深度学习]

时间:2024-04-24 12:22:40浏览次数:26  
标签:例如 Transformer 二元 矩阵 离散 深度 数据挖掘 数据 属性

属性

离散/连续

离散属性:具有有限或无限可数个值,不一定为整数。属性hair_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。
离散属性可以具有数值。如对于二元属性取 0 和 1 ,对于年龄属性取 0 到 110 。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性customer_ID是无限可数的。顾客数量是无限增长的,但事实上实际的值集合是可数的。

定性/定量

定量属性:指以数量形式存在着的属性,因此可以对其进行测量。测量的结果用一个具体的量(称其为单位)和一个数的乘积来表示。以物理量为例,距离、质量、时间等都是定量属性。

定性是指通过非量化的手段来探究事物的本质。其概念与定量相对应。定性的手段可以包括观测、实验和分析等,以此来考察研究对象是否具有这种或那种属性或特征以及它们之间是否有关系。

二元属性:对称/非对称

对称属性:如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0 或 1 ,没有优先权。例如,属性“性别”就是这样的一个例子,它有两个值:“女性”和“男性”。
非对称属性:如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为 1(例如,HIV阳性),而将另一种结果编码为 0(例如 HIV 阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。

属性的类型

  • 标称:标称值只提供足够的信息以区别对象。例如,性别。
  • 序数:序数值提供足够的信息确定对象的序。例如,矿石硬度[好、较好、最好]。
  • 区间:值之间的差是有意义的。例如,日历等。
  • 比率:值之间的差和比率都有意义。例如,货币量、年龄、质量等。

变换

属性类型 变换
标称 任何一对一的变换
序列 值的保序变换,即新值=f(旧值),其中是单调函数
区间 新值=a×旧值+b,其中a、b是常数
比率 新值=a×旧值

数据集的类型

记录矩阵

  • 记录数据
  • 数据矩阵
  • 稀疏数据矩阵
  • 事务数据矩阵

基于图形的数据

带有对象之间联系的数据,如万维网。
具有图形对象的数据,如蛋白质分子数据。

有序数据

空间数据、时序数据、序列数据、时间序列数据。

Transformer

<iframe allowfullscreen="true" border="0" frameborder="no" framespacing="0" scrolling="no" src="//player.bilibili.com/player.html?aid=1052892976&bvid=BV1XH4y1T76e&cid=1500217695&p=1&Autoplay=0"> </iframe>

原理:相同语义的词,上下文关系类似。eg:香蕉

标签:例如,Transformer,二元,矩阵,离散,深度,数据挖掘,数据,属性
From: https://www.cnblogs.com/nolca/p/18154785

相关文章

  • 深度解读《深度探索C++对象模型》之C++虚函数实现分析(二)
    接下来我将持续更新“深度解读《深度探索C++对象模型》”系列,敬请期待,欢迎关注!也可以关注公众号:iShare爱分享,自动获得推文和全部的文章列表。第一篇请从这里阅读:深度解读《深度探索C++对象模型》之C++虚函数实现分析(一)这一篇主要讲解多重继承情况下的虚函数实现分析。在多重......
  • 初中中考阅读理解难题一网打尽!句子结构深度解析+答案揭秘,助你轻松冲刺高分!-010
    PDF格式公众号回复关键字:ZKYDT010原文1Grandmotherlookedforwardtoherbirthdayparty,didn'tshe?解析1Grandmother祖母,lookedforwardto期待盼望,herbirthdayparty她的生日聚会,didn'tshe?不是吗?祖母盼望她的生日聚会,不是吗?2Grandfatherhadalw......
  • 深度解读《深度探索C++对象模型》之C++虚函数实现分析(一)
    接下来我将持续更新“深度解读《深度探索C++对象模型》”系列,敬请期待,欢迎关注!也可以关注公众号:iShare爱分享,自动获得推文和全部的文章列表。假如有这样的一段代码,代码中定义了一个Object类,类中有一个成员函数print,通过以下的两种调用方式调用:Objectb;Object*p=newObjec......
  • 与开源数据可视化平台深度融合,进入流程办公新时代!
    进入新时代,需要有新的软件平台实现创新智造。开源数据可视化平台是流行于各中小型企业中的快速框架软件平台,够灵活、易操作、好维护、可视化操作界面等多个优势特点,在降本增效、减少成本支出、实现流程化办公等方面具有事半功倍的应用价值和效果。流辰信息作为专业的服务商,将不遗......
  • 深度学习学习率(Learning Rate)lr理解
    现在是2024年4月23日13:54,在看代码了,嗯,不能逃避,逃避可耻,会痛苦,看不懂多看几遍多写一下就好了,不能跑了哈,一点一点来就是了,我还有救。 如何理解深度学习中的学习率(LearningRate):学习率(LearningRate)是神经网络和其他机器学习算法中非常重要的一个超参数。它决定了在优化过程......
  • 【数学】主成分分析(PCA)的详细深度推导过程
    BasedonDeepLearning(2017,MIT)book.本文基于DeepLearning(2017,MIT),推导过程补全了所涉及的知识及书中推导过程中跳跃和省略的部分。blog1概述现代数据集,如网络索引、高分辨率图像、气象学、实验测量等,通常包含高维特征,高纬度的数据可能不清晰、冗余,甚至具有误导......
  • 【rust】《Rust深度学习[6]-简单实现逻辑回归(Linfa)》
    什么是LinfaLinfa是一组Rust高级库的集合,提供了常用的数据处理方法和机器学习算法。Linfa对标Python上的 scikit-learn,专注于日常机器学习任务常用的预处理任务和经典机器学习算法,目前Linfa已经实现了scikit-learn中的全部算法。项目结构依赖[package]name="rust-ml-e......
  • 【rust】《Rust深度学习[4]-理解线性网络(Candle)》
    全连接/线性在神经网络中,全连接层,也称为线性层,是一种层,其中来自一层的所有输入都连接到下一层的每个激活单元。在大多数流行的机器学习模型中,网络的最后几层是完全连接的。实际上,这种类型的层执行基于在先前层中学习的特征输出类别预测的任务。全连接层的示例,具有四个输入节点......
  • 【rust】《Rust深度学习[5]-理解卷积神经网络(Candle)》
    卷积神经网络ConvolutionalNeuralNetwork,简称为CNN。CNN与一般的顺传播型神经网络不同,它不仅是由全结合层,还由卷积层(ConvolutionLayer)和池层(PoolingLayer)构成的神经网络。在卷积层和池化层中,如下图所示,缩小输入神经元的一部分区域,局部地与下一层进行对应。每一层都有一个称......
  • 【rust】《Rust深度学习[2]-数据分析和挖掘库(Polars)》
    什么是Polars?Polars是一个用于操作结构化数据的高性能DataFrame库,可以用来进行数据清洗和格式转换、数据分析和统计、数据可视化、数据读取和存储、数据合并和拼接等等,相当于Rust版本的Pandas库。Polars读写数据支持如下:  常见数据文件:csv、parquet(不支持xlsx、json文件) ......