Classification

时间：2024-02-27 11:55:05浏览次数：24

标签：discriminative Classification 分类 regression 协方差 generative 正态分布

分类

先介绍一种分类方式，这种分类方式是生成式（Generative）的。通过后验概率来进行分类（如：某一个物品在某一个类别的概率比较大，那么我们就认为这个物品属于这个类别）
不妨假设数据服从二维正态分布，考虑利用训练集确定二维正态分布所需要的参数，$\mu$和$\sum$分别是均值和协方差，二维正态分布密度函数的矩阵形式如下

参考：2维正态分布-矩阵表示-推导过程_二维正态分布矩阵形式-CSDN博客

那么怎么求解这两个参数呢？用最大似然估计（Maximum Likelihood）

如下图，两组参数都可以sample出这79个点，但是likelihood大小不同

最大似然估计如下，就是概率密度乘起来取对数求导

分类流程如下

经过验证发现结果不太好

修正一下模型，两个类别用同一组协方差，因为协方差和input的feature size的平方成正比，所以增长可以非常快，导致参数较多，容易过拟合，求解最大似然发现均值不变，但是协方差变成加权平均

发现这样的话分类的boundary会变成直线，像这样的model可称为liner model

其中如果这些dimension都是独立的，可以使用朴素贝叶斯（Naive Bayes Classifier）

发现可以用贝叶斯继续推导sigmoid函数

最后得下式，这也就解释了为什么上面让两个协方差相等时候，会得到liner model

那么怎么求这两个参数，我们引入逻辑回归

逻辑回归（Logistics Regression）

对比一下Logistics regression和liner regression

为什么Logistics regression不用square error。因为如果求出这个 loss 关于 w 的偏导数，如果和最优点距离特别近的时候，肯定偏导是比较小的，但是如果距离特别远的时候，偏导也是很小，这样不利于求解。

logist regression的方法是discriminative，而前面贝叶斯计算的方法是generative，我们对比一下，同样的model，但是求解的参数却不一样，因为generative的方法有假设，比如假设了高斯分布或者伯努利分布等等

文献上常常会说discriminative比generative的performance更好一些，但是当generative的training data少时，也是有时候可以赢过discriminative的。discriminative受data影响大，generative受data影响小（抗噪音干扰）。

逻辑回归的缺点，下图的boundary显然不能用直线划分

那怎么办呢，我们可以找一个比较好的feature space

就像这样，变换之后可以分割开了，但是难点就在于找合适的feature transformation，怎么让机器自己找呢，让多个逻辑回归模型串联起来

这便得到了neuron，neural network，deep learning

以上是介绍二分类，如果是三类或者更多呢

Multi-class Classification

使用softmax方法，强化大的值，大的值和小的值之间的差距变大，softmax不再是确定某一个最大值，而是为每个输出分分类的结果都赋予一个概率值，表示属于每个类别的可能性

流程如下，下图有个错误，算cross entropy时候公式要加个负号

但是要这么计算交叉熵的话，target也应该是一个probability distribution，见下

标签：discriminative,Classification,分类,regression,协方差,generative,正态分布
From： https://www.cnblogs.com/ybx-tih/p/18036588

李宏毅2022机器学习HW3 Image Classification
Homework3数据集下载在本地环境下进行实验总是令人安心，但是又苦于网上找不到数据集，虽然kaggle上有数据集但是下载存在问题于是有了一个天才的想法，间接从kaggle上下载（利用output文件夹中的文件是可下载这一机制将数据集从input文件夹拷贝到output文件夹），具体操作如下图等待数......
《Confusion Graph: Detecting Confusion Communities in Large Scale Image Classifi
论文标题《ConfusionGraph:DetectingConfusionCommunitiesinLargeScaleImageClassification》混淆图：在大规模图像分类中检测混淆社区作者RuochunJin、YongDou、YueqingWang和XinNiu来自国防科技大学并行和分布式处理国家实验室，和上一篇是姊妹篇。初读摘要......
《Visual Tree Convolutional Neural Network in Image Classification》阅读笔记
论文标题《VisualTreeConvolutionalNeuralNetworkinImageClassification》图像分类中的视觉树卷积神经网络作者YuntaoLiu、YongDou、RuochunJin和PengQiao来自国防科技大学并行和分布式处理国家实验室初读摘要问题：在图像分类领域，随着深度学习的快速发展，卷......
Supervised Machine Learning : Regression and Classification
Thecourseisavailableat:SupervisedMachineLearning:RegressionandClassification-Week1:IntroductiontoMachineLearning-Week1|CourseraRegressionModelThecostisameasurehowwellourmodelispredictingthetarget.Thefollowingformul......
Fine-grained Visual Classification with High-temperature Refinement and Backgrou
摘要细粒度视觉分类是一项具有挑战性的任务，因为类别之间的相似性很高，单个类别中数据之间的差异不同。为了应对这些挑战，以前的策略侧重于定位类别之间的细微差异并理解其中的判别特征。然而，背景还提供了重要信息，可以告诉模型哪些特征对于分类是不必要的甚至有害，并且过于依赖细微特......
Kaggle:Otto Group Classification
Kaggle:OttoGroupClassification数据处理导入相应的包之后，从csv文件中读取数据，指定id列为index列。本身id列也不携带预测信息。同时将训练数据和测试数据拼接在一起。train_data=pd.read_csv("dataset/train.csv",index_col="id")test_data=pd.read_csv("dataset/test.......
《A Survey on Deep Learning-based Fine-grained Object Classification and Semanti
论文标题《ASurveyonDeepLearning-basedFine-grainedObjectClassificationandSemanticSegmentation》基于深度学习的细粒度对象分类和语义分割的综述为什么是“Object”而不是“image”作者西南交通大学和新加坡国立大学2016年7月1日received；2016年9月30日......
CART（Classification and Regression Trees）
CART（ClassificationandRegressionTrees）是一种常用的决策树算法，既可以用于分类问题，也可以用于回归问题。CART算法由Breiman等人于1984年提出，是一种基于递归二分划分的贪婪算法。以下是对CART算法的详细解释：1.决策树的构建过程：CART算法通过递归地将数据集划分为越来越纯的子集......
论文阅读：Adaptive Hierarchical Down-Sampling for Point Cloud Classification
AdaptiveHierarchicalDown-SamplingforPointCloudClassification用于点云分类的自适应分层下采样法摘要深度神经网络中无序点云的确定性下采样到目前为止还没有得到严格的研究。现有的方法对点进行下采样，而不考虑它们对网络输出的重要性，并且经常在处理前对原始点云进行下采样......
论文：Ultra Fast Deep Lane Detection with Hybrid Anchor Driven Ordinal Classificat
论文名：UltraFastDeepLaneDetectionwithHybridAnchorDrivenOrdinalClassification混合Anchor驱动顺序分类的超快深车道检测研究问题：研究方法:主要结论：模型:问题：行文结构梳理：Abstrct:现有方法主要集中在(像素分割)+缺陷(复杂场景)+(通过观察)提出一种高效方......

Classification

分类

逻辑回归（Logistics Regression）

Multi-class Classification

相关文章

赞助商

阅读排行