• 2024-07-02统计建模基础
    什么是建模?问题——>数据——>模型——>结论统计建模的本质收集、分析、展示、解释数据统计问题回归:横截面数据、纵向数据分类:横截面数据、分类数据我们观测不到真值,观测到的数据一定有误差。如何确定模型?1.根据探索性数据分析主观确定一个参数模型或者一个算法。
  • 2024-07-02焦点损失:深度学习中的目标检测优化神器
  • 2024-06-30python 无监督生成模型
    无监督生成模型在机器学习中扮演着重要角色,特别是当我们在没有标签数据的情况下想要生成新的样本或理解数据的内在结构时。一种流行的无监督生成模型是生成对抗网络(GenerativeAdversarialNetworks,GANs)。1.python无监督生成模型GANs由两部分组成:一个生成器(Generator)和一个
  • 2024-06-23IA的统计学基础:深入解析与实践应用
    IA的统计学基础:深入解析与实践应用在数据泛滥的信息化时代,统计学作为解读数据语言的关键工具,对于任何希望从数据中提取价值的专业人士来说都是必修课。本文将从统计学的基本概念入手,深入探讨其技术细节,并展示如何将这些技术应用于实际问题解决中。统计学的定义与重要性统
  • 2024-06-22算法人生(23):跟着“生成对抗网络”思维走出“拖延”
    生成对抗网络(GANs)是一种深度学习模型,其核心思想是通过两个神经网络——生成器和判别器的对抗过程来学习数据分布,进而生成新的、类似真实数据的样本。它基本原理基于一个博弈论框架,其中生成器尝试生成尽可能逼真的数据样本以欺骗判别器,而判别器则试图区分真实数据与生成器生成
  • 2024-06-21金控风控:Python实现基于数据技巧的拒绝推断
    常说的拒绝推断(Inferencemethods),通常是指通过数据分析方法修正模型的参数估计偏差。拒绝推断的主要意义是希望修正建模样本和实际全量样本之间的差异,本质上是为了降低模型参数估计的偏差。拒绝推断场景下有如下三个概念。已知好坏标签(KnowGoodBad,KGB)样本:准入模型允许通过
  • 2024-06-21ch10 降维与度量学习
    降维的动机从k-近邻算法的角度看降维如果给定测试样本\(x\)与最近邻样本\(z\),那么正确率就为\[P(acc)=P(c_1=c_2|x,z)=\sum{c\in\mathcal{C}}P(c_1=c_2=c|x,z)=\sum_{c\in\mathcal{C}}P(c_1=c|x)P(c_2=c|z)\]如果在度量空间中满足密采样假
  • 2024-06-21[模式识别复习笔记] 第7章 聚类
    1.聚类给定样本集\(D=\{\bm{x}_1,\bm{x}_2,...,\bm{x}_n\}\),\(\bm{x}_i\in\mathbb{R}^d\)。通过聚类将\(n\)个样本划分为\(k\)个簇划分\(\mathcalC=\{C_1,C_2,...,C_k\}\),使得:\[C_i\capC_j=\emptyset,\\foralli\not=j\且\\
  • 2024-06-21t分布简述
    3.1简介t分布英文名称t-distribution,最初由英国统计学家Gosset提出。 图3.1t分布t分布是WilliamS.Gosset以笔名Student发表的论文中提出的,所以也称为Student分布。3.2性质 3.3应用3.3.1单样本t检验单样本t检验是检验一个样本平均数与一个已知的总体平均数的
  • 2024-06-20【简单介绍下近邻算法】
  • 2024-06-20F检验的场景用途
    F检验(F-test)是统计学中用于比较两个数据集方差或检验多个样本均值差异的一种假设检验方法。通常用于以下场景:方差齐性检验(Levene’sTest或Bartlett’sTest):用于检验两个或多个样本群体的方差是否相等,这是进行t检验之前的一个重要步骤,因为大多数t检验假设方差齐性。
  • 2024-06-20[AAAI2024]Out-of-Distribution Detection in Long-Tailed Recognition with Calibrated Outlier Class Lea
    这篇文章设置的问题是:考虑长尾分布的训练集下,对测试集上的OOD样本进行检测。作者在训练集中引入了openset样本学习异常表征,以OCL(OutlierClassLearn)为baseline,训练时引入prototype方法,推理时对logits进行调整校准。问题背景DNNs会把OOD(out-of-distribution)样本误分类为ID(in-di
  • 2024-06-18机器学习--有监督学习--分类算法(KNN算法)
     使用场景:做分类的,比如银行想做客户分类,看看新的这个客户,他是高风险用户还是低风险用户。原理使用:可以用贝叶斯分类,决策树算法,还有KNN,本篇主要整理KNN。KNN原理:有N个样本点,对新纪录r,使用KNN进行分类,看它属于哪个分类。具体如下:1、先确定k值,不建议太大,一般采用交叉验证法决定,k
  • 2024-06-18揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
    揭秘In-ContextLearning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]自GPT-3首次提出了In-ContextLearning(ICL)的概念而来,ICL目前已经变成了一种经典的LLMs使用方法。ICL,即In-ContextLearning,是一种让大型语言模型(LLMs)通过少量标注样本在
  • 2024-06-17随机梯度下降(SGD)
    随机梯度下降(SGD)随机梯度下降(StochasticGradientDescent,SGD)是一种用于优化机器学习模型的基本算法。SGD通过迭代地调整模型参数,使损失函数达到最小,从而优化模型性能。它是深度学习中最常用的优化算法之一,尤其适用于大规模数据集和高维度参数空间。SGD的基本思想SGD的核心
  • 2024-06-17zero-shot-learning-definition-examples-comparison
    1Zero-shotlearning零样本学习。1.1任务定义利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集;期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效。Zero-shotlearning就是希望我们的模型能够对其从
  • 2024-06-17人工智能大模型——零样本提示
    零样本提示是与少样本提示相对应的一种提示词编写方式,其含义是指在编写提示词过程中,并未给LLM提供任何的相关示例。零样本提示是新手使用ChatGPT最常规的提示方式,也是最好掌握的一种提示方式,同时也是其他所有高级提示技术的基础。应用场景我一直建议在写提示词的时候遵循一
  • 2024-06-17硬核解读KubeEdge基于大模型边云协同的机器人语义分割算法
    本文分享自华为云社区《KubeEdge:基于大模型边云协同的机器人语义分割算法》,作者:云容器大未来。近年来快速发展的视觉大模型(例如SAM)在促进高精度的智能感知方面具有很大的潜力。然而,边缘环境中的资源限制往往会限制这种视觉大模型在本地部署,从而产生相当大的推理延迟,导致难以
  • 2024-06-16【Python】深入了解 AdaBoost:自适应提升算法
    我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的                     
  • 2024-06-16医学统计学~No.2 独立样本t检验&单因素方差分析
    最近一段时间在着手处理行为学数据,主要参考师姐的毕业论文,然鹅统计分析里写的统计方法并菜菜狗并不是很理解,困扰之下,感觉近两周工作没有一丝丝进展。今天浅找了几篇博士毕业论文,发现人家的统计分析里主要用了独立样本t检验和单因素方差分析,菜菜狗布灵布灵的大眼睛更忽闪忽闪啦,
  • 2024-06-16算法人生(22):从“生成对抗网络”看“逆商提升”
    ​在图像生成与编辑、音频合成、视频生成领域里,有一个非常重要的深度学习方法——生成对抗网络(简称GANs),它是由两个神经网络组成的模型,分别为生成器(Generator)和判别器(Discriminator),这两个网络相互博弈,通过对抗学习的方式来训练,以便生成逼真的数据样本。它的大致步骤如下:初始
  • 2024-06-14[NeurIPS2021]Open-set Label Noise Can Improve Robustness Against Inherent Label Noise
    这篇文章与ICML2022的Open-sampling是同一个作者,方法一模一样,只是问题的场景变为噪声标签学习,Open-sampling是长尾问题的场景,可参见写的这篇blog。这两篇文章大致做法完全相同:对biased数据集引入开集数据,在每个epoch分配均匀的闭集标签。如果是longtaileddata,还涉及不平衡问题,
  • 2024-06-14【开源样本库分享】Five-Billion-Pixels-ENVIFormat 五十亿像素高精度样本库分享
    很高兴给大家分享一个好消息,Five-Billion-Pixels-ENVIFormat五十亿像素开源样本库(ENVI格式)正式上线了!Five-Billion-Pixels样本库是一个为遥感、地理信息系统(GIS)和图像处理领域的研究和应用而精心打造的高质量样本库。为了让更多的人受益,我们决定制作并发布ENVI格式的五十亿像素
  • 2024-06-13R:microtable包随机森林
    rm(list=ls())setwd("C:\\Users\\Administrator\\Desktop\\New_microtable")#设置工作目录library(microeco)library(magrittr)library(dplyr)library(tibble)feature_table<-read.table('Bac_species.txt',header=TRUE,row.names=
  • 2024-06-13机器学习策略篇:详解清除标注错误的数据(Cleaning up Incorrectly labeled data)
    清除标注错误的数据监督学习问题的数据由输入\(x\)和输出标签\(y\)构成,如果观察一下的数据,并发现有些输出标签\(y\)是错的。的数据有些标签是错的,是否值得花时间去修正这些标签呢?看看在猫分类问题中,图片是猫,\(y=1\);不是猫,\(y=0\)。所以假设看了一些数据样本,发现这(倒数第二