样本

2025-01-05一文讲明白朴素贝叶斯算法及其计算公式（入门普及）
1、贝叶斯算法贝叶斯定理由英国数学家托马斯·贝叶斯(ThomasBayes)提出的，用来描述两个条件概率之间的关系。通常，事件A在事件B发生的条件下与事件B在事件A发生的条件下，它们两者的概率并不相同，但是它们两者之间存在一定的相关性，并具有以下公式，称之为贝叶斯公式：对于一
2025-01-05统计学重要知识点笔记
统计学笔记正态分布又称“高斯分布”,是一种常见的连续概率分布。它的概率密度函数由PDF表现:1.对称性：正态分布2.钟形曲线：它的曲线呈现类似钟形的形(bellshapedcurve)3.均值、方差和标准差：均值 (μ) 方差（σ²）标准差(σ)正态分布的方差、标准差、68-98-9
2025-01-05NO.1 《机器学习期末复习篇》以题（问答题）促习（人学习），满满干huo，大胆学大胆补！
目录一、新手初学？该如何区分[人工智能][机器学习][深度学习]？[1]浅谈一下我的理解[2]深度交流一下人工智能（AI,ArtificialIntelligence）机器学习（ML,MachineLearning）深度学习（DL,DeepLearning）[3]三者之间的关系二、机器学习能用到实处？该怎么用？ (1)推荐系统(2)
2025-01-04带你从入门到精通——机器学习（九. 聚类算法）
建议先阅读我之前的博客，掌握一定的机器学习前置知识后再阅读本文，链接如下：带你从入门到精通——机器学习（一.机器学习概述）-CSDN博客带你从入门到精通——机器学习（二.KNN算法）-CSDN博客带你从入门到精通——机器学习（三.线性回归）-CSDN博客带你从入门到精通——机器学习（四.逻
2025-01-03常见的距离算法和相似度计算方法
作者｜奋发的菜鸟酱@知乎来源｜https://zhuanlan.zhihu.com/p/1381079991、常见的距离算法1.1欧几里得距离（EuclideanDistance）EuclideanDistance是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。>>>pdist=nn.PairwiseDistance(p=2)>>>input1=torch.rand
2025-01-02DGI 数据集设置2
在只有药物-基因（drug-gene）交互关系的任务中，设置零样本（Zero-ShotLearning,ZSL）和少样本（Few-ShotLearning,FSL）链路预测任务可以通过以下几种方法进行数据集划分和任务设计。1.核心思路零样本链路预测：完全移除特定药物或基因的交互数据，在测试时预测这些未见过的节点或关系。
2025-01-01生成模型：从对抗训练到概率生成的新纪元
随着人工智能的迅速发展，生成模型在多个领域取得了令人瞩目的突破。生成模型是一类能够学习数据分布并生成新样本的算法，它们不仅为创作艺术作品、生成图像或音频提供了新的可能，也在医学影像、自然语言处理等领域展示了强大的潜力。本文将探讨两种核心生成模型技术——生成对抗
2024-12-31高分二号标签样本库（GF2-Label）重磅上线！
高分二号标签样本库（GF2-Label）正式上线啦！本样本库包含150景高分二号影像及分类标签数据，可以作为深度学习模型训练的样本数据库。样本库特点高分二号标签样本库具有如下特点：统一的数据类型所有影像均经过统一的2%线性拉伸方式转为Byte字节型。具有通用性的波段数量影像底
2024-12-31对比学习快速上手
第一部分：基础含义在机器学习和深度学习中，**对比学习（ContrastiveLearning）**是一种自监督学习（Self-supervisedLearning）方法，它通过学习数据样本之间的相似性和差异性，来学习有用的特征表征。对比学习的目标是使模型能够通过对比不同样本的表示，捕获数据中潜在的模式和语义信息第
2024-12-29【论文带读】LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings
目录：TEA-GLM(TokenEmbedding-AlignedGraphLanguageModel）（NeurlPS2024）1背景介绍1.1GNN的局限性1.2LLM解决Graph问题的方案1.3LLMs与GNN结合中的关键问题1.4文章贡献2方法2.1模型框架2.2GNN的对比学习2.2.1GNN的实例对比学习2.2.2GNN的特征对比学习2.3
2024-12-28yolov5及其算法改进
yolov5及其算法改进1、YOLOV5目标检测简介2、前处理2.1、自适应Anchor计算2.2、自适应计算Anchor的流程如下：2.3、图像自适应3、YOLOV4与YOLOV5的架构区别3.1、SiLU激活函数3.2、CSPBlock结构图3.3、yolov5的spp改进4、正负样本匹配与损失函数4.1、坐标表示4.2、正
2024-12-27【数据科学导论】第四章·特征工程与探索性分析
2024-12-27基于K均值聚类的自适应混合采样方法确实可以对样本中的类别数量进行均衡处理
基于K均值聚类的自适应混合采样方法确实可以对样本中的类别数量进行均衡处理。这种方法结合了K均值聚类算法和自适应混合采样策略，旨在解决机器学习中的类别不平衡问题。以下是对该方法的详细解释：K均值聚类算法K均值聚类是一种基于划分的聚类方法，其目标是将数据集划分为K个簇，使得
2024-12-27【机器学习实战】手把手教学，kaggle贷款批准预测（使用xgboost解决正负样本不平衡问题）
Hello大家好，今天和大家分享一个kaggle贷款批准预测的竞赛，使用xgboost方法进行预测。数据描述train.csv-训练数据集；loan_status是二进制目标test.csv-测试数据集；id—ID（记录编号）person_age—年龄person_income—收入person_home_ownership—房屋拥有情
2024-12-26【AI+安全】sshd后门自动化检测 | BinaryAI在恶意软件检测场景的实践
原创腾讯科恩实验室腾讯科恩实验室2024年11月12日10:12上海一、引言在网络安全攻防对抗中，攻击者经常通过在系统关键组件中植入后门程序，来获取持久的访问权限。sshd(SSHdaemon)作为管理远程登录的核心服务，是攻击者常用的目标之一。攻击者通过修改或者替sshd二进制文件，绕
2024-12-26极市平台 | 超越YOLO11和D-FINE！DEIM：最强实时目标检测算法
本文来源公众号“极市平台”，仅用于学术分享，侵权删，干货满满。原文链接：超越YOLO11和D-FINE！DEIM：最强实时目标检测算法极市导读本文介绍了一种改进的DETR目标检测框架DEIM，通过增加正样本数量和优化匹配质量的损失函数，显著加快了DETR模型的收敛速度，并在多个数据集上提升了性能，成
2024-12-26NLP 中文拼写检测纠正论文-04-Learning from the Dictionary
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-d
2024-12-25模型训练中性能指标
在机器学习和深度学习的模型训练过程中，评估模型性能是至关重要的一环。不同的任务和应用场景可能会采用不同的评估指标，常见的包括准确率（Accuracy）、精确率或精度（Precision）、召回率（Recall）和均值平均精度（mAP）。本文将介绍这些评估指标的定义、计算方法及其在实际中的应用。1.Accur
2024-12-25统计学——参数距估计(十四)
参数估计是统计学中的核心问题，旨在根据样本数据推断总体参数的未知值。通过参数估计，研究者可以从有限样本中获取总体信息，为科学决策提供依据。统计学的基本目标是利用有限的样本推断整个总体的性质，而参数估计作为统计推断的重要组成部分，在理论与实践中均占有重要地位。参数估计为
2024-12-25龙哥量化：TB交易开拓者_趋势跟踪策略_多策略对单品种_A00011880206期货量化策略，不用过度优化参数，样本外的行情也能稳稳赚钱
写在前面，做自动交易的宽客们都在寻找圣杯，目前，我找到一只玻璃杯，经过半年的漫长等待，玻璃杯没让我失望。路漫漫其修远兮，吾将上下而求索。如果您需要代写技术指标公式，请联系我。龙哥QQ：591438821龙哥微信：Long622889也可以把您的通达信，文华技术指标改成TB交易开拓者（金字塔、文华8
2024-12-25Scikit-learn机器学习库核心知识全攻略：算法、预处理与模型评估
一、基本概念与安装安装可以使用pipinstall-Uscikit-learn命令在命令行中进行安装。如果使用Anaconda环境，也可以通过AnacondaNavigator或condainstallscikit-learn进行安装。依赖关系它依赖于NumPy（用于高效的数值计算，如数组操作）和SciPy（提供了许多科学计算算
2024-12-24物联网数据处理-iris数据集（鸢尾花）
物联网数据处理-iris数据集（鸢尾花）大作业题目读入iris.txt里的鸢尾花数据，不考虑标签信息（标签是用来监督学习用的，这里是无监督），利用PCA（减少噪声，利于可视化）将数据从4维降成2维之后，进行以下操作：利用不同的方式构建邻接矩阵（高斯核，k-临近等）（将数据转成关系图，可以告诉我们那
2024-12-24物联网数据处理-iris数据集（鸢尾花）
物联网数据处理-iris数据集（鸢尾花）大作业题目读入iris.txt里的鸢尾花数据，不考虑标签信息（标签是用来监督学习用的，这里是无监督），利用PCA（减少噪声，利于可视化）将数据从4维降成2维之后，进行以下操作：利用不同的方式构建邻接矩阵（高斯核，k-临近等）（将数据转成关系图，可以告诉我们那
2024-12-21均方误差损失函数（MSE）和交叉熵损失函数详解
为什么需要损失函数前面的文章我们已经从模型角度介绍了损失函数，对于神经网络的训练，首先根据特征输入和初始的参数，前向传播计算出预测结果，然后与真实结果进行比较，得到它们之间的差值。损失函数又可称为代价函数或目标函数，是用来衡量算法模型预测结果和真实标签之间吻合程度（误
2024-12-21机器学习基础衡量模型性能指标
前言大家知道已经，机器学习通常都是将训练集上的数据对模型进行训练，然后再将测试集上的数据给训练好的模型进行预测，最后根据模型性能的好坏选择模型，对于分类问题，大家很容易想到，可以使用正确率来评估模型的性能，那么回归问题可以使用哪些指标用来评估呢？错误率(Errorrate)&精度(