• 2024-10-19【互助问答】为什么在Stata中控制个体效应容易导致结果不显著?
    接粉丝提问!在使用Stata进行面板数据分析的过程中,为什么会常常会遇到控制个体效应后结果不显著的情况?   这种现象可能会让人感到困惑,但实际上,它背后有许多可能的原因。本文将探讨这些原因,并提供一些解决方案,帮助研究人员更好地理解和应对这一问题。控制个体效应不显著
  • 2024-10-1040 个数据科学统计面试常见问题
    一、说明        作为人工智能的工程师,必须明白基本的数学应用,面试的时候难免也会遇到这些提问,那么提问者如何设计面试问题,遇到这些问题如何回答,本篇搜集了统计相关的四十个问题,供大家参考。二、介绍正如JoshWills曾经说过的,“数据科学家是比任何程序员都更
  • 2024-09-27基于R语言的统计模拟——假设检验
    一、模拟目的    在统计学的广阔领域中,参数估计与假设检验构成了分析数据、验证假设的核心工具,其中,参数估计进一步细化为点估计与置信区间估计,为我们提供了参数值及其不确定性的量化视角。然而,值得注意的是,尽管这些方法在大样本情形下展现了强大的稳健性和有效性,但在处
  • 2024-09-18【互助问答】门槛效应该先跑单门槛还是三门槛?最大就是三门槛吗?
     首先,在研究门槛效应时,通常建议先从单门槛模型开始,然后再考虑更复杂的多门槛模型(如三门槛模型)。这种方法有以下几个优点:简单性:单门槛模型相对简单,更容易理解和解释。它可以作为初步分析的起点,帮助你了解数据中是否存在门槛效应。基础理解:从单门槛开始可以帮助你建立对门槛
  • 2024-09-189章11节:用R实现区组随机化和置换区组随机化
    区组随机化是一种常用的随机化方法,尤其适用于临床试验设计中。它的主要优势是能够在治疗组间保持样本量的一致性,并在不同组之间均衡混杂因素。然而,这种方法也有其固有的缺点,如研究者在未设盲的情况下,可能对研究对象的分配产生预测,导致选择偏倚。为了解决这一问题,置换区组随机
  • 2024-09-17SciTech-Mathmatics-Probability+Statistics-VII-Statistics:Quantifing Uncertainty+Sampling Methods抽样方法
    SciTech-Mathmatics-Probability+Statistics-VII-Statistics:QuantifingUncertaintySamplingMethods(抽样方法)的原理与实践(终章)在过去的几篇文章,我们一起探索统计学的许多重要概念与方法:样本与总体,统计量、参数估计、假设检验、置信区间、ANOVA(方差分析),RA(回归分
  • 2024-09-109章5节:两组的例数不等的均数比较的样本量估计和可视化
    统计分析中,均数比较是非常常见的分析方法,用于比较不同样本的平均值,进而推导出某一特定变量的差异是否具有统计学意义。在不同的研究设计中,均数比较的方式也有所不同。本篇文章将详细探讨两种不同情况下的均数比较方法:1)两组例数不等的均数比较;2)自身配对设计的均数比较。本
  • 2024-07-28abtest相关知识
    步骤:1.确认改动点(只能是单一因素)2.设计核心指标(点击率/转化率,一般分为直接值和比率值)3.计算实验所需最少样本流量(防止影响过大)基于大数定律(次数多了,频率就等于概率)和中心极限定律(抽样的均值和方差服从整体),前提是样本量足够大,这个足够大是多少,公式如下:(组间指的是预期组
  • 2024-07-27概率论--置信区间和置信度
    目录置信区间置信度关系与权衡置信区间的计算公式有哪些不同的变体,以及它们各自的适用情况是什么?基于正态分布的置信区间:基于t分布的置信区间:单边置信区间:如何根据不同的研究目的和数据类型选择合适的置信水平(如95%或99%)?研究目的:样本量和数据类型:风险与区间长度之
  • 2024-06-13R数据分析:临床研究样本量计算、结果解读与实操
    很久之前给大家写过一篇文章详细介绍了样本量计算的底层逻辑,不过那篇文章原理是依照卡方比较来写的,可以拓展到均值比较,但视角还是比较小,今天从整个临床研究的角度结合具体的例子谈谈大家遇到的样本量的计算方法。有操作,有原理,有比较,认真阅读下来应该会大有裨益。统计课上都讲过:我
  • 2024-05-26人工智能+跨癌种分析,能否解决医学数据样本量小的问题?【医学AI|顶刊速递|05-26】
    小罗碎碎念先说明,目前小罗只是硕士,以下个人观点很有可能不准确,欢迎批评指正!!小罗虚心听取有益建议!!众所周知,医学数据相比于其他领域的数据来说,属于小样本数据。那么从工科角度出发,模型的预测效果要想更精准,那么数据量就要尽可能大。好的,既然要解决的问题已经明确了,那么怎
  • 2024-05-23提建议的解决方法
    increasesamplesize:但是必须给出统计学上的理由Powerestimationlibrary(pwr)#t检验power_t_test<-function(m1,m2,sd1,sd2,n1,n2,alpha=0.05){sd_pooled<-sqrt(((n1-1)*sd1^2+(n2-1)*sd2^2)/(n1+n2-2))d<-(m1-m2)/sd_pooled
  • 2024-05-09AB实验相关流程
    本篇文章介绍的是一个完整AB测试流程应该怎么走。 AB测试流程有以下几个步骤:一、选取实验指标二、建立实验假设三、选取实验单位四、确定最小提升预期值五、计算最小样本量六、流量分割七、确定实验时长八、数据统计九、得出结论接下来就详细说明每个步骤。一
  • 2023-12-09人工智能基础 - 过拟合、欠拟合
    前面文章中,我们讲到,希望最终的模型在训练集上有很好的拟合(训练误差小),同时对测试集也要有较好的拟合(泛化误差小)那么针对模型的拟合,这里引入两个概念:过拟合,欠拟合。过拟合:是指我们在训练集上的误差较小,但在测试集上的误差较大;欠拟合:在训练集上的效果就很差。对于二分类数据,我们可以用
  • 2023-10-30数据统计分析 — 正态分布
    连续型随机变量的概率分布德国的高斯法国的拉普拉斯回到最开始的业务场景通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。该怎么办呢?控制线设置成均数可以吗?肯定是不
  • 2023-10-27数据统计分析 — 泊松分布
    在一指定时间范围内或在指定的面积或体积内某一事件出现的次数的分布,他们对应的随机变量的概率服从的分布叫做泊松分布,泊松分布是二项分布的极限例如:某企业中每月某设备出现故障的次数单位时间内到达某一服务台需要服务的顾客人数举个例子小王的婶婶新开了一个包子铺,生意
  • 2023-09-19转载:孟德尔随机化(Mendelian Randomization) 统计功效(power)和样本量计算
    链接:>https://mp.weixin.qq.com/s?__biz=Mzg2MDA2MDQzMQ==&mid=2247484734&idx=1&sn=6c4a5ba21bad0058ead4f0e8d9399c72&chksm=ce2d6b5ef95ae248ae7566d87d8aa4a373ccc33082a10e37773d89a137ac4d350e591844a0bd&scene=21#wechat_redirect
  • 2023-08-13拓端tecdat|R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口|附代码数据
    最近我们被客户要求撰写关于k-means聚类的研究报告,包括一些图形和统计输出。简介假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择如何在总体中形成分层,以便从现有的辅助信息中获得最大的优势。换句话
  • 2023-08-10拓端tecdat|R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口|附代码数据
    原文链接:http://tecdat.cn/?p=23038原文出处:拓端数据部落公众号最近我们被客户要求撰写关于k-means聚类的研究报告,包括一些图形和统计输出。简介假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择
  • 2023-07-21易基因8种表观转录组m6A MeRIP-seq的差异甲基化区域(DMR)分析软件比较 | 生信专区
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。RNA甲基化是近年来研究基因表达调控转录后变化的重要研究领域,包括N6-甲基腺苷(m6A)在内的各种类型RNA甲基化参与人类疾病发展。MeRIP-seq作为一种新兴的在转录组范围内定量检测m6A水平的测序技术,拓展了RNA表观遗传学研
  • 2023-06-30四格表fisher检验
    一、案例介绍某医生用新旧两种药物治疗某病患者27人,治疗结果见下表,现在想知道两种两种药物的治疗效果有无差别?二、问题分析本案例的分析目的是探究两种治疗效果有无差异,总样本量为27<40,所以考虑使用四格表Fisher确切检验法进行分析,但是需要满足2个条件:条件1:分组变量和观察变
  • 2023-04-04如何做一次完美的 ABTest?
    作者:DuZhimin越来越多的公司都在尝试ABTest,要么是自己搭建系统,要么依赖于第三方的系统。那么在我们进行ABTest的时候,必备的基础知识有哪些?该如何一步一步的进行AB实验呢?本文将根据AB实验的流程带领大家一窥究竟。一、引言在互联网公司的业务发展过程中,用户增长是永恒的主题,因为
  • 2023-03-04关于假设检验中,两类错误的理解
    解释两类错误第一类错误:错误拒绝原假设(\(H_0\))的概率==>\(\alpha\)第二类错误:错误拒绝备择假设(\(H_1\))的概率==>\(\beta\)而第一类错误衡量的是检验的基本
  • 2023-02-16AB实验基本流程
       知识点       基本流程       实验分层问题       最小样本量计算           均值类           比值类    
  • 2022-12-29模型不达标调整
    一、模型不达标调整模型构建就是——科学的研究问题的数学表达;比如线性回归模型中的模型公式。在进行建模时,很多同学会遇到模型不达标的问题,这种情况很常见,通常需要进行