首页 > 其他分享 >GBLUP最佳线性无偏预测

GBLUP最佳线性无偏预测

时间:2023-10-13 15:34:29浏览次数:300  
标签:基因型 预测 遗传 矩阵 无偏 个体 线性 GBLUP

想象一下,你正在尝试预测一种植物的产量,你手头有这些植物的DNA信息(称为基因组数据或标记)以及它们的实际产量。你的目标是,当获得一个新的植物的DNA信息时,你想用它来预测这个植物的产量,即使你并不知道它的实际产量。

GBLUP是帮助你完成这项任务的工具之一。

线性预测: GBLUP的核心是一个线性模型。这意味着它尝试将每一个DNA标记与一个数值(或权重)相关联,然后使用这些权重来预测新植物的产量。

无偏性: “无偏”意味着模型预测的平均误差是零。这保证了模型的预测是公正的,不会系统性地高估或低估。

基因型数据: 在GBLUP中,基因型数据不仅仅是简单的DNA序列。它们是由特定的DNA变化(或称为标记)组成的。这些标记在整个基因组上广泛分布。

数学模型: 为了进行预测,GBLUP使用了一种特定的数学模型,其中考虑了每一个标记和它对产量的影响。这是通过解决所谓的“混合模型方程”来实现的。

通俗示例

想象你是一个农民,你有一个果园,果园里种着苹果树。你观察到,某些苹果树结的果实比其他树多。你认为这可能与树的“基因”有关。为了验证这一点,你从每棵树上收集了一些叶子,并进行了DNA分析。这给了你每棵树的“基因指纹”。

现在,你想使用这些基因指纹来预测哪些新苹果树可能产量最高。GBLUP就是这样的一个方法。它使用你已有的树(你知道它们的基因指纹和产量)来“学习”基因和产量之间的关系。一旦学习完成,你就可以为新的苹果树做出预测,即使你还不知道它们的实际产量。

简而言之,GBLUP是一种根据已知的基因信息预测植物或动物性状的工具。

 

深入GBLUP的公式及其计算过程。

1. GBLUP 的核心思想:

在GBLUP中,我们利用一个线性模型将遗传值(或者其他要预测的性状)关联到基因型数据。遗传值通常表示为矩阵形式的 y

2. 基因型数据:

基因型数据通常被标准化并存储为矩阵 Z。每一行代表一个个体,每一列代表一个基因标记。标准化是为了使每个标记的平均值为0,方差为1。

3. 相似性矩阵:

我们使用基因型数据计算个体之间的相似性。这称为基因型相关系数矩阵或G矩阵。这是GBLUP的核心组成部分。它的计算方法是:G=ZZT 其中,Z 是基因型矩阵,Z^TZ 的转置。

4. 预测模型:

为了进行遗传值的预测,我们使用以下模型: =Zu+e 其中,

  • y 是遗传值矩阵。
  • u 是随机效应或基因效应。
  • e 是误差项。

5. 解决混合模型方程:

使用 G 矩阵,我们可以通过混合模型方程得到预测的遗传值: (ZTZ+λG−1)u^=ZTy 其中,λ 是一个标量,表示随机效应和误差方差之比。 G^−1 是G矩阵的逆。 u^ 是基因效应的估计值。

然后,我们可以使用这个模型进行预测: y^​=Zu^

 

为什么要计算相似性矩阵?

相似性矩阵(如GBLUP中的G矩阵)在基因选择中扮演了关键的角色,有以下几个原因:

  1. 捕获遗传关系:G矩阵代表了个体之间基于标记的遗传相似性或关系。当我们知道个体之间的遗传关系时,我们可以更好地预测和解释它们的遗传潜力或遗传值。例如,密切相关的个体可能会有相似的遗传潜力。

  2. 基于关系的选择:在选择程序中,当我们想要选择最佳的个体进行繁殖时,了解它们之间的遗传关系非常有用。它可以帮助我们避免过度的近亲繁殖,从而维持种群的遗传多样性。

  3. 提高预测准确性:在基因预测中,利用个体之间的遗传关系可以提高预测的准确性。这是因为我们不仅仅根据个体自己的基因型信息进行预测,还会考虑到与它遗传上相关的其他个体的信息。

  4. 弥补信息的缺失:在实际的育种环境中,可能不是所有的个体都有完整的表型和基因型数据。通过利用相似性矩阵,我们可以使用一个个体的信息来帮助预测另一个与其遗传上相关的个体的遗传值。

  5. 简化计算:虽然建立G矩阵需要计算,但它提供了一个固定的、基于整个种群的基因关系结构。这使得我们可以在一个统一的框架下进行遗传值的估计和选择决策,而不必为每个新的个体或新的数据集重新计算关系。

简而言之,相似性矩阵是基因选择中的一个强大工具,它提供了一种有效的方法来利用遗传信息,提高选择的准确性和效率。

 

为什么得到的G矩阵描述了每对个体间的基于标记的遗传关系?

为了理解为何G矩阵描述了每对个体间的基于标记的遗传关系,我们需要深入了解G矩阵的构成以及基因型数据的本质。

  1. 基因型数据的本质: 当我们考虑基因型数据,每个位置(也称为SNP或单核苷酸多态性)上的数字代表了特定的等位基因的数量。这为我们提供了个体在某个位置的遗传信息。

  2. 矩阵乘法的本质: 当我们使用ZZ^T形式计算矩阵,我们实际上是在计算每对个体之间的“点积”。点积是一个度量,它计算两个向量之间的相似性。这意味着,对于G矩阵中的每个元素,它的值反映了对应的两个个体在所有标记上的遗传相似性。

  3. 中心化和标准化的数据: 因为Z矩阵通常被中心化和标准化,它的值现在反映了与平均值的差异。所以,当我们计算点积时,我们实际上是在评估两个个体与总体平均值的相对遗传差异。

  4. G矩阵的解释: G矩阵的对角线元素表示每个个体与自己的相似性,因此总是正的。非对角线元素表示两个不同个体之间的遗传相似性。如果两个个体在许多标记位置上都有相似的等位基因,那么它们之间的值会更高。

为了简化,我们可以考虑这样一个类比:假设每个人的基因型是由一系列的数字组成的密码。G矩阵告诉我们每对人之间密码的相似度有多高。如果两个人的密码相似性很高,这意味着他们在遗传上很相似。

因此,G矩阵为我们提供了一个量化的方法来评估和比较个体间的遗传关系,这是基于他们的基因型数据的。这种关系评估在许多遗传学应用中都是非常有用的,尤其是在遗传评估和选择中。

GBLUP的名称反映了其方法和统计模型的主要特征和原则:

  1. 基于基因组信息:GBLUP使用个体的基因组数据(通常是SNP标记数据)来预测其遗传值。这是一个基于基因组信息的方法。

  2. 最佳线性无偏预测:GBLUP是一个线性模型,它寻求通过最佳的线性组合来预测个体的遗传值,以最大程度地减小预测误差。这是一个无偏的预测方法,即预测的期望值与实际值一致。

这个名称强调了GBLUP方法的基础思想,即通过利用基因组信息和线性统计模型来进行遗传育种预测,以帮助选择有利于遗传改进的个体。这种方法的名字反映了它的核心原则和应用领域,使人能够快速理解它的工作原理。

 

为什么是无偏的预测?

GBLUP(Genomic Best Linear Unbiased Prediction)之所以被称为"无偏预测",是因为它遵循了统计学中的"无偏性"原则。在统计学中,无偏性意味着估计值的期望值等于真实参数的值。具体到GBLUP中,它的无偏性体现在以下几个方面:

  1. 估计的遗传值期望等于真实遗传值:GBLUP通过基因组信息和线性统计模型估计个体的遗传值。无偏性意味着这些估计值的期望值等于个体真实的遗传值。这是因为GBLUP使用了最佳的线性组合来进行估计,以最小化预测误差。

  2. 不会对不同个体产生系统性偏差:GBLUP的线性模型基于基因组数据进行估计,不受特定个体或群体的影响。它不会因为个体的性状或背景差异而产生系统性偏差,因此是无偏的。

  3. 优化了估计的精确性:GBLUP的无偏性表现在它通过考虑整个基因组信息来进行估计,从而提高了估计的精确性。它采用了线性最小二乘法,使估计结果更稳定和准确。

总之,GBLUP之所以被称为无偏的预测方法,是因为它在估计遗传值时遵循了统计学的无偏性原则,确保估计值的期望与真实值一致,而且不会受到特定个体或群体的影响,提供了相对准确和可靠的遗传值估计。这一特点使得GBLUP成为育种领域中常用的方法之一。

 

什么是最佳的线性组合,怎么才能被称得上最佳?

"最佳的线性组合"(Best Linear Combination)是一个统计学概念,它指的是通过将多个变量按照一定权重相加,以最佳方式来拟合或估计某一目标变量的线性组合。在基于最佳的线性组合的统计模型中,权重被调整以最小化预测误差或达到其他特定的目标。

在Genomic Best Linear Unbiased Prediction(GBLUP)中,"最佳的线性组合"指的是通过将基因组数据(通常是SNP标记)按照一定权重组合,以最佳方式来估计个体的遗传值。这里的"最佳"是指在统计学意义下,通过最小二乘法(最小化残差平方和)来获得的线性组合。

如何确定权重才能称得上"最佳"呢?这通常涉及到以下步骤:

  1. 建立模型:首先,需要建立一个统计模型,以定义如何将基因组数据与遗传值相关联。在GBLUP中,这通常是一个线性模型,其中权重表示SNP标记对遗传值的贡献。

  2. 估计权重:利用已有的数据,如基因组数据和个体的观察性状数据,通过统计方法来估计权重。这些权重是为了最小化预测误差而优化的,以达到最佳拟合目标。

  3. 验证和优化:模型的性能通常会在独立的验证数据集上进行评估,以确保估计的权重在不同数据集上的通用性。如果模型表现不佳,可能需要进行调整和优化,以改进预测的准确性。

"最佳的线性组合"在这里指的是在给定模型框架下,通过最小化预测误差或达到特定的优化目标来确定权重,以使线性组合能够最好地估计个体的遗传值。这个权重的确定通常基于数学和统计原理,以获得在实际应用中表现良好的预测模型。

 

标签:基因型,预测,遗传,矩阵,无偏,个体,线性,GBLUP
From: https://www.cnblogs.com/wzbzk/p/17762232.html

相关文章

  • 王道408---DS---线性表、栈、队列与数组
    错题2.21、题目中提到在第i个位置一般是指在下表为i的位置2、线性表元素的序号是从1开始,而在第n+1个位置插入相当于在表尾追加。静态链表树的双亲表示法就是使用了这种思想吧卡特兰数\[\text{}\frac1{n+1}C_{2n}^{n}\]栈的数学性质:n个不同元素进栈,出栈元素不同排列的个......
  • 异或线性基
    线性基线性空间下的一组基对于线性空间\(V\),有一组线性无关子集\(S\),能张成\(V\),称\(S\)是\(V\)的基,一般考虑有限空间下的,则\(S\)的大小就是\(V\)的维数。异或线性基的构造考虑贪心对于插入数\(p\),如果\(p\)第\(x\)位为\(1\)当\(a_x\)为空,则\(a_......
  • 线性表(1)定义和操作
    线性表(1)定义与操作定义线性表描述的是一种逻辑结构,线性表中的元素具有线性的逻辑关系,这里的线性具体就体现在:线性表中的每一个元素,除了第一个元素,其他元素都有唯一前驱;除了最后一个元素,其他元素都有唯一后继。可以说,这里的前驱和后继的概念就是描述了线性表的线性性,形象一......
  • R语言非线性动态回归模型ARIMAX、随机、确定性趋势时间序列预测个人消费和收入、用电
    全文链接:https://tecdat.cn/?p=33838原文出处:拓端数据部落公众号传统时间序列模型允许包含过去观察到的系列信息,但不允许客户包含其他可能相关的信息。例如,假期的影响、竞争对手的活动、法律变化、整体经济或其他外部变量可能解释了某些历史变动,并且可能导致更准确的预测。另一......
  • 《算法学习专栏》——DP问题之线性DP
    2023年10月10日更新于2023年10月10日一、前言本栏,为线性DP,题目主要来源日常,目前主要来源于Acwing的提高课。希望以后做到线性DP的题目,也能加进来,不断完善。二、线性DP2.1目前的模型:数字三角形模型最长上升子序列模型2.2目前解决的问题:可以解决路径上的各种值。解决......
  • 搜索算法:线性搜索、二分法
    搜索算法:1.线性搜索:循环遍历,判断是否等于目标值2.二分法:(需要有序)先定一个起点和终点left,right,当left<right时,取中间值mid,如果目标值小于mid,则right=mid-1,反之亦然#线性搜索defaction1(arr,target):foriinarr:ifi==target:print(arr.inde......
  • 线性表:顺序表
    线性表:由0个或多个元素组成的有穷序列线性表中的元素之间是一对一的关系,除第一个元素外,每个元素有唯一的前驱;除最后一个元素外,每个元素有唯一的后继顺序表特点:逻辑上相邻物理上也相邻、任意元素可随机存储顺序存储特点:1、需要预先开辟一个连续的足够大的内存空间2、顺序表是随机存......
  • 线性基基础
    launchedon2023.8.3011:20参考资料:Hypoc_:线性基详解OIwiki:线性基什么是线性基这里的线性基指的是OI中常用的异或线性基。个人认为有点类似于向量中的基底,异或线性基就是一组数的集合,每个序列至少有一个线性基,取线性基中的一些数异或起来可以得到原序列中的任意一个数......
  • 一些转移细节还不太清楚的线性dp
    D.RoundSubset老早写过了,但是边界考虑不太清楚https://codeforces.com/problemset/problem/837/D#include<bits/stdc++.h>#definelllonglongusingnamespacestd;constintN=205,M=30*200;intn,k,ans,t2[N],t5[N],f[2][N][M];//f[i][j]:选了i个,5......
  • 线性代数01
    配图是:ArianaGrande,2023年世界最美女人第三名。这是麻省理工18.06课程,线性代数(LinearAlgebra),讲课的是W.GilbertStrang。课本用的书是《IntroductiontoLinearAlgebra》。coursewebpage上有大量的exercises、matlab代码、课程的syllabus。课程的网页是web.mit.edu/......