首页 > 其他分享 >CNA-seq

CNA-seq

时间:2023-05-19 23:22:31浏览次数:37  
标签:CNV seq 样本 测序 al reads CNA


检测cnv的范围:1KB~几M,中值100KB

杂合性缺失,位于一对同源染色体上的相同基因座位的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失,与之配对的染色体上仍然存在

1:在有的文献中指出cfDNA长度一般在167bp,ctDNA一般在145bp.在脑脊液中发现(ctDNA)取代在血浆中。本文对13个病人进行了平均深度(0.4X)的测序,测序每个样本数据量标准化到10Mreads。在13人中有5人发现了 somatic copy number alterations (SCNAs)基因组按照30K的大小分成没有overlap的bin区域,根据GC含量矫正比对reads数量,拷贝数变异分析使用R软件包CNAclinic(https://github.com/sdchandra/CNAclinic ),reads counts标准化是使用中值,以及log化
影响因子:10.293

2:测序数据量为10M reads,在后续分析的时候也都标准化到这个范围。bin size选择是100K 数据R分析包是QDNAseq 病人中要比正常人包含更多cfDNA,因此对cfDNA也很重要。这篇文章尝试了多个binsize15 kb, 50 kb and 100 kb,最终选择了100KB
影响因子:10.199

3:选择bin窗口为10kb,在选取log的对照时候,选取的是千人基因组中血液样本,样本编号NA18535
影响因子:2.766

4:使用数据0.01X(小于10万条reads),使用的测序平台是Torrent Suite version 5.0.2,copy数目变异分析使用的R软件分析包QDNASeq,对于CNV的定义设置为1.5–20 Mb的长度 log2(CopyNumberRatio) ≥ 0.2。在分析之前抽取数据使用seqtk
影响因子:0

5:利用NIPT技术可以发现约在~7MB大小的CNV,且在敏感性和特异性上都可以达到95%以上,pathogenic cancer的CNV的范围从1M,5M甚至到100MB。这篇文章选取的bin的大小为10KB。计算每个bin里的reads数目使用的是HTSeQ_Count,采用的数据是模拟的
影响因子: 2.766

6:本篇文章使用不同的测序文库(short\3KB\5KB)对标准品na12878进行不同深度的测序(1X、3X、5X),从结果上来看如果是针对正常样本或者肿瘤组织样本可以建议测序的时候选取大文库,结果显示低深度的各个文库都检测出了黄金标准的CNV
影响因子:5.751

7:这是一篇综述性的文献,只是讲讲call CNV的方法,简单的汇总下对我有用的要点是,对于得到的CNV结果可以设置过滤1kb以下的结果,去除简单重复区域(如果与地重复区域含有70%的重复)这里call CNV只是针对单样本很多软件程序没有比较是源于有特殊分析需求比如样本需求
影响因子:8.855

8:本篇文章收集1002 cfDNA样本,有3%的人发现了chromosomal imbalances。全基因组单端测序,每个样本平均测序深度9.6M reads
影响因子: 13.926

9:选取了344个样本其中200个病人样本包含多种类型癌症,进行全基因组测序,测序深度在(0.4x)也就是在最后分析时数据都标准到10M reads,其中病人比正常人在插入片段长度在90-150bp内存在有统计意义的差异,且在后续CNV发现过程中更具有敏感性和特异性。因此在分析变异时可以进行片段筛选。通过片段筛选然后结合CNA计算出t-MAD。其他的特征提取是提取了P(20 to 150), P(100 to 150), P(160 to 180), P(180 to 220),and P(250 to 320); three features based on ratios of those proportions: P(20 to 150)/P(160 to 180), P(100 to 150)/P(163 to 169), and P(20 to 150)/P(180 to 220); and a further feature based on the amp- litude of the oscillations having 10-bp periodicity observed below 150 bp.这些特征,最终在选择预测算法中选择了随机森林和线性回归模型,特征选取上The best feature set for the LR model included t-MAD, 10-bp amplitude, P(160 to 180), P(180 to 220), and P(250 to 320)对于线性回归模型最好,随机森林的计算结果要好于线性回归的结果。
影响因子: 16.71

10:在测序比对过程中,基因组上的低复杂区域( DAC Blacklisted Regions )去掉,这些bed区域下载链接:
wgEncodeDukeMapabilityRegionsExcludable.bed.gz
wgEncodeDacMapabilityConsensusExcludable.bed.gz
这个是由 ENCODE project 承担发起的。

11:The wiggle (WIG) format is an older format for display of dense, continuous data such as GC percent, probability scores, and transcriptome data.Wiggle data elements must be equally sized.

12:关于bin(或者window)大小的选择建议参考下面的文章

13:测序深度要求至少10M reads,依据测序读长覆盖在<0.4X

14:在分析copy数过程中有一步称为segmente,其实就是 log2(copy-number/2)处理,针对于二倍体来说如果是没有改变则该值为0,扩增则大于0,缺失则小于0。之前都是芯片分析的数据,芯片数据数据分析使用的是GISTIC2,只考虑基因部分在文献

其定义的阈值为:

Genes with focal CNV values smaller than -0.3 are categorized as a “loss” (-1)
Genes with focal CNV values larger than 0.3 are categorized as a “gain” (+1)
Genes with focal CNV values between and including -0.3 and 0.3 are categorized as “neutral” (0).
参考链接:https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/CNV_Pipeline/
15:ichorCNA软件可以推断Tumor fraction (TFx) ,针对全基因组低深度cfDNA(0.1X),该软件可以评估的敏感度在(3%),针对外显子平均测序深度在~150x下,评估敏感度在(10%),该分析软件不需要对照,当然你也可以使用内部的对照,也可以自己建立。

低深度全基因组测序技术在产前诊断中的应用专家共识
1: 目前用于全基因组范围CNVs检测的技术为染色体微阵列分析(chromosomal microarray analyisis,CMA)成本较高。CMA技术对于<30%的嵌合体无法进行准确分析。

2: CNV-seq可精确检测低至10~50ng的DNA样本,研究还发现在核型分析判定的平衡易位样本中,有7.9%的样本在断裂连接处存在CNVs

3: CNV-seq无法检测三倍体以及多倍体,当CNV-seq检测提示性染色体拷贝数异常时,建议进一步进行荧光原位杂交(FISH)检测

4: 对于由47,XXX与45,X两种性染色体非整倍 体构成的嵌合体,若其细胞比例各占50%,则CNV— seq会将其判断为X染色体拷贝数无异常。

5: CNV—seq无法对包括单亲二倍体(uniparental disomy,UPD)在内的杂合性缺失(loss heterozygosity,LOH)进行检测

6: 对夫妻双方的外周血样本和胎儿样本同时进行 CNV—seq检测,将有利于及时确定CNVs的来源并判 断胎儿CNVs的致病性。

7: 常染色体非整倍体 建议终止妊娠。对于13、14、15、21、22号染色体的非整倍体,建议对父母行外周血染色体核型分析,排除存在罗氏易位的可能性。

生物信息分析文献结论汇总
1: 使用CNVkit检测CNV,但是需要构建基线文件采用了10男10女,而且这些正常样本必须是经过CMA验证正常的样本

关于拷贝数阈值的设置理论上:
duplication (three copies) log2 [1.5] =0.58
a deletion (one copy) is log2 [0.5] =1.0
Liang D, Peng Y, Lv W, et al. Copy number variation sequencing for comprehensive diagnosis of chromosome disease syndromes[J]. The Journal of Molecular Diagnostics, 2014, 16(5): 519-526.

在相关文献中:这个值设为1.2和0.8比如贝瑞发表的文章和dragen:

在华大的文献中:这个值设定为1.15和0.85

为了增加敏感性,华大的另一篇文献里提到设置为:1.1和0.9
Zhou X, Chen X, Jiang Y, et al. A Rapid PCR-Free Next-Generation Sequencing Method for the Detection of Copy Number Variations in Prenatal Samples[J]. Life, 2021, 11(2): 98.
Dong Z, Xie W, Chen H, et al. Copy‐number variants detection by low‐pass whole‐genome sequencing[J]. Current protocols in human genetics, 2017, 94(1): 8.17. 1-8.17. 16.
Wang H, Dong Z, Zhang R, et al. Low-pass genome sequencing versus chromosomal microarray analysis: implementation in prenatal diagnosis[J]. Genetics in Medicine, 2020, 22(3): 500-510

检测算法:

划动bin大小一般设置50kb
步长:5kb
解析度:100K
测序深度与读长

测序数据量,最少15M reads
对于读长单端50bp
理论模拟上,对于unique reads至少达到6M
Kucharík M, Budiš J, Hýblová M, et al. Copy Number Variant Detection with Low-Coverage Whole-Genome Sequencing Represents a Viable Alternative to the Conventional Array-CGH[J]. Diagnostics, 2021, 11(4): 708.
Chau M H K, Wang H, Lai Y, et al. Low-pass genome sequencing: a validated method in clinical cytogenetics[J]. Human Genetics, 2020, 139: 1403-1415.

华大share的分析代码
http://sourceforge.net/projects/increment-ratio-of-coverage/files/

Dong Z, Zhang J, Hu P, et al. Low-pass whole-genome sequencing in clinical cytogenetics: a validated approach[J]. Genetics in Medicine, 2016, 18(9): 940-948.
Dong Z, Xie W, Chen H, et al. Copy‐number variants detection by low‐pass whole‐genome sequencing[J]. Current protocols in human genetics, 2017, 94(1): 8.17. 1-8.17. 16.

 

标签:CNV,seq,样本,测序,al,reads,CNA
From: https://www.cnblogs.com/xiaojikuaipao/p/17416556.html

相关文章

  • 【P4331 [BalticOI 2004]】Sequence 数字序列 题解(左偏树维护动态区间中位数)
    左偏树维护动态区间中位数。传送门P4331BalticOI2004Sequence数字序列。Solution1我的思路和题解前半部分完全重合了((如果按照单调不增去分割\(a\)序列的话,对于每一段我们能很简单地得出它的最佳答案:中位数。发现严格单调很难做,很难拿捏,考虑对\(a\)序列的每一项都进......
  • [AGC049D] Convex Sequence
    [AGC049D]ConvexSequence给定整数\(n\)和\(m\),问有多少个长为\(n\)的非负整数数列\(A\),满足以下条件:\(A_1+A_2+\ldots+A_n=m\)对任意\(i(2\leqi\leqN-1)\),都有\(2A_i\leqA_{i-1}+A_{i+1}\)答案对\(10^9+7\)取模。\(\texttt{datarange}\):\(n,m\le......
  • 【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享|附代码
    全文链接:http://tecdat.cn/?p=18770 最近我们被客户要求撰写关于复杂网络分析的研究报告,包括一些图形和统计输出。为了用R来处理网络数据,我们使用婚礼数据集 ( 查看文末了解数据获取方式 ) 。CNA研究和应用爆炸式增长的突出原因是两个因素-一个是廉价而强大的计算机的可......
  • NLP中的Autoencoder、Autoregressive、seq2seq模型区分
    自回归、自编码器、seq2seqAutoregressiveLM特点:自回归语言模型按照特定的顺序一次生成一个token。自回归模型是单向的语言模型,适合用于文本生成。训练方式:给定之前所有的token,预测下一个token是什么。代表模型:GPT。AutoencoderLM特点:自编码器语言模型通常用于denoisin......
  • seq 命令
    seq命令seq:单词sequence序列的缩写,功能是输出序列化的一串整数。语法有如下三种输出从1(默认1)到尾数之间的所有整数seq+选项+尾数输出从首数开始到尾数结束的所有整数seq+选项+首数+尾数输出从首数开始到尾数结束,每隔一个增量输出一个整数,类似于一个等差数列......
  • seqkit 软件的安装
     001下载静态软件  wgethttps://github.com/shenwei356/seqkit/releases/download/v2.4.0/seqkit_linux_amd64.tar.gz 002、解压tar-xzvfseqkit_linux_amd64.tar.gz 003、调用测试./seqkit--help|head ......
  • CF1794C Scoring Subsequences题解
    文中\(a\)为题目中给的\(a\)。如果我们要求\(a_1,a_2,a_3,\dots,a_m\)的结果,那么我们可以把\(a\)数组从后往前依次除以\(i\),\(i\)从\(1\)到\(n\),即为\(\frac{a_1}{m},\frac{a_2}{m-1},\frac{a_3}{m-2},\dots,\frac{a_{m-1}}{2},\frac{a_m}{1}\),并将其保......
  • Astro - CNAO2023
    ...Day-10开始停课Day-4觉得傅科摆是伪科学。?:摆确实受力情况改变了,但是不能证明是由地球自西向东自转引起的;只能说明地球在转动(因为摆受力不在同一平面上)!:傅科摆的理想模型是干嘛的。恒星时和太阳时的换算考虑整个轨道周期中,不同计时系统意味着的行星(地球)的不同运......
  • 【题解】P4331 [BalticOI 2004]Sequence 数字序列
    以各种方式出现被玩烂的题目,算是小trick题?cpeditor意外地好用思路可并堆。平行时空同位体:CF13CP4331P4597CF713CP2893已知做法:\(O(n^2)\)dp:令\(f[i][j]\)为前\(i\)个数不超过\(j\)的最小代价优化:使用堆维护dp产生的折线(P4597题解区)\(O(n\logn......
  • Personalized Top-N Sequential Recommendation via Convolutional Sequence Embeddin
    目录概符号说明Caser代码TangJ.andWangK.Personalizedtop-nsequentialrecommendationviaconvolutionalsequenceembedding.WSDM,2018.概序列推荐的经典之作,将卷积用在序列推荐之上.符号说明\(\mathcal{U}=\{u_1,u_2,\cdots,u_{|\mathcal{U}|}\}\),us......