• 2024-08-13安装Toolkits,使用prefetch下载SRA数据库
    准备安装Toolkits建议conda安装,命令如下。(兼容性还行,没必要新建环境)condainstall-cbiocondasra-tools注意:使用时记得先激活conda环境。直接安装,请参考:SRAToolKit(sra-tools)的安装和使用配置prefetch下载路径prefetch的默认目录是配置Toolkits的路径,非常建议更
  • 2024-04-15生信公共数据库下载处理
    下载数据基础知识首先了解一下SRA数据库的架构:SRP(项目Project)—>SRS(样本Sample)—>SRX(数据产生Experiment)—>SRR(数据本身)国际上的三大生物数据库:SRA,ENAorDDBJ,分别在美国、欧洲、日本,它们之间的数据是同步的,所以可以在任意一个数据库中下载数据,而EBI数据库能够
  • 2024-02-08linux shell中实现对fastq read重命名
     001、命令程序:##step1:处理read1awk'END{tmp=NR/4;split(FILENAME,a,"_");for(i=1;i<=tmp;i++){print"@"a[1]"."i,i"/1"}}'name_1.clean.fastq>name_1.list##生成read名awk'{if(N
  • 2024-01-18fastq-dump quit with error code 3
     001、sra数据转换fastq数据报错如下: 002、报错产生的原因“:没有网络连接。 003、验证a、无网络连接[root@PC1test1]#lsSRR11076280[root@PC1test1]#ping-c3www.baidu.com##检测网络连通性ping:www.baidu.com:Nameorservice
  • 2023-11-2515-有参转录组实战1-批量质控-fastp
     #本教程部分参考B站15天入门生物信息教程,在开启以下教程前,请务必看看我前面两个教程,Linux系统上安装R语言(https://www.bilibili.com/read/cv24718269)和下载好转录组(https://www.bilibili.com/read/cv24719254)。#1,我们对上次下载的转录组进行实战分析,首先进行质量控制,使用fast
  • 2023-11-14fatal error: kseq.h: No such file or directory
     001、编译报错:fatalerror:kseq.h:Nosuchfileordirectory 002、github上查找该软件 003、下载对应的缺失文件,并上传(base)[root@pc1test]#lskseq_fastq_base.ckseq.h 004、编译测试(base)[root@pc1test]#lskseq_fastq_base.ckseq.h(base)
  • 2023-10-15fqkit: 一个处理fastq序列的小工具 (一)
    一个用于处理fastq测序文件的命令行小工具,功能还在不断更新中,子命令也不多,支持gzip压缩文件的输入和输出(结果文件名以.gz结尾,结果会自动压缩)。reop:https://github.com/sharkLoc/fqkitinstall:cargoinstallfqkitusage:fqkit:asimpleprogramforfastqfilemanipulatio
  • 2023-10-15sra format SRA文件的格式
    http://www.ebi.ac.uk/ena/about/sra_formatReadmetadataformatMetadataisrepresentedusingXMLdocuments.FordetailedinformationaboutthemetadataXMLspleaserefertoSRAXML1.5metadataformat.ForexampleshowtopreparetheXMLspleasereferto
  • 2023-10-06根据sra号从ncbi下载标准fastq数据
     001、ncbi官网   002、SRALite和SRANormalized的区别:https://www.omicsclass.com/article/2178如下图:sra.lite的磁盘占用小于标准sra的,以SRR3156163为例。    003、sra.lite和sra标准数据下载 004、点击dataaccess  005、如下图:1未标准
  • 2023-09-30linux中awk命令对fastq格式的碱基质量体系进行判断
     001、[root@pc1test]#lsa.fastq[root@pc1test]#head-n4a.fastq##测试fastq格式数据@SRR12342886.11/1TCTTCAAAAATTTCTCACAGCTTGTTGTGATCCACACAGTCAAAGGCTTTAAGTGTAGTCAGTGAAGCAGAAGTGGATATTTTTCTGGAATTCCCTTGCTTTCTCTGTGATCCAAGGGATTTGATCTCTGGTTCCTCTG
  • 2023-09-29重测序数据碱基质量评估
     001、测序数据为fastq格式fastq格式数据没四行为一个单位,其中第二行是碱基,第四行为对应的碱基质量值:如下:(base)[b20223040323@admin1test01]$ls##测试fastq格式数据test.fastq(base)[b20223040323@admin1test01]$head-n4test.fastq|cat-n##第
  • 2023-08-23生信:一起学生信分析 RNA-Seq上游 篇
    一起学生信分析RNA-Seq上游篇参考文章:https://zhuanlan.zhihu.com/p/345896914RNA-Seq分析介绍转录组是指某特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究
  • 2023-06-23linux 中shell脚本实现统计每一个read的长度
     001、[root@PC1test02]#lstest.fastq[root@PC1test02]#cattest.fastq##测试fastq数据@SRR8442980.988/2AAGG+:[email protected]/2AAGGTC+:FFF:,@SRR8442980.1134/1AAAAAAAATATAATTCCA+FFFFFFFFFFFFFFFFFF[root@PC1test02]#awk'{if((NR%
  • 2023-05-27GATK最佳实践之数据预处理SnakeMake流程
    <生信交流与合作请关注公众~号@生信探索>写的数据预处理snakemake流程其实包括在每个单独的分析中比如种系遗传变异和肿瘤变异流程中,这里单独拿出来做演示用,因为数据预处理是通用的,在call变异之前需要处理好数据。数据预处理过程包括,从fastq文件去接头、比对到基因组、去除重复
  • 2023-05-02这个转录组比对工具很快,十几分钟一个样品
    前面我们做了STAR基因组索引构建所需资源的评估,现在我们看下reads比对对计算资源和时间的需求。下载原始测序数据首先下载获得样品SRR1039517的原始测序数据,数据量约为34million长度为63个碱基的双端reads,总碱基数4.3G左右。具体见NGS基础:测序原始数据批量下载。fastq-dump-v
  • 2023-02-09单细胞转录组实战02: 数据整理与之质控
    安装CellRangercd~/APPwget-Ocellranger-7.1.0.tar.xz"https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.xz?Expires=1674686023&Policy=eyJTdG
  • 2023-02-07ChIP-seq 分析:原始数据质控(2)
    1.ChIPseq简介染色质免疫沉淀,然后进行深度测序(ChIPseq)是一种成熟的技术,可以在全基因组范围内识别转录因子结合位点和表观遗传标记。1.1.实验处理交联和蛋白质
  • 2023-02-07单细胞转录组实战01: CellRanger7定量
    安装CellRangercd~/APPwget-Ocellranger-7.1.0.tar.xz"https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.xz?Expires=1674686023&Policy=eyJTdG
  • 2023-01-06fastq barcode split
    双端测序数据barcode拆分工具目前只支持单barcode拆分支持gz压缩文件输入输入参数支持barcode碱基容错支持一个样本对应多个barcoderepo:github:https://github
  • 2022-12-31从NCBI中下载SRA数据
     今天测试了fastq-dump直接根据SRA号无法下载。只有下面一种方法测试成功。001、   002、   003、   004、   005、[root@PC1test
  • 2022-12-23单细胞数据 mkfastq | 10x Genomics
     除了刚接触10x的那会儿,还真没怎么亲自倒腾过fastq的制作。正常从测序商那里拿到的应该是bcl的原始数据,需要自己做一步bcl2fastq。后面大家都觉得这一步太麻烦了,没必要
  • 2022-11-2510X Single Cell: Specifying Input FASTQs error
    使用以下命令时出现的报错:cellrangercount--fastqs=${fastq_dir}\--transcriptome=${ref_dir}/Human_index\--localcores=30\--sample=f
  • 2022-09-07FASTQ | md5 | 原始文件保存、传输、完整性检验
     像fastq这样的原始文件是肯定不能丢掉的,必须保存在硬盘里或者放到ftp服务器上,以便之后再度调取分析。fastq保存时问题不大,但因为文件巨大,传输通常需要几小时-几天,非常
  • 2022-08-23玩转10x单细胞 | scRNA-seq | scATAC-seq | Spatial transcriptome | CRISPR | Perturb-seq
     10x是最成功的单细胞公司,目前最成功的商业平台,已经有很多成熟的单细胞产品线,不管是新手还是进阶的高手都在玩他们平台产生的数据。这里试图对10x的核心技术和数据来做
  • 2022-08-15python 中统计fastq文件中 GC含量
     001、root@PC1:/home/test#lsa.fastqtest.pyroot@PC1:/home/test#cata.fastq##测试fastq文件@DJB775P1:248:D0MDGACXX:7:1202:12