因为像SVA-D、SVA-E等,在我们之前对Roadmap数据的分析中,我们发现其在许多组织中都有所谓的转录的活性。因此,我也想通过组蛋白修饰的数据来看一看。
- H3K36me3
cp /home/xxzhang/data/Epigenome/Roadmap/giggle_result/gzData/Hs_SVA_D.bed.gz /home/xxzhang/data/Epigenome/cistrome/human_histone_mark
giggle search -i ./named_sort_H3K36me3_b/ -q Hs_SVA_D.bed.gz -s >Hs_SVA-D.bed.gz.giggle.H3K36me3.result
cat Hs_SVA-D.bed.gz.giggle.H3K36me3.result |awk '$8>0' |sort -r -n -k 8 |head
cp /home/xxzhang/data/Epigenome/Roadmap/giggle_result/gzData/Hs_MSTC.bed.gz /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/
giggle search -i ./named_sort_H3K36me3_b/ -q Hs_MSTC.bed.gz -s >Hs_MSTC.bed.gz.giggle.H3K36me3.result
cat Hs_MSTC.bed.gz.giggle.H3K36me3.result |awk '$8>0' |sort -r -n -k 8 |head
cp /home/xxzhang/data/Epigenome/Roadmap/giggle_result/gzData/Hs_MER57E3.bed.gz /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/
cp /home/xxzhang/data/Epigenome/Roadmap/giggle_result/gzData/Hs_AluSx3.bed.gz /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/
可能的测试结果是相似的。像SVA-D本身就位点很多,那么很显然就有富集的结果。
现在转换一个思路,如果我们以重复序列家族来建立索引呢?然后用fatal brain等组织的peak的数据与该索引进行比较。我们来看看是什么样的情况。
#先把所有的人特异性的重复序列移动到同一个文件夹中。
mkdir Hs_repeat
cp ./* ./orig/
/home/xxzhang/workplace/software/giggle/scripts/sort_bed "/home/xxzhang/data/Epigenome/cistrome/human_histone_mark/Hs_repeat/orig/*.bed.gz" ./sort/ 32
giggle index -i "sort/*.gz" -o human_rp_index -f -s
cp /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_None_Fetal* ./
giggle search -i human_rp_index/ -q H3K36me3_None_None_Fetal_Spinal_Cord.0.bed.gz -s >H3K36me3_None_None_Fetal_Spinal_Cord.0.bed.gz.giggle.result
cat H3K36me3_None_None_Fetal_Spinal_Cord.0.bed.gz.giggle.result
接下来就是找到合适的数据集,然后我们看这些样本在我们认为的家族中的富集情况。然后去看,到底是哪个家族的序列对于大脑最特别。
我们思路反一下,反正有那么多的序列。
我们看特定的序列或者样本(选一选)的peak,在这些家族中的富集的情况,从而比较,哪一个家族对咱们感兴趣的“转录状态”最特别,然后我们以此为核心,沿着这个思路去看。
这样的话,就比较容易的实现了。