python 中实现把short.fa中的序列比对到ref.fa

时间：2022-08-14 17:00:51浏览次数：55

文章来源：https://www.jianshu.com/p/2475c3240a67

简化的短序列匹配程序 (map.py) 把short.fa中的序列比对到ref.fa, 输出短序列匹配到ref.fa文件中哪些序列的哪些位置。

f1 = r'E:\Bioinformatics\Python\practice\chentong\notebook-master\data\short.fa'
f2 = r'E:\Bioinformatics\Python\practice\chentong\notebook-master\data\ref.fa'          ## 读入数据
#通过生成两个字典的方式进行查找
#short字典中，基因名为去除'>'及'\n'后，剩余部分
#ref字典中，基因名为去除'>'及'\n'后，剩余部分
short = {}
ref = {}
for line in open(f1):
    if line.startswith('>'):
        key = line.strip('>\n')
        short[key] = []
    else:
        short[key] = line.strip()                                                       ## 将short保存为字典
#----end reading f1-------------------
for line in open(f2):
    if line.startswith('>'):
        key = line.strip('>\n')
        ref[key] = []
    else:
        ref[key].append(line.strip())                                                  ## 将ref保存为字典
#----end reading f2(ref)--------------

#以单个ref为参照，对所有待查找序列进行遍历
for key2, value2 in ref.items():                                                      ## 将ref作为外层迭代
    #将ref中的序列进行连接，合并为一条长序列
    seqRef = ''.join(value2)                                                          ## 将ref的每一个scafflod合并为一个长的字符串
    for key1, value1 in short.items():
        start = seqRef.find(value1)                                                   ##  根据字符串.find（）返回匹配的首字符索引
        while start != -1:         #表明ref中可以查找到short序列
            print('{}\t{}\t{}\t{}'.format(key2, start + 1, start + len(value1), value1))       ## 输出结果
            new = seqRef[start+1:].find(value1)     #继续在剩余序列中查找                ##  更新匹配的起始位置
            if new == -1:
                break
            start = start + new + 1    #若new不等于-1，重新对start赋值（继续查找后续序列，一个循环能够对目标序列查找两遍）

标签：short,start,python,fa,序列,##,ref
From： https://www.cnblogs.com/liujiaxin2018/p/16585766.html

python 中字符串拆分可直接赋值给变量名（列表中的元素可以直接赋值给变量）
001、>>>test1="100200"##test1为字符串>>>test1'100200'>>>a,b=test1.split()##拆分字符串，直接赋值给变量名>>>a'100'>>>b'200'......
学习python-周总结08
周总结一、操作系统的发展史三大核心硬件CPU：计算机中真正干活的人内存：给CPU准备需要运行的代码硬盘：永远存储将来可能要被运行的代码注意：CPU是整个计算机执行效率......
使用python转换 smRNA-Seq的测序数据
001、方法1root@PC1:/home/test3#lsa.txttest.pyroot@PC1:/home/test3#cata.txt##测试文件ACTGCCCTAAGTGCTCCTTCTGGC2ATAAGGTGCATCTAGTGCAGATA......
python 中输出指定序列的反向互补序列
001、方法1root@PC1:/home/test3#lstest.pyroot@PC1:/home/test3#cattest.py##测试程序#!/usr/bin/pythonresult=""str1="ACGTACGTACGTCACGTC......
python | 算法大神左神（左程云）算法课程第三节
基数排序-python版视频笔记戳这里#基数排序#针对非负数排序classradixSort():defradixSortAll(self,arr):"""对数组arr进行基数排序......
python 中实现将三元组数据转换为矩阵形式
001、root@PC1:/home/test3#lsa.txttest.pyroot@PC1:/home/test3#cattest.py##测试程序#!/usr/bin/pythonin_file=open("a.txt","r")lin......
Python - 解决赌徒问题
一、赌徒的问题周末闲来无事，打算解决我一直思考的一个问题。假设我有100块钱，拿去赌博，每次从1块开始押，如果赢了，下次还是押一块，如果输了，下次就押两块，输了就继续翻倍，直到将手......
运行pysot-toolkit平台进行tracker对比时，报错numba.core.errors. TypingError: Failed
在OTB100上测试tracker，然后用pysot-toolkit平台对比跟踪算法时，出现报错：numba.core.errors.TypingError:Failedinnopythonmodepipeline(step:nopythonfr......
python 中字符串格式化函数 format()
001、>>>"{0}".format("xxx")##位置参数'xxx'>>>"{0}.{1}.{2}".format("xxx","yyy","zzz")'xxx.yyy.zzz'>>>"\t{0}.{......
python推导式与海象运算符
背景：介绍两种python用于语句优化的用法一、推导式1.推导式简介:Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。支持：列表(......

python 中实现把short.fa中的序列比对到ref.fa

相关文章

赞助商

阅读排行

python 中实现 把short.fa中的序列比对到ref.fa

相关文章

赞助商

阅读排行

python 中实现把short.fa中的序列比对到ref.fa