单细胞测序 rare cell
------------------------------------------
罕见的细胞类型来说,鉴定出它们特定的标记基因目前仍存在很大挑战。而发现一些罕见的细胞类型,如干细胞,短暂存在的前体细胞,癌症干细胞或循环肿瘤细胞,对于深入理解正常和疾病状态下的组织生物学具有非常重要的意义。(RaceID)
http://news.bioon.com/article/6672377.html
------------------------------------------
FiRE - [python, R, C++] - Finder of rare entities (FiRE) helps identify rare cell types in voluminous single-cell datasets. Design of FiRE is inspired by the observation that rareness estimation of a particular data point is the flip side of measuring the density around it. In principle, FiRE uses the Sketching technique, a variant of locality sensitive hashing, to assign rareness score to every cell.
Jindal, A., Gupta, P., Jayadeva and Sengupta, D., 2018. Discovery of rare cells from voluminous single cell expression data. Nature communications, 9(1), p.4719. DOI: https://doi.org/10.1038/s41467-018-07234-6
单细胞转录组学的出现使得稀有细胞发现成为下游分析流程的主流组成部分。稀有细胞代表有机体中的次要细胞类型。当分析单元的数量达到数百个时,即使是一个孤立单元(singleton)也值得关注。然而,随着通量的提高,人们的注意力转移到发现次要的细胞类型上,而不仅仅是单个细胞。稀有细胞类型的例子包括循环肿瘤细胞、癌症干细胞、循环内皮细胞、内皮祖细胞、抗原特异性T细胞、不变的自然杀伤T细胞等。尽管其丰度较低,但稀有细胞群在确定癌症发病机制、介导免疫反应方面发挥着重要作用,肿瘤和其他疾病的血管生成等。抗原特异性T细胞对免疫记忆的形成至关重要。来源于骨髓的内皮祖细胞已被证明是肿瘤血管生成的可靠生物标志物。干细胞具有替换受损细胞的能力,治疗帕金森氏症、糖尿病、心脏病等疾病。循环肿瘤细胞为临床治疗提供了前所未有的关于转移过程的实时线索。
检测稀有细胞转录组的算法很少。其中最突出的是罕见的细胞类型鉴定(RaceID)和GiniClust。RaceID涉及计算昂贵的参数化建模,用于检测异常表达式profile。它使用无监督聚类作为中间步骤来定义群体单元类型,而群体单元类型又用于确定离群事件(单元)。另一方面,GiniClust使用了一种非常简单的双管齐下的算法。首先,利用基尼指数选择信息基因。然后应用基于密度的聚类方法,即基于密度的噪声应用空间聚类(DBSCAN),来发现异常单元。值得注意的是,RaceID和GiniClust都使用聚类来区分主要细胞类型和次要细胞类型。事实上,这两种算法都计算每对单元之间的距离。许多这样的设计选择使得这两种算法对于超大的scRNA-seq数据都很慢并且内存效率低下。
https://www.nature.com/articles/s41467-018-07234-6/figures/3