6月22日,生命科学联合中心(CLS)、北京大学生物医学前沿创新中心(BIOPIC)、生命科学学院、北京未来基因诊断高精尖创新中心(ICG)张泽民实验室联合百奥智汇在期刊Nature Communications上发表了题为“An entropy-based metric for assessing the purityof single cell populations”的生物信息方法学论文,正式发布了基于单细胞转录组数据进行无监督基因选择和细胞类群纯度评估的新工具ROGUE。
论文截图
单细胞转录组测序为发现和鉴定各种细胞类型提供了重要途径,但是细胞类群的推断通常都是根据特征基因的表达来确定,很难判断一个特定的细胞类群是否是一群纯的细胞还是多种细胞亚群的混合物。此外,不同的聚类方法和参数都可能影响最终确定的细胞类群,因此需要准确定量细胞类群的纯度。
张泽民实验室的博士生刘宝琳、李辰威等开发的ROGUE则有效地解决了这一问题:他们拓展了之前开发的E-test方法【1】,使用微分熵(differential entropy)来描述单细胞数据的基因表达分布,进而建立表达熵模型(S-E model)以刻画微分熵与基因表达量均值之间的联系。在无监督聚类、交叉验证等一系列评估中,表达熵模型均显著优于之前发表的无监督基因选择方法,可以准确有效地鉴定出高变异基因(highly variable genes)。他们进而基于该模型设计了ROGUE这一统计量以评估给定细胞类群的纯度。在实际应用中,ROGUE能稳健准确地定量细胞类型的纯度并指导聚类,而且不受测序深度等因素的影响。本课题还使用ROGUE对一些已发表文章中鉴定的细胞类型进行了纯度评估,发现一些异质性比较高的细胞类群可以进一步分为更精细的亚群,从而发现更精确的生物学信号。
表达熵模型(S-E model)与ROGUE的性能评测及应用
本课题提供了R软件包ROGUE(https://github.com/PaulingLiu/ROGUE)可供用户实现无监督基因的选择和细胞纯度的评估。随着单细胞测序技术的快速发展,提升不断发现的细胞类型的可信度是一个严峻的挑战,而ROGUE可能成为指导聚类、判断细胞类群质量的潜在标准。
北京大学BIOPIC/生命科学学院刘宝琳和CLS李辰威为该论文的共同第一作者,张泽民为该论文的通讯作者。该课题得到了国家自然科学基金委、北京未来基因诊断高精尖创新中心及北京百奥智汇的资助。
参考资料:
【1】Li, C. et al. SciBet as a portable and fast single cell type identifier. Nat. Commun. 11, 1818 (2020).