0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过RAPIDS加速单细胞DNA和RNA基因组分析

星星科技指导员 来源:NVIDIA 作者:Avantika Lal 2022-04-27 16:14 次阅读

人体由近 40 万亿个细胞组成,有许多不同类型。实验生物学的最新进展使探索单个细胞的遗传物质成为可能。随着单细胞基因组学这一新领域的诞生,科学家们现在可以探测人体内单个细胞的 DNA 和 RNA 。

单细胞基因组分析已经确定了人体内的新型细胞,发现了是什么使这些细胞彼此不同,以及不同类型的细胞如何对疾病或药物作出反应。单细胞基因组学也被证明是当前 COVID-19 大流行的关键,它可以识别易受感染的细胞并揭示感染患者免疫系统的变化。

pYYBAGJo-1qAVx_-AAEaQhZ8kUc974.png

图 1 。单细胞 RNA 测序实验的工作流程。分离单个细胞并测量每个细胞的基因活性。具有相似基因活性的细胞聚集在一起以识别群体中的各种类型的细胞。

随着最近的实验对数百万个细胞进行测序,单细胞数据的可用性和数据集的大小也在不断增加。这种分析通常是探索性的,并从互动中得到进一步的好处——在更精细的尺度上识别不同类型的细胞,比较细胞类型并可视化它们之间的关系。当前的工作流仍然非常缓慢,这使得它们对于研究所需的交互分析来说是不可能的。

RAPIDS :用 GPUs 加速数据科学

RAPIDS 是一套开源库,通过 GPU 加速的力量,可以加速端到端的数据科学工作流程。 RAPIDS 使得使用类似于 NumPy 、 pandas 和 scikit learn 的 Python api 对大型数据集执行交互式数据分析成为可能。

考虑执行单单元分析的典型工作流。这从一个矩阵开始,这个矩阵映射每个细胞中遇到的每个基因的数量。对数据进行预处理,滤除噪声,然后对数据进行归一化处理,得到每个细胞中每个人类基因的活性。在这一步中,机器学习也常用于纠正数据收集中的工件。接下来,在聚类和可视化之前执行维数缩减,以识别具有相似遗传活动的细胞簇。最后,你比较这些细胞群的遗传活动,以了解为什么不同类型的细胞表现和反应不同。

poYBAGJo-2CAauOPAACZpci4Dm0534.png

图 2 :显示单细胞 RNA 测序数据分析步骤的管道。从每个细胞的基因活性矩阵开始, RAPIDS 库可以用于进行数据处理、降维、聚类和可视化,并在不同的簇间发现不同活性的差异基因。

我们在 clara-parabricks/rapids-single-cell-examples GitHub repo 中发布了这个精确工作流的 GPU – 加速版本。 repo 包含一个示例 notebook ,它使用 RAPIDS 和 Scanpy 分析 70000 个人体肺细胞的数据集,以识别对 COVID-19 敏感的细胞。 Scanpy 是一个用于分析单细胞基因表达数据的工具包,提供了使用 RAPIDS 加速特定命令的选项。我们在回购中也有一个笔记本的 CPU 版本 以供比较。

例如,运行 UMAP 以使用 RAPIDS 可视化近 70000 个单元格需要以下命令:

sc.tl.umap(adata, min_dist=umap_min_dist, spread=umap_spread, method='rapids')

umap-visualization-625x298.png

图 3 。由 RAPIDS 创建的人肺样本中约 70000 个细胞的 UMAP 可视化。细胞被洛文聚类标记。

使用 RAPIDS 生成这个 UMAP 可视化需要 1 秒,而在 CPU 上则需要 80 秒。事实上, RAPIDS 可以加速整个单单元分析工作流程,甚至可以在大型数据集上进行交互式探索性数据分析。

在 11 分钟内分析一百万个细胞

我们将我们的 RAPIDS 分析工作流程应用于现有最大的单细胞数据集之一, 100 万个小鼠脑细胞通过 10 倍基因组学测序。有关详细信息,请参阅 1M_brain_gpu_analysis_uvm.ipynb Jupyter 笔记本。

有了如此大的数据量,对 CPU 的分析变得不切实际地慢了下来;我们的端到端工作流在 awsm5a CPU 实例上运行了 3 个多小时。这使得交互式分析几乎不可能。另一方面,我们在这个更大的数据集上观察到了更高的 GPU 加速,并且能够在一个 GPU 上分析整个数据集。在 AWS 上运行 RAPIDS 分析也比 CPU 版本便宜 3 倍!

用于交互式单细胞分析的 GPU 功能单元浏览器

如前所述, RAPIDS 的数据分析速度使研究人员能够实时交互式地分析数据。我们开发了一个在 Jupyter 笔记本 中运行的、支持 GPU 的交互式小区浏览器,使这一过程更加简单。在这个单元格浏览器中,您可以可视化数据集中的所有单元格,并通过点击方法对数据执行聚类分析。使用 RAPIDS ,这些步骤可以实时运行。

在这篇文章中,我将向您展示如何轻松地选择一组细胞,并执行 UMAP 和 Louvain 聚类来识别这种细胞类型中的子种群。

图 4 通过在交互式单元格浏览器中使用 RAPIDS 指向并单击实时重新聚类选定的单元格组。

结论

在这篇文章中,您看到了使用 RAPIDS 加速 GPUs 上的单细胞基因组分析是多么容易。使用 RAPIDS ,可以方便地实时交互地探索数据,对不同尺度的单元进行聚类,以及对具有不同参数的大型数据集进行重新分析。所有这些都有助于更快的科学发现。

除了涵盖的 API 之外, RAPIDS 还有一个大型的其他算法库,您会发现这些算法在您的工作中很有用。

关于作者

Avantika Lal 是 NVIDIA 基因组学团队的资深科学家。她开发了使用 GPUs 和深入学习来加速和改进人类基因组分析的工具。在 NVIDIA 之前,她是斯坦福大学遗传学和病理学系的博士后研究员。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10873

    浏览量

    212017
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24725
收藏 人收藏

    评论

    相关推荐

    RAPIDS cuDF将pandas提速近150倍

    在 NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 当前已能够为 950 万 pandas 用户带来 GPU 加速,且无需修改代码。
    的头像 发表于 11-20 09:52 199次阅读
    <b class='flag-5'>RAPIDS</b> cuDF将pandas提速近150倍

    NVIDIA AI助力日本制药公司推进药物研发

    制药公司、医疗技术公司和学术研究人员正在开发主权 AI 能力,以驱动药物发现、加速基因组学和医疗设备。
    的头像 发表于 11-19 15:40 303次阅读

    NVIDIA加速计算技术助力癌症研究

    总部位于英国的维康桑格研究所的 DNA 测序实验室每年分析数以万计的基因组,为癌症的形成和治疗效果提供洞察。
    的头像 发表于 10-29 15:01 289次阅读

    NVIDIA Parabricks v4.3.1版本的新功能

    NVIDIA Parabricks 扩大了 NVIDIA 利用深度学习解决基因组学挑战的范围,持续推动基因组学仪器的发展。NVIDIA Parabricks v4.3.1 在欧洲人类遗传学
    的头像 发表于 09-10 10:22 392次阅读
    NVIDIA Parabricks v4.3.1版本的新功能

    荧光检测器适用范围有哪些

    、材料科学等多个方面。 一、生物分子检测 核酸检测 荧光检测器在核酸检测中具有重要应用,如DNA测序、基因表达分析基因突变检测等。荧光标记的核酸探针与目标核酸序列结合后,
    的头像 发表于 08-08 10:35 1179次阅读

    宽带功率放大器基于微流控技术的细胞分选的应用

    实验名称:基于微流控技术的细胞分选和单细胞分析用于肿瘤药物敏感性研究研究方向:生物医疗实验原理:构建了一个集成的微流控芯片用于全血中循环肿瘤细胞(CTCs)的快速分选和计数。该芯片首先
    的头像 发表于 08-06 14:37 1914次阅读
    宽带功率放大器基于微流控技术的<b class='flag-5'>细胞</b>分选的应用

    利用微流控探针诱导的化学质膜穿孔,实现单细胞胞内蛋白质递送

    将小分子、核酸、蛋白质和药物导入细胞是监测和了解细胞行为以及生物功能的重要途径。
    的头像 发表于 05-28 10:11 600次阅读
    利用微流控探针诱导的化学质膜穿孔,实现<b class='flag-5'>单细胞</b>胞内蛋白质递送

    液滴微流控技术在癌症研究中的应用:从单细胞分析到3D细胞培养

    癌症具有难发现、治愈率低和愈后差等特点,已经成为全球第二大死亡原因。由癌细胞异质性引起的耐药性和治疗差异是癌症治疗效果不佳的主要原因。
    的头像 发表于 05-19 17:36 2150次阅读
    液滴微流控技术在癌症研究中的应用:从<b class='flag-5'>单细胞</b><b class='flag-5'>分析</b>到3D<b class='flag-5'>细胞</b>培养

    基于熵驱动链置换策略的高灵敏mRNA检测与细胞内成像研究

    信使RNA(Messenger RNA,mRNA)是一类由DNA作为模版转录而来的携带有遗传信息的单链核糖核酸,作用是指导蛋白质的合成。
    的头像 发表于 05-08 09:08 597次阅读
    基于熵驱动链置换策略的高灵敏mRNA检测与<b class='flag-5'>细胞</b>内成像研究

    一种用于微液滴中单细胞无标记分析的液滴筛选(LSDS)方法

    基于液滴的单细胞分析是一种非常强大的工具,可用于以单细胞分辨率研究表型和基因组异质性,从而解决各种生物问题。
    的头像 发表于 03-26 11:17 567次阅读
    一种用于微液滴中<b class='flag-5'>单细胞</b>无标记<b class='flag-5'>分析</b>的液滴筛选(LSDS)方法

    集成片上样品富集模块的液滴微流控器件,用于单细胞的高效率封装

    传统的生物医学研究主要依靠对细胞群的分析,这种分析方法只能简单地分析细胞集合的平均特性,而无法捕捉细胞
    的头像 发表于 03-12 15:30 892次阅读
    集成片上样品富集模块的液滴微流控器件,用于<b class='flag-5'>单细胞</b>的高效率封装

    基于启扬 i.MX8M Mini核心板的全自动细胞分析仪应用解决方案

    全自动细胞分析仪是医院临床检验应用非常广泛的仪器之一,用来检测红细胞、血红蛋白、白细胞、血小板等项目。基于光学原理和图像分析技术,
    的头像 发表于 03-09 08:00 357次阅读
    基于启扬 i.MX8M Mini核心板的全自动<b class='flag-5'>细胞</b><b class='flag-5'>分析</b>仪应用解决方案

    基于双极性电极阵列的微流控芯片,可实现细胞可控、非接触三维旋转

    细胞的精确旋转在单细胞分析、药物发现和生物体分析等多个领域都具有重要意义。通过细胞的三维旋转,将有助于发现隐藏的遗传和结构细节,在显微手术、
    的头像 发表于 03-07 10:53 1382次阅读
    基于双极性电极阵列的微流控芯片,可实现<b class='flag-5'>细胞</b>可控、非接触三维旋转

    高通量测序技术及原理介绍

    高通量测序技术是生物学领域中一种重要的分析工具,它可以快速、准确地测定DNA序列或RNA序列。高通量测序技术的出现,极大地促进了基因组学、转录组学以及生物信息学等领域的发展。本文将从高
    的头像 发表于 02-03 14:46 1.3w次阅读

    深度学习破解DNA数据复制难题

    RNA转录中,知道何时停止是至关重要的。编码成RNA的信息在整个细胞中用于合成蛋白质和调节广泛的代谢过程。要想将正确的信息传递给预期的目标,需要这些RNA链尽可能多地表达——仅此而已
    的头像 发表于 01-25 16:35 723次阅读