高通量测序面临的5大挑战

Shirleykwan 2018-02-28 7935

电子说

1.3w人已加入

描述

高通量测序

测序方案建立在双脱氧测序法（Sanger等，1977）的基础上。为了从每一克隆插入片段两端成对地进行测序，每一个质粒模板DNA板应配备两个384孔循环测序反应板。测序反应采用Big Dye Terminator chemistry version 3．1（AppliedBiosystems）和标准M13或常用正向引物和反向引物。测序反应通过BiomekFX（Beckman）移液操作工作站建立。机械臂负责等分模板试样，起与反应液混合的作用，反应液含有双脱氧核苷酸、荧光标记的核苷酸、TaqDNA聚合酶、序列引物和缓冲液。

模板和反应板有条形码，且在BiomekFX移液操作工作站上有条形码读取器跟踪，确保模板和反应液转移中没有错误。30～40线性扩增步骤连续循环在MJResearchTetrads或9700热循环仪（Ap—pliedBiosystems）中进行。反应产物可以用异丙醇在室温下高效率沉淀，4C下保存或悬浮在水中密闭保存。如果测序仪器正常，在扫描反应板的条形码后，会自动为每一反应板生成一个样品膜。然后将反应板移至一台ABIPrism3700DNA分析仪或AppliedBiosystems 3730xiDNA分析仪上，进行电泳。现在的多聚体和软件允许每天在ABIPrism 3700 DNA分析仪上进行8次电泳，在AppliedBiosystems 3730xlDNA分析仪上进行12次，调试时间少于1h。

平行运行大量工作的高通量测序设备通常需要通过实验室信息管理和样品跟踪系统（1aboratory information management and sample tracking system，LIMS）（Kerlavage等，1993）进行自动化管理。在TIGR，这种系统包括从文库构建早期经测序到结束的样品跟踪的整套软件。经过这种处理，数据保存在Sybase关系数据库表格中。数据库储存和联系在整个基因组测序流程中所收集的全部数据，允许使用者以各种方式回溯数据流，可从已经注释的基因回溯到基因的原始测序跟踪文件。这个系统包括样品管理、数据输入、文库管理和序列加工的客户端/服务器应用软件。经过多年改进，并且结合新的实验室方法、新型的仪器和软件，这一系统已成熟稳定。这些整合应用包括自动载体清除、确定和屏蔽重复元件、发现污染的克隆和跟踪克隆及模板信息。

在测序流程中，生成的模板和序列的质量每天可通过用户友好界面系统地监控。这就保证了迅速发现并改正工作中的潜在问题。通常，质量控制和质量测评（qualitycontrol/qualityassessment，QC/QA）组共同应用质量检测标准。他们负责检验和提供试剂给生产组，并在流程中检测模板质量、调查失败和偏离正常表现范围的情况、监控数据质量、审计、确定可改进的方面、制作控制文件（标准操作步骤），以保证这些文件具有格式上的一致性和技术上的准确性。

高通量测序面临5大挑战

基因测序作为医疗健康行业的火爆技术，近年来越来越得到临床的认可，并逐步被应用到各大领域中。尤其是精准医疗概念提出以后，基因测序更是备受青睐，它为精准医疗解答了很多未知的问题。

如今，基因测序已经形成了一定的产业规模，大量的企业以不同形式跻身进来。但是，在表面飞速发展的背后，技术上仍有大量的挑战。外媒《GEN》Shawn C. Baker博士撰文讲解该领域面临的困难与挑战，雷锋网（公众号：雷锋网）AIHealth栏目编译如下：

过去十年里，高通量测序技术经历了跨越式的发展，测序能力大幅上升，费用下降，两者的变化都是数量级的。到目前为止，全球范围内，共配备测序设备超过一万台。

过去十几年来，主要的平台公司都致力于提升系统的易用性。Illumina的最新桌面系统，比如 NextSeq、MiSeq、和MiniSeq 系统，均通过试剂盒进行操作，以减少了手工操作的次数和开机时间。

一直以来， Illumina的系统都比赛默飞的 Ion Torrent 系统更加易用，但后者最新的系统Ion S5特别设计简化了整个工作流程，涉及设计准备库到数据生成的整个流程。

行业外读者在听闻了测序行业的许多进展后，如强大的测序能力、更低的成本以及更好的易用性，可能会误认为，基因测序所有的困难已经都解决了，测序过程的所有障碍都移除了。

但是真正的困难还刚开始，大量的挑战在前方。

样品质量

问题最严重的一个领域，也是易被忽略的是：样品质量，虽然测试平台经常会校准，使用的样本也是经过校准的，但是真实世界中的样本经常会面临很多意想不到的挑战。

在人类基因测序中，一个最普遍使用的样本类型是FFPE （formalin-fixed paraffin-embedded）。FFPE的广泛应用有多种原因，其中最重要的是丰富性。据估计，全球范围内，有超过100亿FFPE样本存档。FFPE块的临床样本存储已经变成工业级别的标准实践，其样本数量将继续保持增长。

除全球范围的广泛应用外，FFPE样本通常包含着大量可用的表型信息。例如，FFPE样本可与治疗方法和临床数据综合应用。

但FFPE 样本出现的问题是：固定过程和存储条件均会造成大量的DNA损伤。

BioCule公司CEO、联合创始人 Hans G. Thormar博士认为，

评估了BioCule的QC平台超过1000份样本后，我们看到了DNA样品中大量的变异和各种类型的损伤，例如链间、链内交联，单链DNA的聚合以及单链DNA破坏。

DNA损伤的变异数量和类型，如果忽略，可能会对最终结果产生负面影响。

Thormar认为，

这对下游应用比如测序的影响是巨大的：从简单测序文库构建的失败到虚假文库的产生，最终导致结果的错误。因此，在测序项目开始时正确评估每个样本的质量变得至关重要。

测序文库

尽管，各大测序平台公司花大力气在降低生成原始序列的成本上，但是在构建测序库方面却不然。人类基因测序的测序文库的构建，每个样本大约花费50美元，在总花销中是相对较小的一部分。但是在其他应用中，例如细菌基因组测序或低深度RNA测序，它占据总成本很大一部分。

几个小组研究了多元化自制解决方案，期望可以有效降低成本，但在商业领域并没有太多发展。在开发单细胞测序解决方案中有一个亮点，例如10X Genomics公司的Chromium™系统，利用基于珠的系统可以并行处理数百到数万个样品。

10X Genomics 公司的CEO兼联合创始人Serge Saxonov博士坚持道，

我们认为单细胞RNA测序是进行基因表达分析的正确方式，在接下来的几年，全球许多地区，RNA试验将转向单细胞分辨率，我们的平台有可能在这方面引领浪潮。

对于大型项目，比如在降低样品成本方面，单细胞RNA测序中要求的高度多元解决方案将是关键的因素。

长读数与短读数

Illumina对于基因测序市场的主导，意味着到目前为止产生的绝大多数数据都基于短读数（short reads，高通量测序平台产生的序列就称为reads，这是测序读到的碱基序列片段，测序的最小单位）。大量短读数的产生对大多数的应用都很适用。例如检测基因组DNA的单核苷酸多态性和计数RNA的转录物。然而，在许多其他的应用中，仅有短读数是不够的，例如阅读基因组的高度重复区域和确定长链结构。

长读数平台，例如Pacific Biosciences公司的RSII和Sequel，Oxford Nanopore的MinION，通常能生成15-20kb范围长度的读数，最高曾报道过超过100kb长度的读数。这样的平台赢得科学界的赞赏，例如加利福尼亚大学戴维斯分校细胞生物学教授Charles Gasser博士。

我对于用长读数方法进行基因组装配的成功印象深刻，特别是与短读数高保真数据相结合时的混合装配中。技术的结合使得小群体、小预算的单个研究者从一个新的生物基因组中产生一个可用的组装。

为了充分利用这些长读数平台，有必要通过新方法进行制备DNA样品，标准分子生物学方法尚未优化用来分离超长链DNA片段，所以，在制备长读数库时必须特别小心。

例如，供应商创建了一种高分子量试剂盒用于分离大于100kb的的DNA片段，优化靶向DNA方案来选择性富集DNA的大片段，为了保证长读数产量的最大化，这些方法和技术必须掌握。

短读数的一种特殊形式是链接读数，例如10X Genomics，可作为真正长读数的一种替代方法。链接读数是这样产生的：每个长DNA片段，通常大于100kb，其中产生的每个短读数，均加入一个独一无二的条形码，在分析阶段，这种独特的条形码就可以将分离的短读数链接在一起，从而提供长链基因信息，使得构建大单倍型块和对复杂结构信息的阐释成为可能。

短读数测序，因其高精确度和高通量，通常具有强大的功能，但只能获取小部分的基因信息。这是因为基因组是基本重复的，基因组中的大量信息编码在长链中。

数据分析

研究人员面临的领一大挑战是生成的数据量非常大。单个30X人全基因组样品的BAM文件（半压缩比对文件）约为90GB；一个相对中等的项目，包含100个样本，其BAM文件可达到9TB。

一个Illumina HiSeq X仪器，每年能产生超过130TB的数据，很快数据的存储就变成一个大问题。例如，Broad研究所以每12分钟分析一个30X人全基因组速率产生基因测序数据——每年可产生将近4000TB的BAM文件。

BAM文件可以转化为VCF文件（变体调用格式），后者仅包含不同于标准序列的信息。虽然VCF文件小并且更加好用，但是保存原始序列文件仍是必要的，方便研究者将来查看这些数据。

随着测序成本下降，一些人就得出这样的结论：对样本重测序会很容易，并且可能更便宜，而分析大量数据时，研究人员的选择空间非常大。但事实上，在OMICtools中有超过3000个序列分析工具可供选择，研究人员想要找到最好的那一个，也不容易。

临床解释和报销

最后，对于临床样本，还有一个挑战：对于测序序列的变异提供一致可靠的解释。

一个典型的外显子包含1万~2万个突变，全基因样本则会产生超过300万种变异。在通常的解释中，根据变异造成的疾病相似性分类。

为了协助指导临床医生，美国医学遗传学和基因组学，分子病理学协会和美国病理学家学院创建了一套对突变进行分类的系统。分类目录包括致病性，可能致病性，不确定的显着性（目前占外源和全基因组样本的绝大多数），可能良性和良性。

然而，这种方案有其局限性。即时使用一种公认的分类方案分类同一个数据库，不同的项目组可能会提出不同的解释。对新系统的一个试验研究中，参与的不同临床实验室仅在34%的情况下，对于分类的解释一致。

如果存在分歧或需要额外的分析来解释实验结果，那么就存在报销的问题。基于NGS的测试的报销可能是一个大障碍，但是对于解释的报销几乎是不可能的。

Rady儿童基因组医学研究所临床研究员Jennifer Friedman博士说，

实验室不可能对试验的解释付费，如果这种服务可以提供，这是非常有价值的，但是没有人做到这个。

没有办法为此付费，保险公司不报销。尽管对于精准医学的关注度上升，但是无论是临床医生或实验室做出的解释，都没有被医疗保健支付者承认或是重视。

到目前为止，病人样本的分析基本上是作为一个研究项目来对待的，是在研究型医院中的一个选择，并且仅用于有限数量的患者。

打开APP阅读更多精彩内容