第一代测序技术
一代测序又叫做sanger法测序或双脱氧末端终止法测序
Sanger法测序的核心原理
Sanger法测序又称双脱氧末端终止法测序,首先它是一个DNA聚合反应,需要DNA模板(就是我们需要测序的序列),DNA聚合酶,引物(与模板的起始序列互补,引导聚合反应开始),4种脱氧核苷酸dNTP(合成DNA的元件).测序引物与DNA模板结合后,dNTP在DNA聚合酶作用下延伸引物,从而合成与模板互补的新DNA链.
这个反应体系的核心在于,除了4种dNTP,还引入了一定比例的带不同荧光标记的双脱氧核苷酸ddNTP.由于保留了5’羟基,ddNTP可以被聚合酶结合掺入到DNA链当中和上一个dNTP的磷酸基团“手拉手”(形成磷酸二酯键),但由于它缺乏 3’羟基,无法和下一个dNTP的磷酸基团“手拉手”, DNA链的延伸就此终止,因此可以得到一系列起始位置相同(起始位置是由测序引物来决定的)以ddNTP结尾的长短不一的DNA片段,长度相邻的片段只相差一个碱基.通过高分辨率的聚丙烯酰胺凝胶毛细管电泳,可以将这些DNA片段分离开来,ddNTP上的荧光信号被CCD光学系统捕获并识别,记录成可以阅读的峰图.图的横轴反映的是电泳时间,也可以看做是碱基的先后顺序,纵轴表示的是荧光强度,四种颜色分别对应四种碱基.沿着横轴,我们可以根据峰的颜色判读碱基顺序,峰越高越尖,就说明这个碱基检测的准确性越好.
—-
第二代测序技术
第一代测序技术的主要特点是测序读长可达1,000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用.因而第一代测序技术并不是理想的测序方法.经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa/HiSeq技术和ABI公司的SOLID技术为标记的第二代测序技术诞生了.第二代测序技术在大幅提高了测序速度的同时,还大大地降低了测序成本(速度和成本其实是相辅相成的),并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但其序列读长方面比起第一代测序技术则要短很多,大多只有100bp-150bp.下面,我以illumina(目前最大、最成功的NGS测序仪公司)的技术为基础简要介绍第二代测序测序技术的原理和特点. 目前illumina的测序仪占全球75%以上,以HiSeq系列为主.它的机器采用的都是边合成边测序的方法,主要分为以下4个步骤:
1. 构建DNA测序文库
简单来说就是把一堆乱糟糟的DNA分子用超声波打断成一堆在一定长度范围内的小DNA片段.目前除了一些特殊的需求之外,基本都是打断为300bp-800bp长的序列片段,并在这些小片段的两端添加上接头,构建出单链DNA文库,以备测序之用;
【注】接头在illumina中一般分为P5和P7接头,其中一个带有和flow cell上的探针反向互补的序列,以完成待测序列和探针结合的作用,另外一个接头带有barcord序列以区分不同的样本.连接接头反应,其原理为序列打断后加碱基A,随后接头T单碱基互补连接.
2. 测序流动槽(flowcell)
flowcell是用于吸附流动DNA片段的槽道,也是核心的测序反应容器——所有的测序过程就发生在这里.当文库建好后,这些文库中的DNA在通过flowcell时会随机附着在flowcell表面的槽道(称为lane)上.每个flowcell有8个lane,每个lane的表面都附有很多很多的接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对,这就是为什么flowcell能吸附建库后的DNA的原因,并能支持DNA在其表面进行桥式PCR的扩增,理论上这些lane之间是不会相互影响的,也即是说,测序时他们都在独立反应.
3. 桥式PCR扩增与变性
是NGS技术的一个核心特点.桥式PCR以flowcell表面所固定的序列为模板,进行桥形扩增.经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有原来单个DNA模板的很多分拷贝,这一过程的目的在于实现将单一碱基的信号强度进行放大,以达到测序所需的信号要求.
4. 测序
测序方法采用边合成边测序的方法.向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法).这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP,这就确保了在测序过程中,一次只会被添加一个碱基.同时在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉.接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并由光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基.这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应.
Illumina的这种每次只添加一个dNTP的技术特点能够很好的地解决同聚物长度的准确测量问题.它的主要测序错误来源是碱基的替换,目前它的测序错误率在0.7%-1%左右——这是很高的精确度.测序周期以人类基因组重测序为例,30x-50x的测序深度对于Hisq系列来说需要3-5天时间,而对于2017年初最新推出的NovaSeq系列则只需要40个小时!
上图是NovaSeq和其他测序系列的比较,数据相当好.按照这个数据量估算,一台NovaSeq 6000(S4)在跑满的情况下,一年就可以测序6400多人!而且按照以往的经验,illumina的官方公布的数据都是偏于保守的,我们在实际的使用过程中发现高质量(Q30)的read其实占到了总数据的90%以上,远高于官方公布的75%,数据的总产量也同样更高.
第三代测序技术
这是一个新的里程碑.以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术.与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,以PacBio SMRT技术的测序读长分布情况,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长不再是相等的,很大一部分原因取决于被测DNA链的完整程度和酶的活性.
PacBio SMRT
PacBio SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体(如同flowcell).基本原理是: DNA聚合酶和模板结合,用4色荧光标记A,C,G,T这4种碱基(即是dNTP).在碱基的配对阶段,不同的碱基加入,会发出不同的光,根据光的波长与峰值可判断进入的碱基类型.
这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响.PacBio SMRT技术的一个关键点是在于如何将反应信号与周围游离碱基的强大荧光背景区别出来.他们利用的是ZMW(零模波导孔)原理:
如同微波炉壁上可看到的很多密集小孔.这些小孔的直径是有严格要求的,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板从而泄露出来(光波的衍射效应),从而与周围小孔相互干扰(光波的干涉).如果孔径能够小于波长,那么能量就不会辐射到周围,而是保持直线状态,从而可起到保护的作用.同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔,,即 ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不会穿透小孔进入上方的溶液区,能量会被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅仅只是来自于这个小反应区域,孔外过多的游离核苷酸单体依然留在黑暗中,从而实现将背景噪音降到最低的目的.
PacBio SMRT技术除了能够检测普通的碱基之外,还可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化.因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大,我们可以通过这个时间上的差异来检测表观甲基化修饰等信息.
<div align=center>
</div>
SMRT技术的测序速度很快,每秒约10个dNTP——这其实不是好事,这么快的测序速度带来了一些明显的缺点——测序错误率比较高(这几乎是目前单分子测序技术的通病),可以达到10%-15%,而且以缺失序列和错位居多,但好在它的出错是随机的,并不会像第二代测序技术那样存在一定的碱基偏向,因此可以通过多次测序来进行有效纠错.