[wximg]http://mmbiz.qpic.cn/mmbiz_jpg/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUqZcmC7MfVicSSAohV5R8T8kSGDUIJ8Gn4VrnlqH98PAdPXwmiap9rJUA/0?wx_fmt=jpeg[/wximg]
本文转自“生信人”。
一文从一代到最新的测序技术,希望能够帮助你。
1序
这几天天气很热,热的人心惶惶。因此一直提上日程的所谓的测序简史,也没有时间去好好的落实。中途找过一个行业内的颇有影响力的人,但是他由于种种原因,也没有能踏踏实实的去做这件事情。几经周折,这个任务还是落到了我自己的肩上。
于是乎,我鼓鼓勇气,尝试着去把这段从1977年到2017年的漫长而又渺小的四十年说的有趣些儿。
当我起笔去写这篇文章的时候,小伙伴们还在工作室因为某个服务器后台技术争论不了,这样看来生信人团队还是非常有希望的。另外,关于测序简史这一块,我一直不知道怎么去娓娓道来,不知道如何才能说得清楚,还不让大家反感,我只能硬着头皮利用自己知道的皮毛知识给大家编织一个我所认为的测序简史,博君一笑。
由于这篇文章内容过长,我觉得还是轻松点,大家才能阅读下去,毕竟很少有人能够逼着自己去做一些事情,一点一点的诱惑,不仅有用,而且高效,为啥不用呢,废话到此结束,言归正传。
啥叫测序?这个官方有官方的解释,大家可以自行百度,我觉得通俗意义上跟测序身高体重三围没啥区别,区别在于测序难度大并且包含的信息量大。
身高仪测量你的身高信息,体重称量你的体重信息,三围表征你的性感,不是健康信息。测序是测量你的遗传信息。
遗传信息,大家应该都清楚,如果不清楚的话麻烦各位翻一翻高中的肺炎双球菌实验,讲的就是啥是遗传信息,如何发现遗传信息的。
放张图,方便大家回忆。
[wximg]http://mmbiz.qpic.cn/mmbiz_png/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUI3pGYWN3fJzJJDciau0YdEpMPne34DwdSaQx2BCOP2RrTQnKGpL7zXQ/0?wx_fmt=png[/wximg]
桑格先生13年与世长辞,但是一代测序技术在他发明之后经过各个单位的改进,今天还被大量使用。
NCBI的悼文:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3903207/
Of the three main activities involved in scientific research, thinking, talking, and doing, I much prefer the last and am probably best at it. I am all right at the thinking, but not much good at the talking.
—Frederick Sanger, 1988
二、一代测序主要应用方向
大伙肯定好奇啥是黄金测序,标题很抢眼,但的的确确存在测序的黄金标准:一代测序了,小编故称之为黄金测序。
今天给你们带来一些低门槛纯经验的黄金测序(哈哈就是一代测序了)中你应该知道的point:高通量测序最近这几年很火越来越火,但是世界上更多的还是一帮天天做分子克隆、养细胞、养细菌、杂蛋白的生物学家,究其原因Sanger测序还是测序届的金标准,由于精确度高于2、3代测序且保持大白菜价格使之地位稳固。应用范围:De Novo测序、重测序: 如突变检测、SNPs、插入、缺失克隆产物验证、比较基因组、分型: 如微生物和真菌鉴定、HLA分型、病毒分型
、其它: 如甲基化分析(重亚硫酸盐测序)和SAGE(基因表达串联分析)方法
、临床应用:肿瘤突变基因的检测和肿瘤个体化治疗。
三、一代测序注意问题
1.测序结果不到800Bases是什么原因?
(1)G/C rich、G/C Cluster。
这种情况一般表现为测序信号突然减弱或消失(图1,图2)
如在DNA样品中的DNA序列分布匀称,没有复杂结构时,正常的测序反应能保证达到800Bases以上。但有一些DNA样品立体结构复杂,造成聚合酶延伸反应终止,测序信号突然减弱或消失,或者测序结果出现套峰现象,出现这些现象的原因由DNA模板本身所造成。
[wximg]http://mmbiz.qpic.cn/mmbiz_jpg/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUS7Ixicf2J1brUUAiaZhGVAgvYyYjg2uJtoGTNtJA95BicB6cH8qnjQjmQ/0?wx_fmt=jpeg[/wximg]
图2 G/C rich引起的信号消失
(2)A、T的Poly结构
这种情况一般表现为A、T连续结构后面的测序结果出现套峰。根据文献记载。原因在于聚合酶进行聚合反应时,由于A或T的连续,聚合酶难以识别完整的每个A或T,在某个A或T的后面便开始进行A或T连续结构以后序列的聚合反应(打滑现象),造成测序结果紊乱,出现套峰。一般在多少个A或T的后面能出现这种情况呢?现在还没有这方面的报道。根据我们的经验,这一情况的出现和A或T的连续结构后面的序列的排列情况有着直接的关系。有时10多个A或T的连续结构后面便出现套峰,但有时60~70个A或T的连续结构后面的序列也一样可以完整地读出来。具体情况还有待考证。一般来说,PCR片段直接测序时,A或T的连续结构后面的序列测序结果都会出现套峰。原因在于测序时经历了PCR反应及测序反应(测序反应本身也是PCR反应)二次聚合酶的打滑现象。
[wximg]http://mmbiz.qpic.cn/mmbiz_jpg/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUEnB6PgeSn9EwdGNy55PRsc5fP8R38gtLniaaheQer7KL6bwSkjicPh2w/0?wx_fmt=jpeg[/wximg]
图4 复杂结构引起的信号中断
2.出现套峰是什么原因?
在测序反应中,模板或引物的原因都可能造成套峰的形成,归结其形成原因有以下几点:
(1)测序引物在模板上有两个结合位点(图5);
(2)模板不纯,如果是质粒或是菌液,原因是非单克隆(图6),如果是PCR,原因为非特异性条带(图7);
(3)模板序列的特殊结构,如poly结构、发卡结构等(图8);
(4)引物降解,或引物不纯(图9,图10)。
[wximg]http://mmbiz.qpic.cn/mmbiz_jpg/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUAOYa3DrXKh5rw10aIDIuWcxDCgwRNicLmNaR5RKMEXOgbiaicE6JibibLBw/0?wx_fmt=jpeg[/wximg]
图6 由于质粒或菌液为非单克隆引起的套峰
[wximg]http://mmbiz.qpic.cn/mmbiz_jpg/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUfe9Crj79tTa7ibiaG9F8AFwxMricUMWKTicjKSYpGOQMmeQuibsrnVtsjiaQ/0?wx_fmt=jpeg[/wximg]
图8 模板特殊结构引起的套峰
[wximg]http://mmbiz.qpic.cn/mmbiz_jpg/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUECXftPdgkv4g72AoyaTfiajK56H1mWAJAtggB1HvYGzDSYwzYU7uEibw/0?wx_fmt=jpeg[/wximg]
图10 引物严重降解或引物不纯引起的套峰
四、解决方案汇总
1.样品测序无信号
可能是引物结合位点不存在或被破坏;建议更换引物测序或重新提供样品测序。
2.样品测序信号差
可能是引物或模板的质量不高或是引物和模板的匹配性不好引起的,也可能是样品浓度偏低;建议提供高质量样品测序。
3.样品测序衰减
可能是由于特殊结构如Poly结构、重复序列、回文结构、发卡结构、GCrich、AT富集等导致的测序衰减,由于是样品本身结构问题无法优化建议反向测序进行拼接以得到完整序列,还有一种衰减的情况就是在一段正常峰型后逐渐衰减,可能是模板量反应量不足导致,建议制备高浓度模板测序。
4.样品测序套峰
套峰细分的话有如下几种情形:
①全双峰:多引物结合位点(针对菌液、质粒样品),非特异性扩增(针对PCR产物);
②前双峰:多引物结合位点,其中一套模板测序中断(针对菌液、质粒样品),多引物结合位点(PCR未纯化样品),引物二聚体或小片段干扰(针对PCR已纯化样品);
③中间双峰:非单克隆(针对质粒、菌液样品),碱基缺失或等位基因双模板(针对PCR未纯化样品);
④后双峰:非单克隆(针对菌液、质粒样品),碱基缺失(针对PCR样品);
针对二聚体及小片段干扰的情况建议电泳切胶回收纯化;针对多引物结合位点的情况建议更换引物测序或反方向测通样品;针对碱基缺失建议克隆测序;针对非单克隆建议在克隆无误的前提下重新挑取单克隆测序;针对非特异性扩增建议优化反应条件重新制备样品测序;针对等位基因双模板建议克隆测序。
5.样品测序中断
可能样品存在特殊高级结构,导致dNTP和ddNTP在某一碱基位点后无法与模板结合,测序酶无法继续延伸,建议使用反向引物进行测序经拼接后可以得到完整序列;或酶切后亚克隆测序。
6.样品测序移码
测序从开端发生移码可能是引物发生降解,建议重新提供引物;测序局部出现移码,可能样品存在特殊高级结构,建议反向测通。
7.样品测序底峰干扰
可能测序引物不纯,建议将引物进行PAGE胶纯化后在进行测序或重新提供引物测序;可能测序样品不纯,混有正、反向引物,建议重新制备样品测序。
3第二代测序技术
一、简介
小编上大学的时候,二代测序技术主要有三家公司,罗氏的454技术,illumina的Hiseq和Solexa技术还有ABI的Solid技术。不管是哪家公司,其具体原理如何,暂且不说。他们都是边合成边测序,也就是说通过在序列合成的同时通过各种标记进行实时的序列识别。接下来,小编还没有毕业,罗氏和ABI的测序技术就提前毕业了。只剩下一家illumina。熟悉二代测序的,都清楚,他家是双端测序,通量高。Illumina基本上每天推出一款新的产品。并且通量越来越大,成本越来越低。说最近今年的例子,14,15年推出的Hiseq 4000 15,16年推出的X ten(10台hiseq X)国内有很多公司引进了这套设备。北京诺禾致源,药明康德等。目前国内的二代测序通量基本上满足了国内的科研需要和临床应用需求。由于先动优势,其他的测序公司也就放弃了在Xten市场上与诺禾进行角逐,转而成为诺禾测序市场上渠道客户。这样看来华小之间,相爱相杀。17年南京诺禾(背后有资本的力量,目前市场上的好多做健康管理,基因检测的都将从这里走渠道。),其实就是委托诺禾进行运营和管理,毕竟人家经验丰富。引入25台Novaseq测序仪。这些测序仪将主要用于生命科学健康方向。可以预见的将来,诺禾将成为二代测序市场的占用者,有一句话说的好,诺禾测序仪抖一抖,好几百家公司的数据都不合格。
由于二代测序需要对荧光信号进行识别,但是由于荧光信号较弱,因此需要进行扩增建库。也就是这一步导致二代测序存在偏好性。
[wximg]http://mmbiz.qpic.cn/mmbiz_png/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOUxMpRVeY1W8peuVKoeeibnN81TEMjSCkegXYpwqB6g1YMuzuFB8U6Nug/0?wx_fmt=png[/wximg]
4第三代测序技术
一、简介
第三代测序技术目前在市场上较为活跃的是Pacbio公司的RS II系列 和Sequl系列。二代测序主要的长度较短的问题,Pacbio将会彻底给予解决,目前其读长在9Kb以上,准确性在85%以上。通量较二代差距很大,目前Sequl的一个cell可以产出5 Gb左右。这个通量目前对于科研市场是消费的起的,但是对于临床检测,成本较高。不过值得庆幸的是,他们的CTO承诺18年一个cell可以产出150Gb,到那个时候,基本上就是1万元denovo 一个人。这对于复杂疾病的破译非常具有意义。
[wximg]http://mmbiz.qpic.cn/mmbiz_png/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOU2vib7xxKzuMNMoGnR7dWKHdtbLTDzLaXe7CzKQ4zdfj25Y2qGO4toCg/0?wx_fmt=png[/wximg]
二、 MinION相对于其他NGS测序平台的优势
1、碱基修饰的检测
纳米孔测序技术可以检测四种胞嘧啶(cytosine)碱基修饰,分别为5-methycytosine,5-hydroxymethycytosine,5-formylcytosine和5-carboxylcytosine。检测准确率为92%-98%。
2、实时测序监控
对于临床实践,实时获取和分析DNA/RNA序列是一件很重要的事情。对于传统的NGS测序,做到这一点非常不易。但对于MinION,实现起来相对容易。这不仅是因为MinION体积小,易操作等,更是因为在测序过程中单分子穿过纳米孔,其电流变化可以检测并识别,这种设计允许用户在测序过程中根据实时结果做出一些判断。
实时测序监控对于MinION针对特定目标序列测序有重要的应用(图2):当DNA片段通过纳米孔时,如果电流变化呈现与目标序列一样的趋势,则通过纳米孔。如果DNA片段与目标序列呈现不同的电流变化趋势,则不能通过纳米孔。通过这样的方式,实现目标序列的富集,从而显著减少测序时间,对于在野外和即时诊疗有重要意义。
[wximg]http://mmbiz.qpic.cn/mmbiz_png/ibicxQA9W29TibBv9MzjFw9hrfU94EepCOU4M8UKE6KusUjqtjP3DaqDzYPl6pklvlKEQ5JIuwaBJddXKZXDxtCuw/0?wx_fmt=png[/wximg]
4、结构变异的检测
NGS短序列的特征使结构变异的检测往往不准确。这个问题在癌症的检测中尤其严重,这是因为癌症组织中充斥各种结构变异。研究人员发现利用MinION测得的几百个拷贝的长read得到的结构变异结果比NGS平台测得的上百万read得到的结果更可靠。
5、RNA表达分析
对于RNA表达分析,NGS平台测得的短序列带来的问题是序列需要进行拼接,才能得到转录本。这给可变剪切研究带来困扰。因为通常情况下NGS测序不能产生足够的信息将不同形式的可变剪切区分开来。而利用MinION测序仪产生的长read,可以更好地解决这个问题。研究人员利用果蝇的Dscam1基因为例,其存在18,612种可变剪切形式,利用MinION测序仪可以检测到超过7,000种可变剪切形式,而这样的结果利用NGS的短序列测序是不能够获得的。
6、生物信息学配套软件的发展
近些年来,随着生物信息分析方法的发展,MinION测序reads成功比对参考基因组的比例已经从66%提升至92%。文章下面对各种工具的适用场景进行了分别介绍。工具概述见表1。
[wximg]http://mmbiz.qpic.cn/mmbiz_jpg/ibicxQA9W29TibpUXL9UicjJuw1RnOIFLbzO6UNKIx5Cr6SbpOf3Nk0H8iar3bsdQBkjDBdr9aFEZBx5OIAdoukuhibg/640?wx_fmt=jpeg[/wximg]