基因云馆新一代信息数据库

知识决定起点,智慧带来突破,欢迎使用新一代生物学、医学数据库。

云馆首页 > 资讯文章 > 新闻资讯 > 文章详情

基因组研究新思路:4种最热技术

来源/作者:Genelibs   发表时间:Aug. 3, 2016, 2:08 p.m.   文章热度:2320   

近日,在论文预发布网站bioRxiv上发表了一篇题为“Single-molecule sequencing and conformational capture enable de novo mammalian reference genomes”的论文。美国科学家首次在人之外的物种中直接de novo组装出染色体水平的基因组。他们利用Pacbio+BioNano+Hi-C+Illumina 多层级的策略,组装了一只山羊(Capra hircus)的基因组,获得31个scaffold,663个gap区,scaffold N50 惊人地达到87M,几乎做到了one scaffold one chromosome的水平,并且成功地组装出免疫基因区和大部分重复序列家族。


我们接下来看这篇文章如何玩转目前最好的技术,使山羊和人在基因组上处于同一水平线?

注:人的GRCh38版本有24个scaffold,169个unplacedscaffold,832个gap区。



取样策略


从96头山羊(6个品种)中,利用Illumina的 Caprine53K SNP 芯片筛选出基因型纯和度最高的个体用来组装(San Clemente breed)。



测序策略及数据量产出


1

Pacbio数据

一共产生465个SMRT cell的数据。其中使用P5-C3试剂的311个cell;使用P4-C2试剂的142个cell,XL-C2试剂的12个cell。数据量194G,覆盖深度达69X,subread的平均长度为5,110bp。

2

BioNano 数据

由于采样所用山羊意外死亡,其DNA不能满足Irsy optical mapping 测序的需求,只好用其雄性后代采样。Optical map一共产生256Gb数据,覆盖98X。

3

Hi-C数据

此次采样动物是最初的那只山羊。Hi-C建库,序列用物理方法打断成300-500bp长度,PE101测序,产生115M reads的数据量。

4

Illumina 数据

采样还是最初的那只山羊,PE251建库测序,获得23X的数据覆盖,用来做最后的错误校正




组装策略及组装结果


先用Pacbio的 long-read 数据构建contig, 使用Celera Assembler PacBio corrected Reads 流程来做组装。获得3,074个contig(2.63G),N50 4.159Mb。

接下来采用Irys optical mapping数据构建scaffold,使用软件为IrysView. 产生了842个scaffold,scaffold N50为13.408Mb,contig N50为10.858M,最长的scaffold为66.728Mb。 利用radiation hybrid (RH) map做比较发现,PacBio-Irys 联合的方法已经完整组装出20号染色体。

接下来用Hi-C数据,调用用Lachesis软件包,结合PacBio-Irys的结果,即整合的PacBio-Irys-PGA (PBIP)方法,获得较完美的组装结果。Scaffold N50 达到惊人的87.347Mb(远超今年尖吻鲈,大猩猩N50 20Mb的高起点),总共获得31条scaffold,(31,261条<50kbp的degenerate scaffold不计入 )。

最后利用Illumina数据做一致性校正和最后的补洞,最后使得contig的数目下降到680条,产生的gap数目为663个。

利用Kraken v0.10.5 去除有病毒和细菌污染的序列,去掉有NCBI vector污染的序列。获得最终的基因组版本ARS1。




图1:组装策略示意图

640[1].jpg



图2:组装策略及数据统计

640[2].jpg



组装评估及比较分析



由于山羊之前已经产生过两个基因组版本CHIR_1.0、CHIR_2.0(参考今日推送的图文2:山羊基因组解读文章),可以用来做比较分析,并且有RH mapping数据用来评估、校正ARS1的组装版本。


通过各种参数比较发现,ARS1均优于CHIR_2.0版本。


1、通过比对发现,CHIR_2.0 比CHIR_1.0有更少的putative deletion(2,735 vs 10,256)和duplication(115 vs 290)。而2.0版本相较1.0有更多的inversion(215 vs 4)。通过比较,发现ARS1版本有大幅度地提升,较2.0版本少4倍的deletion,少50倍inversion。

2、CHIR_2.0能填补CHIR_1.0 94.6%的gap,而剩下的那些gap通过分析ARS1得知,是CHIR_1.0的组装错误,而RH数据也支持了这一论断。

3、BUSCO是利用单拷贝ortholog来评估组装的可靠性,和CHIR_2.0相比,ARS1有更高的BUSCO score。

4、山羊52k SNP 芯片中,有1,723个SNP探针目前只能定位在CHIR_2.0组装版本中的unplaced contigs上。而ARS1版本能把其中的90%(1,552/1,723)以上的SNP探针定位在染色体上。另外发现有26个low call-rate 的SNPmarker在ARS1组装版本上定位比较模棱两可。这也就解释了为什么这些maker在芯片上有较差的call-rate.

5、通过比较发现,CHIR_2.0版本中的3,495个内含子或外显子有gap的基因,在ARS1中都得到补全。同时也确认1,926个预测的外显子在CHIR_1.0或者2.0中有gap,但在ARS1中得到修复。

6、由于免疫基因区高度多态性和重复性,用二代测序数据很难组装起来,但是通过分析发现,ARS1版本就很好地把LRC和NKC基因(免疫功能相关基因)定位在一个独立的常染色体scaffold上。

7、通过和一代、二代组装策略相比,ARS1版本在重复序列的组装上获得了极大的进步。对某些异染色体或异染色质的区域也获得了较好的组装覆盖。比如,在6条常染色体上组装出>5kbp的端粒序列。通过分析发现, 15条染色体scaffold,在着丝粒区域组装出大于2kbp长度的重复区,而其中的7条,更是装出来8kbp以上的重复区。更令人惊讶的是,19号和23号染色体都组装出高度重复的着丝粒和端粒区域,贯通了有结构性异染色质区的染色体。

8、在ARS1版本中鉴定出大于12kbp的重复模式序列多达105条。对于重复序列家族的鉴定,在ARS1中获得的接近全长的BovB LINE 序列比CHIR_2.0多60%以上。在CHIR_2.0版本里,被ARS1成功补全的gap中的43.6%与BovB重复序列一致(长度大于3.5kbp),即意味着二代测序的gap区大多都是重复序列,用三代就能较容易的测通。

9、关于性染色体的分析。通过比对发现,两个不同的scaffold比对到X染色体的不同但连续的区域,占预期X染色体大小(150Mb)的86%左右。通过和自己的、跨物种牛的Y染色体比对,最终确定出10Mb区域的序列,占Y染色体预估大小的50%左右。通过比对牛和羊的Y染色体上的基因,发现在目前的scaffold中能找到16%,而在先前过滤掉的degenerate contig中能找到84%的基因。考虑到Y染色体的异染色质属性及X,Y染色体的拟常染色区域经常发现交换,实在太过复杂,超出目前的组装和认知水平,表示实在无能为力。

10、利用之前RH mapping data,对组装的大部分环节进行了校正及评估。比如多次辅助解决scaffold conflict的问题。



基因组注释


多种方法结合注释基因集。

1.RNAseq的方法: 6个组织(大多和脑组织相关)RNA-seq测序、13个SRA下载数据,利用stringtie、cufflinks和Trinity(基于无参组装)。最后用PASA软件整合在一起;

2.用exonerate和tblastn 软件比对到几个近缘物种的Ensembl基因集上,获得同源预测基因集;

3.用Braker1做Ab initio 预测;

4.CHIR_1.0 版本的注释基因集;

最后用EVM+PASA把以上4种数据整合成一个最终的基因集(设置的权重为RNAseq > cDNA/protein > ab initio gene predictions)。



启示录




1、Pacbio RSⅡ是一个较为理想组装平台,产生平均14Kbp左右的读长,最高到60Kbp,可以组装出较为理想的基因组版本。由于三代的长读长优势,同时可以较好地组装出基因组中大部分高度重复区(主要集中在着丝粒和端粒区域);

 

2、BioNano 的Irys optical mapping 是一种非常有效的,成本比较适中的构建scaffold的平台。和Hi-C比优势在于定位错误较少,缺点是对N50的提高并不是特别显著,一般在2倍左右。如果正反链的Nt.BsqI酶切位点离得比较近,常常导致双链断裂,限制了Optical Map scaffold的大小。所以,BioNano对较长的scaffold效果比较好。由于Optical map和pacbio产生的错误特征并不一样,两者结合,可以相互校正,获得较好的组装指标;

 

3、Hi-C是目前非常火爆的一个技术,在多个领域都有很好的应用。在组装方面,它能获得染色体级别的scaffold,但是也容易获得较高的contig定向错误。这也是为什么文章中,先用optical mapping,后用Hi-C做scaffolding的重要原因之一。作者建议在以后的实验中,可以选择较短的识别位点的限制内切酶(或者DNase Hi-C)来提高Hi-C交联的密度,降低定向错误。

 

4、利用同样的方法和平台,做类似的基因组项目,用Pacbio平台和scaffolding平台,目前大约花费在$100,000上下,而一般的短reads平台测序加scaffolding 平台,只需要其三分之一的价格。但是用Pacbio平台却获得了高质量的、连续性好的基因组序列。目前Pacbio 新一代的sequel平台已经推出,单个cell的产量比RSⅡ提高7倍以上,测序成本将会得到大幅度降低,相信会成为未来基因组研究的主流工具之一。

 

5、本文的研究策略确实会启迪后来的研究者,为de novo组装树立新标杆。Pacbio 测序技术联合多种scaffolding 平台(比如BioNano、Hi-C,mating-pairedlibrary,10X genomics)的使用, 会引领de novo 组装进入 near finished genome 或者finished genome的新时代。

 

6、但是,尽管做了很多努力,ARS1仍然是一个单体型混合型的组装版本。在未来,可以利用single molecule和Hi-C技术获得单体型分期(haplotype phasing)的参考基因组。对于组成型异染色质区,尤其是着丝粒和端粒部分,仍然是组装的盲区,即使在人的基因组中这些区域也没有被完整组装出来。


附表:两种OM的比较

640[1].jpg



关于利用Argus系统的山羊基因组文章解读,见今日推送第二篇。


参考文献:Single-molecule sequencing and conformationalcapture enable de novo mammalian reference genomes


联系方式

山东省济南市 高新区 崇华路359号 三庆世纪财富中心C1115室

电话: 0531-88819269

E-mail: product@genelibs.com

微信公众号

关注微信订阅号,实时查看信息,关注医学生物学动态。