基因云馆新一代信息数据库

知识决定起点,智慧带来突破,欢迎使用新一代生物学、医学数据库。

云馆首页 > 资讯文章 > 新闻资讯 > 文章详情

利用宏基因组序列来确定蛋白质结构

来源/作者:生物通   发表时间:March 24, 2023, 9:03 a.m.   文章热度:4016   


编辑推荐:

1486174005231089364.jpg

  近日,美国华盛顿大学David Baker领导的团队与美国能源部联合基因组研究所(JGI)合作,报道了614个蛋白家族的结构模型,而它们之前没有结构信息。在这项研究中,Baker实验室的蛋白质结构预测服务器Rosetta分析了JGI集成微生物基因组(IMG)系统上的宏基因组序列。

      对于蛋白质而言,外观很重要。当然,这并不是指颜值,而是三维结构。蛋白质是由长的氨基酸链组成的,但一维的氨基酸序列似乎没有意义。只有了解三维结构,研究人员才能弄清蛋白质的结构如何决定它的功能。

       在蛋白质家族数据库Pfam中有接近15,000个蛋白质家族。对于近三分之一(4,752)的家族,每个家族中至少有一种已通过实验确定其结构的蛋白质。对于另三分之一(4,886)的家族,可根据一定程度的置信度建立比较模型。然而,对于另外5,211个蛋白家族,目前没有任何结构信息。

       Sergey Ovchinnikov表示:“大量的蛋白质家族有着很少的序列。这导致没有人关心这些家族,且不能应用协同进化的方法来研究它们。有了宏基因组学,我们发现一些被忽略的家族也有着丰富内容。另外,我们提供这些家族代表性序列的3D模型。我们希望这能激发大家的一些兴趣。”

        有了基因组序列,Baker等研究人员能够鉴定出同时进化的氨基酸,即使它们在未折叠的链上彼此不相邻。这些事件表明,这些氨基酸在折叠蛋白质中是邻居,为研究人员研究蛋白结构提供了线索。结构上的接近可以提示功能关系,以及自然选择在功能上的作用。

        JGI的Nikos Kyrpides表示,Baker实验室与JGI之间的合作让团队提出了一个强大的方法来预测结构和结构比对。“正如预期的那样,当我们增加了宏基因组学数据,利用我们数据库中50亿个组装好的宏基因组序列,我们能够明显增加许多已知蛋白家族的覆盖。”

        研究人员确定了建模所需的序列数量,开发出模型质量的标准,并且在可能的情况下,将预测的接触与已知结构进行匹配来改进建模。这种方法预测出614个蛋白质家族的优质结构模型,其中约140个带有PDB中未出现的折叠。这种方法提供了大蛋白家族的代表性模型,向着蛋白质结构计划的目标迈进了一大步。


原文检索


Protein structure determination using metagenome sequence data

 


联系方式

山东省济南市 高新区 崇华路359号 三庆世纪财富中心C1115室

电话: 0531-88819269

E-mail: product@genelibs.com

微信公众号

关注微信订阅号,实时查看信息,关注医学生物学动态。