您的位置: 游戏资讯 > 游戏问答

让所有人能做蛋白质结构预测,华为昇思MindSpore最新成果将开源

来源:头条 浏览:0 2023-01-01 13:11:01

机心报道

作者:机心编辑部

华为推出全过程蛋白质结构预测工具mega-protein ( mindsporeforevolutionarygenerationassessmentprotein ),其中业界首款AI MSA引擎是蛋白质结构

让所有人能做蛋白质结构预测,华为昇思MindSpore最新成果将开源

日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心( BIOPIC )和化学与分子工程学院、深圳湾实验室高毅勤教授组成项目团队,在中国计算力网智计算网关键——西安未来人工智能计算中心腾达AI的强大计算力支持下

MEGA-Protein包括AI MSA引擎、蛋白质折叠训练推理过程、蛋白质结构评分、蛋白质结构预测数据集PSP等关键技术,该工具可提供高精度高性能的蛋白质结构和功能预测,其中AI MSA 另外,在MSA较少的样本( few shot )或零样本( zero-shot,即单一序列)的情况下,可以辅助场2等的模型的维持、)提高的推理精度的维持,"孤儿配置

在团队通过升腾AI的底层软硬件平台完成了从Alpha Field 2训练到推理的全过程,效率比上年提高了2倍到3倍之后,这又一次获得了成功。 相关代码和模型参数随后在MindSpore社区开放源代码化,算法和相关论文也将尽快公开。

印度体育首席架构师金雪锋表示,“这项工作是产业界合作的巨大成功实践,也是科学计算与人工智能结合潜力的展示。 “支持多元计算范式的MindSpore将有效提高科研活动的生产力,大幅提高科学计算场景的性能,并期待今后出现更多、更好的成果。”金雪锋补充说。

高性能蛋白质结构预测引擎AI MSA解决“孤儿序列”问题

蛋白质是生命活动中最主要的功能体之一,在人体结构和功能中起着核心作用。 然而,能够解析蛋白质结构的实验手段一般昂贵且周期长,很难直接通过它们探索整个“蛋白质宇宙”。

蛋白质的3D结构完全由构成它的氨基酸序列决定。 ( 1972年由诺奖获奖者Christian Anfinsen通过实验证明。 )这从理论上确认了存在将氨基酸序列x映射到其3D结构y的“理想函数”。 因此,蛋白质结构预测问题被转化为典型的数学建模问题。 阿尔法场2是迄今为止人们能找到的、与“理想函数”最接近的模型。

然而,为了实现高精度预测,阿尔法场2必须引入额外的信息,即蛋白多序列比对( MSA )。 有多少MSA可用直接决定了模型的预测精度,例如alpha字段。

图1 .阿尔法场2的预测精度在可用MSA的数目不足时显着降低。 图片来源:阿尔法场2论文

但自然界中仍然存在许多“孤儿序列”,例如人类蛋白质组中的许多蛋白质和大量病毒等其他抗原相关蛋白质,存在MSA不够深的问题。 此外,在蛋白质设计领域,经常面临MSA不能用于人工序列的情况。 在这些情况下,诸如alpha field 2之类的模型对相关结构的预测精度大幅下降,并且不再适用。

另一方面,AlphaFold 2等标准的MSA检索过程是在数据库中利用检索工具对目标蛋白质和相关序列进行多序列比对,需要构成数据库。 其中,数据库规模约为1.3T左右,构成耗时繁琐,且使用HHblits、JackHMMER、MMseqs2等数据检索工具进行检索耗时长,不利于科研

(由MindSpore社区和昌平实验室、北京大学生物医学前沿创新中心( BIOPIC )和化学分子工程学院、深圳湾实验室高毅勤教授项目团队新倡导的AI MSA引擎,原创MSA质量不高或偏少下图:

图2 .不同方案下预测的蛋白质结构效应对比图

图3 .零样本预测精度的比较

此外,端到端推理性能比AlphaFold 2标准检索过程提高约40倍,比MMseqs2提高约5倍,可以大大提高结构预测模型的推理通量,训练后的AI MSA引擎不需要额外配置数据库。

图4. AI MSA引擎相关性能比较图

团队表示,AI MSA引擎对下游结构模型是普遍的预训练方案,避免了微调,直接访问下游结构预测模型,如AlphaFold、RoseTTAFold等,科研人员可以进行蛋白质结构预测、蛋白质设计、蛋白质相互作用

北京大学讲师李兆基谢晓亮表示,基于创新自研的AI MSA引擎和升思MindSpore的蛋白质结构预测程序开源表明,我国在世界蛋白质结构预测领域名列前茅,这一显著进步得益于高毅勤团队的关注

支持升腾AI基础软硬件平台、升思MindSpore AI框架、AI for Science研究新范式

AI MSA引擎的训练参数量有47M,数据量合计达到4.4T,对其训练对框架提出了不少要求。 升思MindSpore在升AI基础软硬件平台上与升CANN深度结合,通过深度协同优化的高性能算子库,充分释放了硬件的计算能力。

升思MindSpore采用多级并行流水线方式构建数据处理pipeline,更精细地规划NPU、CPU等计算资源的使用,天然支持各级异构硬件流水处理,大大提高了数据处理过程的吞吐量

同时,升思MindSpore支持大集群的高效训练,实现了优质的计算通信比,并通过三层AI分布式编程范式(手动并行、半自动并行、全自动并行),大大提高了分布式并行程序的开发效率。

相关代码和模型参数随后在MindSpore社区开放源代码化,算法和相关论文也将尽快公开。 小组还公布了第一个具有高覆盖度和多样性的百万级蛋白质结构预测数据集PSP。 该数据集由570k个真实结构序列( 10TB )和745k个互补蒸馏序列( 15TB )组成。 升思MindSpore可以基于此数据集进行蛋白质结构预测训练,同时提供了丰富的处理和使用此数据集的接口,欢迎试用。

详情请参阅https://arxiv.org/pdf/2206.12240.pdf

相关工作

MindSpore Science开源路径https://gitee.com/mindspore/mindscience升思mind spore最新成果开源:高毅勤项目团队提供高性能蛋白质结构预测工具https://biopops 发表的517695.htm升思MindSpore再突破:蛋白质结构预测训练推理全流程开源生物医药助力发展https://ICG.pku.edu.cn/xwzx/kycg/520034.htm升思维

3359 gitee.com/mind spore/mindscience

和平精英体验服官网「V3.02」IOS版

和平精英体验服官网「V3.02」IOS版

  • 分类:资讯阅读
  • 大小:17MB
  • 语言:简体中文
  • 版本:V3.02