谷歌 DeepMind 推出 AlphaGenome:让 DNA 解读进入开放科学新时代

7 小时前 15 技术
摘要
AlphaGenome 可通过 API 访问,破解“垃圾 DNA”代码,在关键测试中胜过顶级竞争对手,并让世界各地的实验室都能使用先进的基因组学工具 。
币币情报道:

谷歌 DeepMind 的AlphaGenome的发布不仅仅是一场 AI 科学竞赛中的新里程碑,更是基因组学领域迈向开放科学的重要一步。这款工具不仅提供 API 访问权限用于非商业研究,还附带了丰富的文档和社区支持,并托管在 GitHub 上——这标志着曾经局限于专门实验室和付费数据集的基因组学研究,正迅速向更广泛的科学界开放。

这是一个具有重大意义的进步。

试想一下,你的 DNA 就像一本巨大的说明书,指导着身体如何运作。长期以来,科学家们只能解读那些直接指导身体构建物质(如蛋白质)的部分,而这些部分仅占整个 DNA 的一小部分。其余超过 90% 的 DNA 曾被认为是没有功能的“垃圾 DNA”。然而,现在我们知道,这些所谓的“垃圾指令”实际上发挥着至关重要的作用:它们控制着真实指令的使用时间和地点,就像一个装满开关和旋钮的控制面板。但问题是,这些部分极难阅读和理解。

而这正是 AlphaGenome 的用武之地。

AlphaGenome 是由 Google DeepMind 开发的强大 AI 模型,它比以往任何模型都能更好地解读 DNA 中这些复杂且令人困惑的部分。通过使用先进的机器学习技术(类似于图像生成器或聊天机器人背后的技术),它可以分析长达一百万个字母的 DNA 片段,找出哪些部分重要、它们如何影响基因,甚至预测突变如何导致疾病。

这就像拥有一台超级智能的人工智能显微镜,它不仅能读懂说明书,还能弄清楚整个系统如何开启和关闭,以及当出现问题时会发生什么。

更令人兴奋的是,DeepMind 通过 API(一种与计算机交互的方式)分享了这一工具,使得世界各地的科学家和医学研究人员可以免费将其应用于研究中。这意味着它将加速遗传疾病、个性化医疗甚至抗衰老治疗等领域的发现。

简而言之,AlphaGenome 帮助科学家解读我们之前无法理解的 DNA 部分——这可能会彻底改变我们治疗疾病的方式。

AlphaGenome 是一个深度学习模型,旨在分析 DNA 序列如何调控基因表达及其他关键功能。与以往仅解析短 DNA 片段的模型不同,AlphaGenome 可以处理长达一百万个碱基对的序列——这一前所未有的规模使其能够捕捉到以往方法所遗漏的远距离调控相互作用。

AlphaGenome 的核心优势在于其多模态预测引擎。与以往只能预测单一基因组活动的模型不同,该模型能够输出高分辨率的基因表达(RNA 测序、CAGE)、剪接事件、染色质状态(包括 DNase 敏感性和组蛋白修饰)以及 3D 染色质接触图的预测。

这使得它不仅有助于精确定位细胞中哪些基因被开启或关闭,而且有助于理解基因组折叠、编辑和可及性的复杂编排。

该架构非常引人注目,但如果您在本地使用过 Stable Diffusion 或普通的开源 LLM,那么它仍然非常熟悉:AlphaGenome 使用受 U-Net 启发的神经网络,具有大约 4.5 亿个可训练参数。

尽管与那些处理数十亿个参数的语言模型相比,这个数字相对较低,但考虑到 DNA 只包含 4 种碱基和 2 对碱基(A-T 和 C-G),它是一个高度专业化的模型,旨在将一件事做到极致。

该模型包含一个序列编码器,可将输入从单碱基分辨率下采样到更粗略的表示,然后,Transformer 模型将长距离依赖关系分层,最后由解码器将输出重构回单碱基级别。这使得模型能够以各种分辨率进行预测,从而实现细粒度和广义的调控分析。

该模型的训练依赖于大量公开可用的数据集,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5——这些资源共同代表了人类和小鼠细胞类型的数千个实验概况。

而且这个过程也相当高效:使用谷歌的定制 TPU,DeepMind 仅用四个小时就完成了预训练和蒸馏过程,使用的计算预算仅为其前身 Enformer 的一半。

AlphaGenome 在 24 项序列预测测试中的 22 项,以及 26 项变异效应预测中的 24 项,均超越了最先进的模型。在渐进式改进为常态的基准测试中,AlphaGenome 的表现罕见地全面领先。事实上,它的性能非常出色,甚至可以比较突变和未突变的 DNA,并在几秒钟内预测出基因变异的影响——这对于研究人员绘制疾病起源图谱至关重要。

这很重要,因为非编码基因组包含许多控制细胞功能和疾病风险的调控开关。像 AlphaGenome 这样的模型正在揭示人类生物学在多大程度上受到这些先前不透明区域的控制。

人工智能对当今生物学的影响不容忽视。以 Ankh 为例,蛋白质语言模型由慕尼黑工业大学、哥伦比亚大学和初创公司 Protinea 的团队开发。Ankh 将蛋白质序列视为语言,生成新的蛋白质并预测其行为——类似于 AlphaGenome 翻译 DNA 调控“语法”的方式。

另一项相邻的技术,Nvidia 的 GenSLM展示了人工智能预测病毒突变和聚类基因变异以用于流行病研究的能力。同时,人工智能的应用促进了化学和基因疗法的进步。抗衰老干预措施突出基因组学、机器学习和医学的交叉点。

AlphaGenome 最重要的贡献之一是其易用性。该模型并非仅限于商业应用,而是可以通过公共 API 进行非商业研究。

虽然它尚未完全开源——这意味着研究人员无法在本地下载、运行或修改它——但其 API 和配套资源允许世界各地的科学家生成预测,针对不同物种或细胞类型调整分析,并提供反馈意见以完善未来的版本。DeepMind 已表示计划在未来推出更广泛的开源版本。

AlphaGenome 能够分析非编码变异(大多数与疾病相关的突变都发生于此),这或许能为遗传性疾病和罕见疾病带来新的认识。其高速变异评分技术也支持个性化医疗,即根据个人独特的 DNA 谱量身定制治疗方案。

目前,非编码基因组已不再是黑匣子,人工智能在基因组学中的作用也只会不断扩展。AlphaGenome 或许无法成为引领我们进入赫胥黎笔下“美丽新世界”的典范,但它清晰地预示着未来的发展方向:更多数据、更精准的预测,以及对生命运作方式更深入的理解。

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥5,373.30亿
2 欧易OKX欧易OKX ¥2,305.52亿
3 HTXHTX ¥410.33亿
4 CoinbaseCoinbase ¥122.00亿
5 芝麻开门芝麻开门 ¥1,598.96亿
6 BitgetBitget ¥1,566.62亿
7 BybitBybit ¥1,749.24亿
8 UpbitUpbit ¥78.47亿
9 Crypto.comCrypto.com ¥275.79亿
10 BitfinexBitfinex ¥6.02亿