2025年3月25日,西湖大学医学院郭天南团队在Cell Research上发表了一篇评述文章,题为“GrowAIVirtualCells: Three Data Pillars and Closed-Loop Learning”,探索了人工智能虚拟细胞(AIVCs)的发展方向。AIVCs的核心概念是在人工智能和多模态数据整合的基础上,打造精确且可扩展的虚拟细胞模型。相较于传统的虚拟细胞建模方法,AIVCs能够更全面地模拟细胞功能,拥有高通量仿真能力,甚至在某些情况下能替代实验室实验。
这篇文章深入探讨了AI虚拟细胞(AIVCs)的构建方法与发展方向,明确提出AIVCs依赖于三项数据支柱——先验知识、静态结构和动态状态,并强调高通量组学数据,尤其是微扰蛋白质组学数据,在动态模拟中的重要作用。此外,研究还提出了闭环主动学习系统(Closed-Loop Active Learning Systems),将AI预测与自动化实验结合,实现自适应优化,从而加速细胞建模及科学发现。为了证实AIVC概念的可行性,研究团队建议从酵母(S. cerevisiae)等相对简单但信息丰富的细胞模型入手,逐步扩展至人类癌细胞系,以促进AIVCs在生物医学、药物研发和个性化医疗中的广泛应用。
在生物医学研究中,细胞是生命的基本单位,对于理解健康、衰老、疾病、药物开发和合成生物学至关重要。然而,传统细胞实验通常需要大量资源,并可能受到变异的影响,导致可重复性问题。因此,研究人员提出了虚拟细胞(Virtual Cells)或数字细胞(Digital Cells)的概念,以降低实验成本,提高研究的准确性与效率。早期虚拟细胞模型主要依赖低通量的生化实验,使用微分方程或随机模拟方法对特定细胞过程进行建模,然而这些方法在数据整合和动态模拟方面存在局限性,难以全面描述细胞的复杂性。随着高通量生物技术和人工智能(AI)的迅速发展,人工智能虚拟细胞(AIVCs, AIVirtual Cells)成为新的研究方向,它结合了多模态数据和高级计算模型,为生物医学研究开辟了新的可能性。
为了更好地支持AIVCs的发展,研究提出了三项数据支柱(Three Data Pillars),这成为AIVCs的核心数据基础:先验知识(apriori knowledge)、静态结构(static architecture)和动态状态(dynamic states)。这些数据结合AI算法,为虚拟细胞的构建提供必要的框架。先验知识包含生物医学文献、分子表达数据,以及多尺度成像数据,涵盖细胞生物学的基本机制。尽管这些数据量大且多样,但信息分散,难以直接用于构建完整的AIVC,因此只能作为基础框架。静态结构是AIVC的第二个支柱,涉及细胞的形态学和分子组成,包括纳米尺度的分子建模等技术。动态状态是构建真实“活”AIVC不可或缺的一项,涵盖生理过程及外部微扰带来的影响,随着高通量组学技术(如转录组学、蛋白质组学、代谢组学)的发展,使得对大量分子在不同细胞状态下的变化进行系统性分析成为可能,从而提高AIVC的准确性。
文章指出,基于微扰的组学数据(perturbation-based omics data),包括转录组学、蛋白质组学和代谢组学,被认为是推动AIVCs发展的关键因素。而在这些数据中,微扰蛋白质组学数据尤为重要。通过AI整合微扰数据,AIVC能更精准地预测细胞如何对外部干预作出反应,为药物开发和细胞建模提供更强的支持。新兴的单细胞组学和空间组学技术也进一步增强了AIVC的动态模拟能力。
AIVCs正在从静态、数据驱动的模型向自适应进化系统发展,其中闭环主动学习系统是关键。与传统方法依赖被动数据积累不同,闭环系统结合AI预测与机器人实验,主动探索细胞动态状态,填补数据空白。这种系统能够自动识别知识缺口、设计实验、执行扰动,并实时优化模型,显著加速科学研究。其核心优势在于高效处理细胞对不同扰动的复杂响应。
AIVC的细胞模型选择对成功至关重要。文章指出,不同的候选细胞各具优缺点,研究人员建议从酵母开始,因为它简单且包含真核细胞结构。虽然人类癌细胞系在医学研究中具有广泛的数据基础,但在动态状态数据方面仍存在空白。因此,从易于操作的酵母出发将为后续研究奠定基础,推动AIVCs在精准医学和药物开发中的应用。
未来,AIVCs预计将在药物开发、疾病建模和基础生物学研究中发挥重要作用,而科学界的合作对于推动这一领域的发展至关重要。因此,建立AIVCs的标准与最佳实践将成为未来研究的重要任务,从而确保新葡萄8883官网AMG能在计算生物学和生物医学研究中实现其变革性潜力。