人工智能在药物研发和生物技术中的应用:回顾与展望

人工智能(Artificial intelligence, AI)的出现正在重新塑造整个制药和生物技术行业的发展。几乎所有大大小小的生命科学和药物发现机构,都对采用人工智能驱动的发现平台表现出浓厚的兴趣,希望通过AI来简化研发工作,减少发现时间和成本,并提高效率。

许多大的制药公司,如J&J、GSK、AstraZeneca、Novartis、Pfizer、Sanofi、Eli Lilly等,都对人工智能技术进行了大量投资,包括股权投资、收购或与专注于人工智能的公司合作、建立内部能力,或结合各种方法。同时,有一波新型的药物发现和生物技术公司作为以人工智能为中心的组织而建立。这些公司大多在过去十年内成立,已经建立并测试了专门的人工智能驱动的药物发现平台。已经有一批由人工智能开发的候选药物进入临床试验或即将进入临床试验。

许多人工智能公司开始使用复杂的多模态数据建立生物学模型,其规模在二十年前是无法想象的。还有一组公司开发了人工智能驱动的平台,以提高操作效率和临床试验的实验设计或现实世界的数据分析(如药物警戒)。

许多科技公司,如Alphabet、微软、亚马逊、IBM、百度、华为和腾讯等,在人工智能和大数据技术方面具有能力和专长,也在进军药物发现领域,通过投资、创办初创公司、与生命科学公司合作、实验、创新等。

最后,其他前沿技术,如量子计算、低温冷冻电镜、DNA编码化合物库等,也取得了重大进展。这些技术与人工智能趋势相融合,不仅产出了新型的工具、产品和服务,也带来了一波新的创业公司,甚至是新的商业模式。

显然,AI被广泛应用于制药行业的几乎每一个环节,从数据挖掘、生物建模、靶标发现到候选化合物确证和临床前及临床研究。它还被用于合成规划、试剂和研究消耗品的智能搜索,以及智能实验室笔记本和虚拟助手等辅助任务。

2022年人工智能药物研发投资状况

如果说2021年是生物技术行业在风险投资交易额方面异常成功的一年,那么2022年则表现出金融活动的明显降温,股票市场的表现完全不佳。

然而,药物研发领域的AI表现出一定的弹性,至少在私募股权交易领域是如此,有几家公司筹集了数亿的风险资本。一些例子包括位于北京的MegaRobo Technologies(3亿美元的C轮融资)、位于马萨诸塞州的ConcertAI(1.5亿美元的C轮融资)、和Celsius Therapeutics(8300万美元的A轮融资)、位于香港的Insilico Medicine(9500万美元的D轮融资)、位于加州的BigHat Biosciences(7500万美元的B轮融资)和DeepCell(7300万美元的B轮融资)等。     

并购(M&A)方面,最近有一项引人注目的交易,涉及生物技术巨头Ginkgo Bioworks收购Zymergen的交易,Zymergen的估值为3亿美元。这次收购将Zymergen的机器学习和数据科学能力与Ginkgo的合成生物学平台结合起来。

人工智能驱动的生物建模和靶标发现

药物研发中,确定新的药物靶标对于开发新的first-in-class药物至关重要。过去几十年的药物发现工作,传统上是以具有适当 "口袋 "的特定蛋白质为靶标,配体分子结合靶标产生影响。但在所有人类蛋白质中,只有少数蛋白质被作为靶标进行探索。目前在Swiss-Prot中有20,360个人类蛋白质,根据OMIM数据库,其中约有4,600个已知参与了疾病机制,约占在疾病中发挥作用的人类蛋白质的22%。这些蛋白质是人类蛋白质组中可能包含可行的药物靶标的明显区域。然而,截至2017年,只有约890个人类和病原体衍生的生物大分子(主要是蛋白质)被现有的FDA批准的药物实际利用。这些生物大分子包括667个人类基因组衍生的蛋白质被药物用于治疗人类疾病。今天的情况没有什么不同,所以在这个池子里仍有很大的空间来确定新的靶标。基于人工智能技术的新型计算方法可以大规模地识别新的可成药蛋白质口袋,有时还可以进行全蛋白质组的虚拟筛选。但更令人兴奋的是,先进的建模工具有助于识别和调控新型靶标,如蛋白质-蛋白质相互作用、具有大接触面积的靶点、蛋白质-核酸相互作用以及下一代靶点,如利用细胞的蛋白降解机制。

很多人工智能驱动的公司专注于建立生物学模型,发现和验证新的靶标,并向其他组织提供 "疾病模型服务 "或 "靶标发现服务"。对这种合同研究服务的需求正在上升,这反映在越来越多的靶标发现伙伴关系上。例如,2022年9月,一家位于以色列的生物建模公司CytoReason宣布与辉瑞公司扩大1.1亿美元的合作。这两家公司于2019年开始合作,当时辉瑞公司开始在研究中使用CytoReason的生物模型,旨在开发免疫介导的疾病和癌症免疫疗法的新药。2022年5月,阿斯利康宣布与英国人工智能驱动的药物发现领导者BenevolentAI的合作中收集了第二个肺纤维化靶标。仅仅几个月后,在2022年10月,BenevolentAI成功地为阿斯利康的研发提供了另外两个人工智能生成的靶标,靶标是慢性肾脏疾病和特发性肺纤维化。

2022年11月,总部位于香港的Insilico Medicine与赛诺菲公司签署了一项价值12亿美元的潜在交易,利用Insilico Medicine的 "Pharma.AI "平台发现多达六个新靶标。

总而言之,基于人工智能的先进建模方法有助于重新定义生物靶标,因为我们试图将药物反应与遗传变异联系起来,了解分层的临床疗效和安全性,合理安排同一治疗类别的药物之间的差异,并预测药物在病人亚群中的效用。

用AI破解结构生物学难题

2022年生命科学界讨论最多的人工智能相关话题之一是Alphabet在英国的子公司DeepMind最近取得的成功,该公司因成功破解蛋白质折叠问题而受到广泛报道,这是一个有半个世纪历史的生物问题。2022年7月,DeepMind的深度学习软件AlphaFold预测并公开分享了超过2亿种蛋白质的结构,已经证明了其人工智能系统仅从其一维氨基酸序列就能准确预测三维结构的惊人能力。虽然有人认为,这一发现可能(还)不会像人们假设的那样在药物发现方面有如此大的变革作用,而且AlphaFold在预测细菌蛋白质-抗菌化合物相互作用时的表现并不比偶然性好多少,但这一发现对于结构生物学和说明人工智能在基础生物学研究中的潜力来说,无疑是改变了范式。

2022 年 11 月,DeepMind 在蛋白质组建模方面取得的突破性成功与 Meta(前身为 Facebook)的研究人员展开了竞争。Meta的研究人员使用 AI 来预测来自细菌、病毒和其他尚未表征的微生物的大约 6 亿种蛋白质的结构。Meta 的科学家们使用了一种完全不同的人工智能方法——“大型语言模型”,这是一种可以根据几个字母或单词预测文本的人工智能。自然语言模型 (NLP) 通常在大量文本上进行训练。然而,一维蛋白质序列本质上是字母串,因此 NLP 可以像处理人类语言一样应用于此类问题。 

有趣的是,蛋白质折叠方面的这种重大技术飞跃可能会被证明对新的蛋白质设计更有用,而不是简单地对现有蛋白质的结构进行建模以发现药物。时间会告诉我们影响最大的地方,但DeepMind和Meta的上述成功并不是2022年结构生物学家唯一令人兴奋的发展。在上月举办的CASP15大赛中,已经有相当一部分计算机软件,如密歇根大学的D-I-TASSER等,在预测精度方面,已经明显超过AlphaFold。

最近,冷冻电镜的快速发展,加上人工智能技术,诞生了新一波生物技术初创企业,如Gandeeva Therapeutics、Septerna和MOMA Therapeutics。冷冻电镜领域正在升温,生物技术初创公司吸引了众多投资者的关注,从小型风险机构到TikTok的所有者和互联网技术巨头ByteDance,都在投资水木生物科学。这种兴趣不仅是由革命性的诺贝尔奖技术推动的,也是由积极招募人工智能参与这一过程推动的。最近发表的 "用于细胞提取物结构研究的人工智能辅助低温电镜管线 "强调了人工智能在复杂的低温电镜管线中不可替代的作用,包括人工智能驱动的原子模型预测,以快速和同时研究多个蛋白质的结构。机器学习不仅有助于加快和优化低温电镜管线,而且还能避免用户偏见的陷阱。

利用AI开发小分子药物

疾病建模和靶标发现之后,分子设计是将人工智能应用于药物发现的第二大用例。 人工智能驱动的药物设计主要分为三大类:从头药物设计、现有数据库的虚拟筛选和药物再利用。从头药物设计主要由深度生成学模型实现。生成式 AI 平台的一些示例包括 Insilico Medicine 的 Chemistry42 软件、Iktos 的 Makya 和 Ro5 的 De Novo Platform。此类别中的其他参与者包括 Recursion Pharmaceuticals、Deep Cure、Standigm 等。 

应用人工智能赋能的超大规模虚拟筛选,从数十亿分子中筛选出成功的苗头化合物。2022 年 8 月,赛诺菲与 Atomwise 合作进行了一项价值可能高达 12 亿美元的药物设计交易。这笔交易将使赛诺菲预付 2000 万美元,重点是利用这家美国公司的 AtomNet 平台研究赛诺菲选定的多达五个药物靶标的小分子。根据公告,基于卷积神经网络的 AtomNet 擅长基于结构的药物设计,能够“快速、人工智能地搜索 Atomwise 的超过 3 万亿种可合成化合物的专有库”。  

最后,许多公司正在使用再利用策略来发现支持 AI 的药物。这一类别的公司,包括 Healx、BenevolentAI、BioXcel Therapeutics,主要使用自然语言处理 (NLP) 模型和机器学习,并通过分析大量非结构化文本数据——研究文章和专利、电子健康记录 (EHR)、以及其他数据类型——构建和搜索“知识图谱”。这种支持 AI 的可搜索本体允许为先前已知的候选药物甚至批准的药物选择新的适应症或患者群体。  

最后,一些公司正在使用再利用策略进行人工智能药物发现。这一类的公司,包括Healx、BenevolentAI、BioXcel Therapeutics,主要使用NLP模型和机器学习,通过分析大量的非结构化文本数据:研究文章和专利、电子健康记录(EHR)以及其他数据类型来建立和搜索 "知识图谱"。

人工智能与DNA编码化合物库的结合

一个有点独特的药物设计方法是使用DNA编码化合物库(DELs)作为新分子的来源来进行搜索。由于DEL技术提供了对市场上最大化学空间的访问,这种大数据技术自然适合基于人工智能的工具。

2020年发生了一笔引人注目的交易,当时由Daphne Koller创立的机器学习药物发现应用的著名企业之一Insitro收购了Haystack Sciences。Haystack基于机器学习平台结合了他们DEL技术的多个要素,包括合成广泛、多样的小分子集合的能力,执行迭代跟进的能力,以及一种名为nDexer™的专有半定量筛选技术,产生更高分辨率的数据集。

反过来,ZebiAI在2021年被另一家著名的人工智能药物发现平台开发商收购,这是一家处于临床阶段的生物技术公司Relay Therapeutics,Relay支付了8500万美元的预付款。这次收购让Relay将ZebiAI基于机器学习的DEL技术纳入他们的蛋白质靶向平台Dynamo。 

超越小分子的人工智能驱动的药物设计

考虑到应用于药物发现的现代人工智能工具在化学信息学和上个世纪早期基于机器学习的 QSAR 模型中有着深厚的历史渊源,药物发现领域的绝大多数人工智能初创公司都专注于小分子也就不足为奇了。

然而,生物大分子药物(又称 "生物制品")和新型化学模式在制药领域越来越丰富,应用基于人工智能的方法来发现这些的新生物技术公司也是如此。2003年科学家破解了人类基因组后,可成药和可开发性空间迅速发展。在上个世纪,Lipinski’s五项规则(Ro5)曾经作为 "传统 "类药性目标空间中口服给药的类药分子设计的 "指路明灯"。相比之下,新类型的靶点,如蛋白质-蛋白质相互作用、具有大接触面积的靶点、蛋白质-核酸相互作用,以及下一代靶点,如利用细胞的蛋白质降解机制,正在推动各种新兴分子模式的出现。即超越Ro5(bRo5)的小分子、PROTACs、单克隆抗体(mAbs)、肽和拟肽剂以及基于核酸的方式(RNA和DNA),已成为药物发现的重点。 

第一波AI开发的候选药物进入临床阶段

虽然现在说人工智能在制药业的应用彻底改变了药物发现,可能还为时过早,但一些 "人工智能原生 "公司确实设法在快速建立其治疗管线方面获得了显著的效率。这些公司的一个共同特点是什么?每个人都建立了一个专门的、高度集成的人工智能平台,包括许多模型和数据源。一些平台还可以作为软件即服务提供给外部研发伙伴,如Chemistry42。

业界看到的受益于 "数字优先 "战略的最生动的例子之一是Moderna Therapeutics公司,它不仅设法将尖端的人工智能分析纳入其研究,而且将其研发工作流程的每个方面都数字化和集成化,包括生产和分销。当COVID-19大流行病在2020年初袭击世界时,Moderna是第一批能够在短短2天内拿出高效的基于mRNA的疫苗并在一年内将其推向市场的公司之一。由人工智能促成的一波疗法发现的成功表明,人工智能公司有能力比过去类似项目所需的时间更快提出候选药物。

未来的AI和机器人化的实验室

深度学习模型极度“数据饥渴”,这意味着无论 AI 有多好,数据的质量和大小对于有意义的研究预测同样重要。生成高质量生物学数据的最有效方法是使用机器人技术。如果我们将现代人工智能驱动的药物发现转型视为一个循序渐进的过程,那么广泛可用且相对具有成本效益的机器人将是人工智能驱动的制药和生物技术研究产业化的最后一块关键。

一些公司正在建设标准化、高度自动化、可扩展且兼容性越来越强的实验室设施,这些设施以基于人工智能的实验控制系统为指导,并辅以人工智能驱动的数据挖掘和分析能力。这种“下一代”实验室设施正变得可供临床前药物研究实验人员远程使用,使临床前实验成为更具可扩展性和标准化的程序。该空间正在吸引风险投资和客户。例如,2022 年 2 月,总部位于英国的 Automata Labs 筹集了 5000 万美元以实现实验室研究过程的自动化。2021 年 7 月,Strateos 筹集了 5600 万美元,用于进一步改进其 SmartLab 平台及其远程机器人化、自动化技术,可供全球临床前研究人员使用。Culture Biosciences 总共筹集了超过 1 亿美元的资金,最新的 B 轮融资是在 2021 年 11 月宣布的 8000 万美元。总部位于旧金山的 Emerald Cloud Labs (ECL) 多年来筹集了超过 9000 万美元。ECL 的 remove 机器人平台的早期用户报告了 300% 到 700% 的改进在研究生产力方面。2022 年 6 月,总部位于北京的 MegaRobo 筹集了 3 亿美元,以扩大其多样化的自动化 AI 驱动远程实验室服务和机器人化设施。 

远程机器人化实验室的兴起是一个长期的行业趋势,这是一种提供合同研究服务的新方式,对于长期采用以数据为中心的“AI 优先”研究策略极为有利。 一些领先的人工智能药物发现公司,如Exscientia和Insilico Medicine,现在也在建立内部机器人化实验室,以建立其内部数据生成 "肌肉"。

用AI解决临床试验的瓶颈

临床试验是药物开发工作流程的关键阶段,从 Phase 1 到批准的候选药物的平均成功率估计约为11% 。即使候选药物安全有效,临床试验也可能因资金不足、入组人数不足或研究设计不佳而失败。 

人工智能 (AI)越来越被视为提高临床试验运营效率和最小化临床开发成本的机会来源。通常,人工智能供应商在三个主要领域提供服务和专业知识。第一个领域的 AI 初创企业通过应用自然语言处理 (NLP),帮助从不同的数据源(如科学论文、医疗记录、疾病登记,甚至医疗索赔)中解锁信息。这可以支持患者招募和分层、地点选择,并改进临床研究设计和对疾病机制的理解。

临床试验成功的另一个方面是改善患者分层。由于试验患者的费用昂贵——2017 年招募一名患者的平均费用为15,700-26,000 美元——因此必须能够预测哪些患者将从治疗中获得更大的益处或风险。AI 驱动的公司使用多种数据类型,例如电子健康记录 (EHR)、组学和成像数据,以减少人口异质性并提高临床研究能力。供应商可以使用语音生物标志物来识别神经系统疾病的进展,使用成像分析来跟踪治疗进展,或使用遗传生物标志物来识别症状更严重的患者。

人工智能还在简化临床试验的操作流程。人工智能供应商帮助在家中跟踪患者的健康状况、监测治疗反应以及患者对试验程序的依从性。通过这样做,人工智能公司降低了患者退出的风险,平均占30%。通常,3 期临床研究阶段需要1000-3000名参与者,其中一部分服用安慰剂。工智能模型可以取代个体的安慰剂对照组,从而减少临床试验所需的个体数量,可能成为一种新趋势。

尽管生物技术领域的整体投资环境冷淡,但对支持 AI 的临床试验平台的需求以及该领域的投资仍然很高。

CRO中的人工智能

临床前和临床领域新型 AI 原生合同研究公司的出现挑战了主要成熟合同研究组织 (Contract research organizations, CRO) 的现状。他们通过将 AI 纳入他们向制药公司提供的服务或与 AI 公司合作来补充他们的研究能力。

IQVIA 多年来一直投资于 AI,以增加其为客户提供的临床试验和商业活动的价值。例如,为了改进临床试验,IQVIA于 2020 年推出了Avacare Clinical Research Network™,该网络允许站点更快、更有效地为试验匹配患者。该平台由 AI 算法提供支持,可以在 19 个疾病领域运行。此前,IQVIA 的另一款 Linguamatics 自然语言处理 (NLP) 平台获得了 Questex 的 2019 Fierce Innovation Awards。该平台可以在医疗保健和生命科学领域拥有广泛的应用,包括靶标识别、基因定位、预测患者结果等。

临床研究行业的一个重要趋势是运行虚拟临床试验,这是一个价值 80 亿美元的市场。COVID-19 大流行迫使制药公司转向远程监控、改进患者登记、跟踪患者参与度的应用程序、远程医疗、权力下放以及其他保持试验运行的措施。由于对此类解决方案的需求显着增长,CRO 急于为其服务产品添加虚拟和去中心化功能。事实证明,人工智能技术在创建和运行此类项目以帮助合成数据和加快临床试验过程方面具有无可估量的价值。 

科技巨头追捧药物研发和生物技术

 前面提到的 Alphabet 的 DeepMind 和 Meta 在解决基础生物学研究难题方面的成功,例如使用深度学习和语言模型大规模预测蛋白质结构,只是冰山一角:几乎每个领先的技术巨头现在都在生命科学行业倾注力量。 

Alphabet(谷歌母公司)投资了数十个生命科学项目,包括基于人工智能的试剂搜索引擎BenchSci、个人基因组学公司23andMe,以及人工智能驱动的药物开发独角兽 OWKIN等。2021年,Alphabet联合DeepMind推出Isomorphic Labs,专注于应用人工智能破解基础生物学和药物发现。 除了药物研究和生物技术领域的多个其他项目和活动外,Alphabet 还拥有一个全面的实体 Verily,致力于生命科学和 MedTech。 

微软是一家全球软件开发商,在生命科学领域有着深厚的影响力,与大型制药公司进行了数十项研究合作,提供其基础设施以使用大规模机器学习模型处理大数据。微软的最新举措 包括 MoLeR 模型,这是该公司的生成化学团队与诺华公司合作开发的一种新工具。与其他生成工具不同,MoLeR 模型使用深度学习根据给定的骨架提出新结构,该骨架充当生成过程的初始基础。另一个例子是 AI4Science,微软的一项新事业结合了计算化学、量子物理学、机器学习、分子生物学、流体动力学和软件工程,以实现所谓的科学“第五范式”的愿景。 

这方面特别活跃的公司是游戏行业和个人电脑的硬件生产商 NVIDIA。这家科技公司推出了 Clara Discovery,它是框架、应用程序和 AI 模型的集合,支持 GPU 加速药物发现,支持基因组学、蛋白质组学、显微镜、虚拟筛选、计算化学、可视化、临床成像和自然语言处理 (NLP)。2022 年 3 月,该公司推出了 Clara Holoscan MGX™,这是一个供医疗设备行业在边缘开发和部署实时 AI 应用程序的平台,专为满足所需的监管标准而设计。Clara Holoscan 旨在提供一体化的医疗级参考架构以及长期软件支持,以加速医疗设备行业的创新。

AI在药物发现中的未来:所有东西都是 "量子"

大多数用于药物发现和生物学研究的软件工具都依赖于分子力学——分子的简化表示,本质上将它们简化为“球棒”:原子和它们之间的键。这样,计算起来更容易,但准确性会受到很大影响。为了获得足够的准确性,必须考虑原子和分子的电子行为,即考虑亚原子粒子——电子和质子。这就是量子力学 (QM) 方法的全部意义所在——该理论并不新鲜,可以追溯到 20 世纪初期。  然而,量子方法的计算成本异常高——而且直到最近几十年,它一直是量子理论影响事物实际方面的一个令人望而却步的障碍。由于可用计算能力呈指数级增长,量子方法终于成为科学家手中有价值的工具。 

另一个更具未来感的技术趋势,利用量子理论,涉及创建量子计算机。随着量子理论几十年的进步以及多个软件和硬件领域的同步进步,我们终于进入了量子计算机变得实用的时代。当我们处于量子计算的早期阶段时,一些公司已经将量子计算的元素整合到计算药物发现中。 

参考文献:

https://www.biopharmatrend.com/post/615-pharmaceutical-artificial-intelligence-key-developments-in-2022/

本文链接:https://my.lmcjl.com/post/7525.html

展开阅读全文

4 评论

留下您的评论.