对于加州理工学院 (California Institute of Technology) 的资深研究员 Matt Thomson 来说,研发癌症治疗方案主要的挑战在于大数据。他们需要将机器学习 (ML) 模型大规模应用于患者数据,从而为难以治愈的肿瘤找到新的疗法。
Thomson 知道,如果他们能够利用身体自身的免疫系统来攻击肿瘤,就可以治愈癌症。但对于一些十分难以治愈的癌症,这种策略无效。因此,他们现在使用机器学习来判断所有与患者相关的数据是否有效,再据此设计新的疗法。
Thomson 是加州理工学院单细胞分析与工程中心的首席研究员,该中心有着“Thomson 实验室”的外号。Thomson 与他的团队主要整合和分析广泛的可变数据集,从而在一种称为“蛋白质工程”的过程中,构建和应用大型语言机器学习模型。
这些模型包含了多达 1000 亿个参数,这些参数需要分布式计算方面的专业知识来大规模托管、运行和微调。每个模型必须在蛋白质设计测试周期中运行数千次。蛋白质设计需要的不仅仅是单一模型,而是专门用于下游应用的模型库,例如免疫调节(减少或增强免疫反应)和热稳定性(物质在受到中等程度的热量时保持其特性的能力)。Thomson 实验室所面临的挑战是获得运行和测试模型所需的高性能计算 (HPC) GPU。
Thomson 表示,一个 GPU 不足以运行 1000 亿个参数。如果要获得足够的弹性 HPC 资源,就需要签订多年合同。但在学术界,他们几乎不可能获得这种程度的资助。
一直以来,独立研究人员和研究机构会构建自己的一次性计算机来进行这类研究工作,但这些计算机在几个月内就会过时了。最近,Thomson 实验室使用加州理工学院自己的 HPC 集群,但随着研究不断推进,即使是这些强大的资源也不足以支持研究的需求。
有鉴于此,Thomson 转而选择云技术。Thomson 实验室首次尝试与知名云基础设施提供商合作,但该计划却因为隐藏成本和内部管理负担而停滞不前。随后,Thomson 通过人脉找到了 Oracle AI 和 ML 团队成员,双方针对在 Oracle Cloud Infrastructure (OCI) GPU 实例上创建和测试模型,共同设计了一个概念验证 (PoC)。
“By having ready access to the latest GPU instances on OCI, it is both possible and practical to enable researchers to leverage the latest technology.This may soon make on-premises HPC clusters obsolete for this type of research.”
补充一个背景信息:对于每个模型,在训练模型时,大约 20 TB 的总数据库中的 80 GB 数据会被导入并存储在 GPU 内存中。在概念验证中,所创建的模型有 1000 个。以前,Thomson 实验室每次测试只能创建 10 个模型。
Thomson 表示,Oracle 团队在概念验证期间与实验室密切合作,并将继续兑现帮助实验室推进研究工作的承诺。其他供应商会通过各种奖励来鼓励客户注册,但没有兴趣与他们这种规模的组织合作。
生物研究需要将越来越多的数据与无数新的数学模型整合在一起。一直以来,研究界并未依赖于专业级数据库,而是选择使用廉价的开源数据库服务。
例如,Thomson 实验室需要处理 100 多个数据集,这些数据集包含了多达 1000 万行和 30000 列,每周生成约 20 TB 的新数据。目前,这些数据集以 CSV 文件的格式单独存储在本地硬盘驱动器上。但是,如果缺乏一个可以存储加州理工所有数据集(以及其他研究机构的数据集)的数据存储和管理系统,机器学习模型就无法使用所有可用和相关信息来进行训练。
因此,Thomson 实验室希望在未来与 Oracle 合作开发一个包含所有数据集的数据存储和管理系统,同时让任何机构的研究人员都可以动态访问这些数据集。
Thomson 乐观地认为,加州理工学院与 Oracle 的合作将能够在癌症研究和护理领域取得突破性进展。
Thomson 表示,所需的工具都已齐全。该实验室希望与 Oracle 合作,将所有数据整合在一起,通过双方同意的货币化模式在经济方面达成共识,这不仅适用于加州理工学院,也适用于其它类似的组织。此次合作将成就无限可能。
研究人员在 OCI 上以双倍速度运行机器学习模型。
使用 OCI Data Science、裸金属实例和集群网络训练 AI 模型。
注:为免疑义,本网页所用以下术语专指以下含义: