A Caltech recorre à Oracle Cloud na corrida contra o câncer

O instituto de pesquisa de renome mundial usa instâncias de GPU da Oracle para construir modelos baseados em ML que ajudam a criar novas terapias para os pacientes.

Jim Lein | 19 de janeiro de 2024


Para Matt Thomson, pesquisador pioneiro do California Institute of Technology, o desenvolvimento de tratamentos contra o câncer é principalmente um desafio de big data: aplicar modelos de machine learning (ML) a dados de pacientes em grande escala para formar novas terapias para os tumores mais difíceis de curar.

“Sabemos que, se conseguirmos controlar o sistema imunológico do organismo e fazê-lo atacar um tumor, poderemos curar o câncer”, disse Thomson. “Mas para alguns dos piores tipos, essa estratégia não funciona. É por isso que estamos usando machine learning para analisar todos os dados associados aos pacientes para então projetar novas terapias.”

Thomson é o principal pesquisador do Centro de Engenharia e Perfil de Célula Única da Caltech, informalmente apelidado de Thomson Lab. Ele e sua equipe integram e analisam conjuntos de dados amplamente variáveis ​​para construir e aplicar modelos de grandes modelos de machine learning em um processo chamado engenharia de proteínas.

Esses modelos contêm até 100 bilhões de parâmetros e exigem experiência em computação distribuída para hospedá-los, executá-los e ajustá-los em escala. Cada modelo deve ser executado milhares de vezes durante os ciclos de teste de design de proteínas. O design de proteínas requer não apenas modelos únicos, mas também bibliotecas de modelos especializados para aplicações posteriores, como imunomodulação (redução ou aumento da resposta imune) e termoestabilidade (capacidade de uma substância de manter suas propriedades características quando submetida a um grau moderado de calor). O desafio que o Thomson Lab enfrenta é obter acesso às GPUs de computação de alto desempenho (HPC) necessárias para executar e testar modelos em grande escala.

“100 bilhões de parâmetros não cabem em uma única GPU”, disse Thomson. “Obter acesso a recursos de HPC adequados e elásticos requer um contrato plurianual. Dentro da comunidade acadêmica é quase impossível obter esse nível de financiamento.”

A computação em nuvem impulsiona a busca por novas curas

Historicamente, pesquisadores individuais e organizações construíram os seus próprios computadores para esse tipo de trabalho, mas estes tornaram-se obsoletos em questão de meses. Mais recentemente, o laboratório utilizou o cluster de HPC da própria Caltech, mas à medida que as pesquisas avançavam, até mesmo esses recursos poderosos se mostraram insuficientes.

Então Thomson recorreu à nuvem. A primeira tentativa do laboratório com um conhecido fornecedor de infraestrutura em nuvem foi frustrada por custos ocultos e encargos da administração interna. Por meio da sua rede de contatos, Thomson se conectou com membros da equipe de IA e ML da Oracle, levando ao design de uma prova de conceito (PoC) para criar e testar modelos em instâncias de GPU da Oracle Cloud Infrastructure (OCI).

Ao ter acesso imediato às instâncias de GPU mais recentes na OCI, é possível e prático permitir que os pesquisadores aproveitem a tecnologia mais moderna. Isso poderá, em breve, tornar os clusters de HPC on-premises obsoletos para esse tipo de pesquisa.”

Matt Thomson Professor Assistente de Biologia Computacional, California Institute of Technology

Para contextualizar: com cada modelo, cerca de 80 gigabytes de dados de um banco de dados total de cerca de 20 terabytes são puxados e mantidos na memória da GPU enquanto o modelo está sendo treinado. Na PoC, foram criados 1.000 modelos. Anteriormente, o Thomson Lab conseguia criar um teste de apenas 10 modelos por vez.

“Durante a PoC, a Oracle colaborou bastante no trabalho conosco, e a equipe continua demonstrando seu compromisso com o avanço do nosso trabalho”, afirmou Thomson. “Outros fornecedores oferecem incentivos para você contratar o serviço, mas não demonstram nenhum interesse real em trabalhar com uma organização do nosso porte.”

Próximo problema a resolver: o que fazer com todos esses dados

A pesquisa biológica requer a consolidação de quantidades cada vez maiores de dados com uma enorme variedade de novos modelos matemáticos. Historicamente, a comunidade de pesquisa não dependia de bancos de dados de nível profissional, optando, em vez disso, por serviços de banco de dados de código aberto mais baratos.

Por exemplo, o Thomson Lab trabalha com mais de 100 conjuntos de dados que consistem em até 10 milhões de linhas e 30.000 colunas cada, gerando cerca de 20 terabytes de novos dados a cada semana. Atualmente, os conjuntos de dados são armazenados individualmente como arquivos CSV em discos rígidos locais. Mas sem um sistema de armazenamento e gestão de dados que possa armazenar todos os conjuntos da Caltech, juntamente com os de outras organizações de pesquisa, os modelos de machine learning não podem ser treinados utilizando todas as informações disponíveis e relevantes.

Consequentemente, o Thomson Lab espera trabalhar com a Oracle para desenvolver um sistema de armazenamento e gerenciamento que contenha todos os conjuntos de dados e, ao mesmo tempo, seja dinamicamente acessível aos pesquisadores de qualquer instituição.

Thomson está otimista de que o trabalho da Caltech com a Oracle levará a avanços inovadores na pesquisa e no tratamento do câncer.

"Temos todas as ferramentas," disse ele. “Queremos trabalhar com a Oracle para tornar esse sistema economicamente viável em um modelo de monetização aceitável para todas as partes, isto é, não apenas para a Caltech, mas também para organizações semelhantes. Não há limite para o que podemos realizar juntos."


Veja mais artigos do Oracle Connect