Caltech si affida a Oracle Cloud per accelerare la ricerca di un trattamento e una cura per il cancro

L'istituto di ricerca di fama mondiale utilizza le istanze GPU Oracle per creare modelli basati su ML che aiutano a creare nuove terapie per i pazienti.

Jim Lein | 19 gennaio 2024


Per Matt Thomson, un pioniere della ricerca presso il California Institute of Technology, lo sviluppo di trattamenti contro il cancro è per lo più una sfida di big data: applicare modelli di machine learning (ML) ai dati dei pazienti su larga scala per formare nuove terapie per i tumori più difficili da curare.

"Sappiamo che se possiamo sfruttare il sistema immunitario del corpo e fare in modo che attacchi i tumori, possiamo curare il cancro", dice Thomson. Ma per alcuni dei tumori peggiori, questo tipo di strategia non funziona. Quindi ora stiamo utilizzando il machine learning sia per esaminare tutti i dati associati ai pazienti in cui questa funziona o meno, sia per per progettare poi nuove terapie".

Thomson è il principal investigator del Caltech Single-Cell Profiling and Engineering Center, soprannominato, in modo informale, Thomson Lab. Lui e il suo team integrano e analizzano set di dati ampiamente variabili per creare e applicare modelli di machine learning di grandi dimensioni in un processo chiamato ingegneria proteica.

Questi modelli contengono fino a 100 miliardi di parametri e richiedono competenze nell'elaborazione distribuita per ospitarli, eseguirli e ottimizzarli su larga scala. Ogni modello deve essere eseguito migliaia di volte durante i cicli di test di progettazione delle proteine. La progettazione delle proteine richiede non solo modelli singoli, ma anche librerie di modelli specializzati per applicazioni a valle come l'immunomodulazione (la riduzione o il miglioramento della risposta immunitaria) e la termostabilità (la capacità di una sostanza di mantenere le sue proprietà caratteristiche quando sottoposta a un moderato livello di calore). La sfida che Thomson Lab affronta consiste nell'ottenere l'accesso alle GPU high performance computing (HPC) necessarie per eseguire e testare i modelli su questa vasta scala.

"100 miliardi di parametri non potranno essere contenuti in un'unica GPU", afferma Thomson. "Per accedere a risorse HPC adeguate ed elastiche serve un contratto pluriennale. All'interno della comunità accademica è quasi impossibile ottenere quel livello di finanziamento".

Il cloud computing supporta la ricerca di nuove cure

Storicamente, singoli ricercatori e organizzazioni hanno costruito appositamente i propri computer per questo tipo di lavoro, ma sono poi diventati obsoleti nel giro di pochi mesi. Più recentemente, il laboratorio ha utilizzato il cluster HPC di Caltech ma, con il progredire della sua ricerca, anche quelle potenti risorse si sono rivelate inadeguate.

Così Thomson si è rivolto al cloud. Il primo tentativo del laboratorio con un noto provider di infrastrutture cloud è stato ostacolato dai costi nascosti e dagli oneri dell'amministrazione interna. Attraverso la sua rete di contatti, Thomson si è connesso con i membri del team di intelligenza artificiale e machine learning di Oracle, portando alla progettazione di una proof of concept (PoC) per la creazione e il test di modelli sulle istanze GPU di Oracle Cloud Infrastructure (OCI).

"Avendo accesso alle istanze GPU più recenti su OCI, è facile permettere ai ricercatori di sfruttare la tecnologia più recente. Ciò potrebbe presto rendere obsoleti i cluster HPC on-premise per questo tipo di ricerca".

Matt Thomson Assistant Professor of Computational Biology, California Institute of Technology

Per intenderci: con ogni modello, circa 80 gigabyte di dati su un database totale di circa 20 terabyte vengono estratti e conservati nella memoria GPU mentre il modello viene addestrato. Nella PoC sono stati creati 1.000 modelli. In precedenza, Thomson Lab era stato in grado di creare un test per solo 10 modelli alla volta.

"Durante l'evento PoC, Oracle ha collaborato attivamente con noi, e il team Oracle continua a dimostrare il proprio impegno nel portare avanti il nostro lavoro", afferma Thomson. "Altri fornitori offrono incentivi affinché ci si iscriva, ma poi non mostrano alcun reale interesse a lavorare con un'organizzazione delle nostre dimensioni".

Il prossimo problema da risolvere: cosa fare con tutti quei dati

La ricerca biologica richiede il consolidamento di quantità sempre più grandi di dati con una miriade di nuovi modelli matematici. Storicamente, la comunità di ricerca non ha fatto affidamento su database a livello professionale, optando invece per utilizzare servizi di database open source ed economici.

Ad esempio, Thomson Lab lavora con più di 100 set di dati costituiti da ben 10 milioni di righe e 30.000 colonne ciascuno, generando circa 20 terabyte di nuovi dati ogni settimana. Attualmente, i set di dati vengono memorizzati singolarmente come file CSV sui dischi rigidi locali. Ma senza un sistema di storage e gestione dei dati in grado di memorizzare tutti i data set di Caltech, insieme a quelli di altre organizzazioni di ricerca, i modelli di machine learning non possono essere addestrati utilizzando tutte le informazioni disponibili e rilevanti.

Di conseguenza, lo stato futuro desiderato è che Thomson Lab collabori con Oracle per sviluppare un sistema di storage e gestione dei dati che contenga tutti i set di dati e sia allo stesso tempo dinamicamente accessibile ai ricercatori di qualsiasi istituto.

Thomson è ottimista circa il fatto che la collaborazione tra Caltech e Oracle porterà a progressi rivoluzionari nella ricerca e nella cura per il cancro.

"Abbiamo tutti gli strumenti", dice. "Vogliamo lavorare con Oracle per mettere insieme gli strumenti e rendere il processo economicamente possibile in un modello di monetizzazione utile per entrambe le parti, non solo per Caltech, ma anche per organizzazioni simili. Non c'è limite a ciò che possiamo realizzare insieme".


Vedi altri articoli su Oracle Connect