Voor Matt Thomson, een baanbrekend onderzoeker aan het California Institute of Technology, is het ontwikkelen van behandelingen tegen kanker vooral een uitdaging op het gebied van big data: het op grote schaal toepassen van ML-modellen (machine learning) op patiëntgegevens om nieuwe therapieën te vormen voor de moeilijkst te genezen tumoren.
"We weten dat als we het eigen immuunsysteem van het lichaam de tumor kunnen laten aanvallen, we kanker kunnen genezen", zegt Thomson. "Maar voor sommige ernstige vormen van kanker werkt deze strategie niet. Daarom gebruiken we machine learning om alle gegevens te bekijken van patiënten bij wie de strategie werkt en bij wie niet, en ontwerpen we op basis daarvan nieuwe therapieën."
Thomson is de hoofdonderzoeker van het Single-Cell Profiling and Engineering Center van Caltech, informeel ook wel het Thomson Lab genoemd. Samen met zijn team houdt hij zich bezig met het integreren en analyseren van sterk variabele gegevenssets om grote taalmodellen voor machine learning te bouwen en toe te passen in een proces genaamd eiwit-engineering.
Die modellen kunnen tot wel 100 miljard parameters bevatten. Om deze modellen op schaal te kunnen hosten, uitvoeren en verfijnen is expertise nodig in gedistribueerde computing. Tijdens de testcycli voor het ontwerpen van eiwitten moet elk model duizenden keren worden uitgevoerd. Voor het ontwerpen van eiwitten zijn niet alleen afzonderlijke modellen nodig, maar ook bibliotheken van modellen die zijn toegespitst op downstreamtoepassingen zoals immunomodulatie (vermindering of verbetering van de immuunrespons) en thermostabiliteit (het vermogen van een stof om de karakteristieke eigenschappen te behouden wanneer deze wordt blootgesteld aan een matige hoeveelheid warmte). Het Thomson Lab staat voor de uitdaging om toegang te krijgen tot GPU's die geschikt zijn voor hoogwaardige computing (High Performance Computing, HPC) en waarmee modellen op deze enorme schaal kunnen worden uitgevoerd en getest.
"100 miljard parameters passen niet op één GPU", aldus Thomson. "Om toegang te krijgen tot adequate en flexibele HPC-bronnen is een contract voor meerdere jaren nodig. Binnen de academische gemeenschap is het bijna onmogelijk om een dergelijke financiering rond te krijgen."
In het verleden bouwden de afzonderlijke onderzoekers en organisaties hun eigen speciale computers voor dit soort werk, maar die waren binnen een paar maanden al verouderd. Meer recentelijk heeft het laboratorium het eigen HPC-cluster van Caltech gebruikt, maar naarmate het onderzoek vorderde, bleken zelfs die krachtige resources ontoereikend.
Dus richtte Thomson zich op de cloud. De eerste poging van het laboratorium met een bekende cloudinfrastructuurprovider werd geen succes vanwege verborgen kosten en de lasten van intern beheer. Via zijn netwerk van contacten kwam Thomson in aanraking met leden van het AI- en ML-team van Oracle. Dit leidde tot het ontwerpen van een 'proof of concept' (PoC) voor het maken en testen van modellen op GPU-instances van Oracle Cloud Infrastructure (OCI).
"Dankzij een rechtstreekse toegang tot de nieuwste GPU-instances op OCI kunnen onderzoekers op een praktische manier gebruikmaken van de nieuwste technologie. Hierdoor zijn on-premises HPC-clusters binnenkort waarschijnlijk niet meer nodig voor dit type onderzoek."
Enige context: bij elk model wordt ongeveer 80 gigabyte aan gegevens uit een totale database van ongeveer 20 terabyte opgenomen en bewaard in het GPU-geheugen terwijl het model wordt getraind. In de PoC werden 1000 modellen gemaakt. Voorheen kon het Thomson Lab slechts 10 modellen tegelijk testen.
"Tijdens de PoC werkte Oracle echt met ons samen en het Oracle team laat nog steeds merken dat het zich wil inzetten om ons werk vooruit te helpen", zegt Thomson. "Andere leveranciers proberen je met aantrekkelijke aanbiedingen binnen te halen, maar tonen daarna niet echt interesse om samen te werken met een organisatie zo groot als de onze."
Voor biologisch onderzoek moeten steeds grotere hoeveelheden gegevens worden geconsolideerd met talloze nieuwe wiskundige modellen. De onderzoeksgemeenschap werkte in het verleden niet met professionele databases, maar koos ervoor om goedkope services voor opensourcedatabases te gebruiken.
Het Thomson Lab werkt bijvoorbeeld met meer dan 100 gegevenssets die elk uit maar liefst 10 miljoen rijen en 30.000 kolommen bestaan, en genereert elke week ongeveer 20 terabyte aan nieuwe gegevens. Momenteel worden de gegevenssets afzonderlijk opgeslagen als csv-bestanden op lokale vaste schijven. Maar zonder een opslag- en beheersysteem waarmee alle gegevenssets van Caltech, samen met die van andere onderzoeksorganisaties, kunnen worden opgeslagen, is het niet mogelijk om modellen voor machine learning te trainen op basis van alle beschikbare en relevante informatie.
Daarom wil het Thomson Lab in de toekomst samen met Oracle een systeem voor gegevensopslag en -beheer ontwikkelen waarin alle gegevenssets kunnen worden bewaard en dat tegelijkertijd dynamisch toegankelijk is voor onderzoekers van verschillende instellingen.
Thomson heeft er vertrouwen in dat de samenwerking tussen Caltech en Oracle zal leiden tot baanbrekende ontwikkelingen in het onderzoek naar en de behandeling van kanker.
"Alle tools zijn er", vertelt hij. "We willen met Oracle samenwerken om alles bijeen te brengen en het economisch mogelijk te maken in een voor alle partijen aanvaardbaar monetisatiemodel, niet alleen voor Caltech, maar ook voor vergelijkbare organisaties. Er zijn geen grenzen aan wat we samen kunnen bereiken."
Onderzoekers voeren ML-modellen twee keer zo snel uit op OCI.
Train AI-modellen met behulp van OCI Data Science, bare metal-instances en clusternetwerken.