カリフォルニア工科大学の先駆的研究者であるMatt Thomsonにとって、がんの治療法を開発することは、ほぼビッグ・データへの挑戦です。つまり、機械学習(ML)モデルを大規模に患者データに適用して、最も治療が困難な腫瘍に対する新しい治療法を開発します。
「体内の免疫システムを利用し、腫瘍を攻撃させることができれば、がんを治すことができることはわかっています」と、Thomson氏は語ります。「ただ、一部の最もたちの悪いがんでは、このような戦略はうまくいきません。そこで今、私たちは機械学習を用いて、この治療法が効く、あるいは効かない患者に関連するすべてのデータを調べ、新たな治療法を開発しています。」
Thomson氏はカリフォルニア工科大学のSingle-Cell Profiling and Engineering Center、通称Thomson Labの主任研究者です。同氏とそのチームは、大きく変動するデータ・セットを統合および分析し、タンパク質工学と呼ばれるプロセスで大規模言語機械学習モデルの構築と適用を行います。
これらのモデルには最大1,000億ものパラメータが含まれており、大規模にホスト、実行、微調整するには分散コンピューティングの専門知識が必要となります。それぞれのモデルは、タンパク質の設計とテスト・サイクルの間に何千回も実行する必要があります。タンパク質設計には、単一のモデルだけでなく、免疫調節(免疫反応の軽減または増強)や耐熱性(適度な熱にさらされても物質の特性を維持する機能)などのダウンストリーム・アプリケーションに特化したモデルのライブラリも必要となります。Thomson Labが直面している課題は、この大規模スケールでモデルを実行およびテストするために必要な高パフォーマンス・コンピューティング(HPC)GPUへのアクセスを獲得することです。
「1,000億のパラメータは、単一のGPUには収まりません」と、Thomson氏は述べます。「十分かつ弾力的なHPCリソースへのアクセスを得るには、複数年にわたる契約が必要です。学術界では、そのレベルの資金を得ることはほぼ不可能です。」
これまでは、個々の研究者や組織がこの種の作業のために単発のコンピュータを自作していましたが、それらは数カ月で時代遅れになりました。最近では、カリフォルニア工科大学の独自のHPCクラスタを使用していましたが、研究が進むにつれて、その強力なリソースでも不十分であることが判明しました。
そこでThomson氏はクラウドに目をつけました。そこでThomson氏はクラウドに目をつけました。有名なクラウド・インフラストラクチャ・プロバイダとの最初の試みは、隠れたコストと内部管理者の負担により阻まれました。Thomson氏は、自身の人脈を通じてオラクルのAI・MLチームのメンバーと関係を築き、Oracle Cloud Infrastructure(OCI)のGPUインスタンス上でモデルを作成・テストするための概念実証(PoC)の設計に至りました。
「OCI上にある最新のGPUインスタンスにすぐにアクセスできるようになることで、研究者が最新のテクノロジーを活用することが可能かつ実用的になります。このような研究において、オンプレミスのHPCクラスタが時代遅れになる日も近いと思われます。」
背景として、それぞれのモデルで、モデルをトレーニングしている間、約20テラバイトのデータベースのうち、約80ギガバイトのデータがGPUメモリに取り込まれ、保持されます。PoCでは、1,000のモデルが作成されました。以前は、Thomson Labは一度に10モデルしかテスト作成できませんでした。
「PoCの期間中、オラクルは実に協力的な姿勢で当社と連携してくれましたし、オラクルのチームは、当社の業務を高度なものにしようとする姿勢を示し続けていました」と、Thomson氏は述べています。「他のベンダーは、契約するためのインセンティブを提供することはあっても、私たちのような規模の組織と協働することにまったく興味を示しません。」
生物学研究では、ますます大量のデータと無数の新しい数学的モデルの統合が必要 になります。従来、研究コミュニティはプロフェッショナル・レベルのデータベースに依存することはなく、代わりに安価なオープン・ソース・データベース・サービスの利用を選んできました。
たとえば、Thomson Labでは、それぞれ1,000万行、30,000列からなる100以上のデータ・セットを扱い、毎週約20テラバイトの新しいデータを生成しています。現在、データ・セットはCSVファイルとしてローカルのハードディスクに個別に保存されています。しかし、カリフォルニア工科大学のすべてのデータ・セットと他の研究組織のデータ・セットを保存できるデータ・ストレージと管理システムがなければ、利用可能なすべての関連情報を使って機械学習モデルをトレーニングすることはできません。
そのため、Thomson Labがオラクルと協力して、すべてのデータ・セットを保存しながら、どの研究機関の研究者でも動的にアクセスできるデータ・ストレージおよび管理システムを開発することが、将来の望ましい姿です。
Thomson 氏は、カリフォルニア工科大学とオラクルとの協力により、がんの研究と治療が画期的な進歩を遂げることについて楽観的な見通しを示しています。
「ツールはすべて揃っています。」同氏は語ります。「私たちはオラクルと協力してすべてを統合し、カリフォルニア工科大学だけでなく、同様の組織にとっても、相互に合意可能な収益化モデルで経済的に実現したいと考えています。私たちが共に達成できることに上限はありません」。
研究者は、OCIでMLモデルを2倍の速度で実行しています。
OCI Data Science、ベアメタル・インスタンス、クラスタ・ネットワークを使用してAIモデルをトレーニングします。