データ・サイエンティストは、任意のクラウドまたはオンプレミスのあらゆるデータ・ソースにアクセスして使用できます。これにより、より適切なモデルにつながる可能性の高いデータ機能が提供されます。
Oracle Cloud Infrastructure(OCI)Data LabelingはAIおよび機械学習モデルをさらに正確にトレーニングするラベル付きデータセットを構築するためのサービスです。OCI Data Labelingを使用すると、開発者とデータ・サイエンティストは、データの組み立て、データセットの作成と閲覧、データレコードへのラベルの適用を行うことができます。
インタラクティブなSparkクエリをOCI Data Flow Sparkクラスターに送信できます。また、Oracle Accelerated Data Science SDKを使用してSparkアプリケーションを簡単に開発し、それをOCI Data Flow上で大規模に実行できます。これらはすべてData Science環境内から可能です。
特徴量エンジニアリングのパイプラインを定義し、完全に管理された、実行機能な特徴量を構築します。特徴量と特徴量パイプラインの両方をバージョン管理し、ドキュメント化します。特徴量へのアクセスを共有、管理、制御します。バッチおよびリアルタイムの推論シナリオで特徴量を使用します。
組み込みのクラウドホスト型JupyterLabノートブック環境を使用することで、データ・サイエンスのチームは、使い慣れたユーザー・インタフェースによりモデルを構築およびトレーニングできます。
OCI Data Scienceは、TensorFlowやPyTorchなどの、柔軟性に優れ、データ・サイエンティストが使い慣れた何百もの一般的なオープン・ソース・ツールとフレームワークを提供します。または、好みのフレームワークを追加できます。OCIとAnacondaの戦略的パートナーシップにより、OCIユーザーはAnacondaリポジトリから直接パッケージを無料でダウンロードおよびインストールできるため、セキュアなオープンソースにこれまで以上にアクセスしやすくなっています。
Oracle Accelerated Data Science SDKは、エンドツーエンドのデータ・サイエンス・ワークフロー全体を通じてデータ科学者をサポートする、使いやすいPythonツールキットです。
データ・サイエンティストは、NVIDIA GPUによって、より短い時間で深い学習モデルを構築およびトレーニングできます。パフォーマンスは5~10倍高速化します。
ジョブを使って、反復可能なデータ・サイエンス・タスクをバッチ・モードで実行します。ベアメタルNVIDIA GPUと分散トレーニングのサポートにより、モデル・トレーニングをスケールアップできます。
コード・エディタを使用して、OCIコンソールから直接、データ・サイエンス・ジョブ・アーティファクトを簡単に作成、編集、実行できます。Git統合、自動バージョニング、パーソナライズなどが付属しています。
データ・サイエンティストは、モデル・カタログを使用して、完成した機械学習モデルを保存および共有します。カタログはアーティファクトを保存し、モデルの分類とコンテキストに関するメタデータ、ハイパーパラメータ、モデルの入力および出力データ・スキーマの定義、ソースコードやトレーニング環境などモデルの由来に関する詳細な来歴情報を取得します。
新しいデータに対するモデルのパフォーマンスを測定し、モデル候補を比較するためのメトリックとビジュアライゼーションの包括的なスイートを自動的に生成します。
事前構築され、キュレートされたConda環境を活用して、NLP、コンピュータ・ビジョン、予測、グラフ分析、Sparkなどのさまざまなユースケースに対応します。カスタム環境を公開し、同僚と共有することで、トレーニングおよび推論環境を再現できるようにします。
データ・サイエンティストは組織のGitリポジトリに接続して、機械学習による作業を保存および取得できます。
機械学習モデルをHTTPエンドポイントとして導入し、新しいデータを使用してリアルタイムでモデル予測を提供します。クリックするだけでモデル・カタログから導入でき、OCI Data Scienceはコンピュートのプロビジョニングやロード・バランシングなど、すべてのインフラストラクチャ操作を処理します。
MLパイプラインの作成、デバッグ、追跡、管理、実行を行うフルマネージド・サービスにより、モデル開発、トレーニング、デプロイのワークフローを運用化および自動化します。
データおよびコンセプトのドリフトがないか、運用中のモデルを継続的に監視します。データ・サイエンティスト、サイト・リライアビリティ・エンジニア、DevOpsエンジニアがアラートを受信し、モデルの再トレーニングの必要性を迅速に評価できるようにします。
もともとはオラクル独自のSaaSアプリケーションにAI機能を組み込むために設計されたMLアプリケーションです。現在では、顧客ごとに数百のモデルを持つISVが、開発、プロビジョニング、継続的な保守とフリート管理などのMLOpsライフサイクル全体を自動化するために利用可能です。
OCI Data Scienceノートブックのシームレスなユーザー・インタフェースを介して1行のコードを記述することなく、Mistral、MetaなどのLLMを使用します。
OCI Object Storageから任意のLLMをインポートし、使いやすいユーザー・インターフェースで微調整と導入を行います。
最適なパフォーマンスを実現するために、vLLM (UC Berkeleyから)、テキスト生成推論(Hugging Faceから)、TensorRT-LLM (NVIDIAから)などの一般的な推論サーバーを利用して、数回のクリックでLLMを導入します。
最適なパフォーマンスを実現するには、PyTorch、Hugging Face AccelerateまたはDeepSpeedを使用して分散トレーニングを活用し、LLMを微調整します。オブジェクト・ストレージで微調整された重みを格納できるようにします。また、サービスとして提供されるCondasにより、カスタムDocker環境が不要になるほか、処理速度の低下を抑えながら共有できます。
BERTScoreまたはROUGE(Recall-Oriented Understudy for Gisting Evaluation)に基づいて、LLMの詳細な評価レポートを作成し、モデルのパフォーマンスを他のモデルと比較して理解できるよう支援します。