データ・サイエンスはチーム・スポーツである:そのフィールドを提供するオラクルの新たなクラウド・プラットフォーム
オラクル・コーポレーション
ジェフ・エリクソン
データ・サイエンスについて考えるとき、人によっては、数学博士がパソコン上のデータを統合したり、分析したりする姿を思い浮かべるかもしれない。だが、現実には、データ・サイエンスはチーム・プレーだ。

Getty Images/iStockphoto
データ・サイエンスを実施するには、誰かがデータセットを探して準備しなければならない。データセットには、場所、名前、倉庫内の品目、人物の年齢、ソーシャルメディアのコメント、タイムスタンプ、画像の属性など、何らかの情報が含まれている。次に、誰かがデータをコンピューターに送り、オープンソース・ツールを使って統計的手法を適用する。データ間の関係をあぶりだし、運が良ければ、世界についての新たな理解を得ることができる。
そして最後に、そのプロセスから貴重な知見が得られると、誰かがそのモデルを、将来のデータに対して実行できる、制御かつ反復可能なプロセスとして公開する。
少なくとも、本来はそのように機能すると考えられている。
オラクルでData & AIサービス製品開発担当シニアバイスプレジデントを務めるグレッグ・パブリック(Greg Pavlik)は、「実際には、ほとんどの組織は、データが持つ膨大な可能性の一部しか見ていない」と語る。それは、データ・サイエンスには多くの人々、コンピューターの演算能力、作業プロセスが関連するからである。多くの場合に適切な受け渡しが行われず、システムとライブラリが共有されず、さらにデータのセキュリティが保たれていない。また、データの量が多すぎて、アルゴリズムを実行するシステムまでたどり着くことが難しいためでもある。

オラクル・コーポレーション Data & AIサービス製品開発担当シニアバイスプレジデント グレッグ・パブリック(Greg Pavlik)
写真:Oracle
オラクルが「Oracle Cloud Data Science Platform」を開発したのは、このような問題を解決するためである。この新規サービスを利用することで、データ・サイエンス・チームは容易に連携して機械学習モデルを構築、トレーニング、導入することができる。パブリックは、「目的は、データ・サイエンス・プロジェクトの成功を増やすことにある」と述べている。
パブリックは、オープンソース・ビッグデータ・プロジェクトの世界で長く経験を積み、ビッグデータ・プロジェクトを実行する1回限りのカスタム・システムが、強力なクラウドベースのプラットフォームによって駆逐され、業界が転換される場面を目の当たりにした。彼が言うには、現在オラクルは、第2世代のクラウド・インフラストラクチャと業界をリードするデータ管理を融合しており、データ・サイエンスで同じことをしようとしている。
個々のデータ・サイエンティストの支援に重点を置いた他のデータ・サイエンス製品とは異なり、「Oracle Cloud Infrastructure Data Science」は、プロジェクトの共有、モデル・カタログ、チーム・セキュリティ・ポリシー、再現性、監査性などの機能を通じてデータ・サイエンス・チームの有効性を向上させる。
パブリックは次のように述べている。「データ・サイエンティストは、何かを試みて、それが機能するかどうかを確認する実験者だ。サンプル・データベースを用意し、あらゆる種類のオープンソース・ツールを投入することで、素晴らしい仕事をしている。我々は、彼らにこの仕事を続けてほしいと思っており、なおかつ、データ・サイエンス・プロジェクトによって実際の価値が確実にビジネスにもたらされるように、ワークフロー全体を自動化し、コラボレーション用の強力なチーム・サポートを追加することで生産性を向上させてほしいと思っている」
価値を提供するデータ・サイエンスのスタート・ポイントは、機械学習によってより多くのことを行い、関連するデータとアルゴリズムによって効率を上げることだ。
「有効な機械学習モデルは、成功するデータ・サイエンス・プロジェクトの基盤になる」とパブリックは述べているが、データのボリュームと多様性が原因で、「イニシアティブが開始前に失速する可能性がある」。そこで、「Oracle Cloud Infrastructure Data Science Platform」が、機械学習アルゴリズムを開発、トレーニング、共有するための強力なプラットフォームをチームに提供する。このプラットフォームの主な機能を次に示す。
- アルゴリズムの選択とチューニングを自動化する「AutoML」:複数のアルゴリズムとハイパーパラメータ構成に対してテストを実行するプロセスを自動化する。そして、その結果の精度を調べ、最適なモデルと構成が選択されたことを確認する。これにより、データ・サイエンティストの時間が大幅に節約される。より重要なことは、すべてのデータ・サイエンティストが、最も経験豊富な実践者と同じ結果を得られることである
- 自動化された予測的特徴量抽出:大規模データセットから主要な特徴量を自動的に特定することで、特徴量エンジニアリングの作業を合理化する。
- モデル評価:新規データに対するモデルのパフォーマンスを測定するための評価メトリックと適切なビジュアルの包括的なセットを生成し、モデルを時系列にランク付けすることで運用環境において最適な動作が得られるようにする。モデル評価では、偽陽性と偽陰性の異なる影響が十分に組み込まれるように、本来の性能に関する情報だけでなく、想定されるベースライン動作も考慮され、コスト・モデルが使用される。
- モデル説明:「Oracle Cloud Infrastructure Data Science」は、予測の生成に使用される係数の相対的重み付けと重要性に関する自動的な説明を提供する。「Oracle Cloud Infrastructure Data Science」では、Model-Agnostic Explanationsの商用実装を初めて実現する。たとえば、不正検出では、データ・サイエンティストは不正の最大要因となっている要因を説明できるようになり、ビジネス部門はプロセスの修正や予防装置を講じることができる。
「Oracle Cloud Infrastructure Data Science」はオラクルの強力なクラウド・インフラストラクチャの上に構築されているため、「言語やライブラリ、ツールだけでなく、必要なコンピューター・リソースへのアクセスも容易になる」とパブリックは語る。これらのリソースには、ビッグデータ管理のための統合型クラウド・サービスや、データ・サイエンスのための一連のオープンソース・データ・ストア、仮想マシンへのアクセスが含まれる。
パブリックは次のように述べている。「データの調査とモデルのトレーニングから運用環境へのモデルの提供とメンテナンスに至るまで、すべては生産性次第である。我々は、生産性に優れたエンタープライズ対応のプラットフォームとして提供する。」
多くのデータ・サイエンティストがクラウドに移行するのは、始めやすさが大きな理由であるとパブリックは予測する。この新規サービスでは、Oracle Cloudにログインし、コンソール上でデータ・サイエンス・サービスのオプションを選択するだけだ。パブリックによれば、「それだけでプロジェクトの作成などの作業を開始できる」。
本記事はForbes.com OracleVoiceの以下の記事を抄訳しています:
Data Science Is A Team Sport: Oracle’s New Cloud Platform Provides The Playing Field