データ・サイエンスでは、統計、科学的方法、人工知能(AI)、データ分析など、複数の分野を組み合わせて、データから価値を引き出します。データ・サイエンスに取り組む人をデータ・サイエンティストと呼びます。データ・サイエンティストは、実用的な分析情報を引き出すために、Web、スマートフォン、顧客、センサーなどの情報源から収集されたデータを、さまざまなスキルを組み合わせて分析します。
データ・サイエンスとは、高度なデータ分析を行うために、データのクレンジング、集計、操作など、分析のデータを準備することです。分析アプリケーションとデータ・サイエンティストが、結果を検証して、パターンを明らかにすると、ビジネス・リーダーは情報に基づく分析結果を引き出すことができます。
データ・サイエンスは今日、最も期待の大きい分野の1つです。ですが、なぜそれほど重要なのでしょうか?
それは、企業が「データの宝庫」となっているからです。現代のテクノロジーは増え続ける情報の作成と保存を可能にしましたが、その結果、データの量が爆発的に増加しています。世界に存在するデータの90%は過去2年間に作成されたと推定されています。たとえば、Facebookのユーザーによって1時間に1,000万枚もの写真がアップロードされています。
しかし、これらのデータは多くの場合、単にデータベースやデータ・レイクに保管されているだけで、ほとんどが手付かずのままです。
こうしたテクノロジーによって収集、保存された大量のデータは、世界中の組織や社会に革新的なメリットをもたらす可能性を持っていますが、それを実現するには、それらのデータを解析できることが必要です。そこで登場するのが、データ・サイエンスです。
データ・サイエンスは、傾向を明らかにしたうえで、企業が優れた意思決定を下し、より多くの革新的な製品やサービスを作り出すのに役立つインサイトを生み出します。おそらくデータ・サイエンスで最も重要なのは、データから何を発見できるかをビジネス・アナリストに頼るのではなく、機械学習(ML)モデルを通じて、供給される膨大な量のデータから学習できるようになることです。
データはイノベーションの基盤となるものですが、その価値を引き出すには、データ・サイエンティストがデータから情報を集め、それらの情報に対応する必要があります。
データ・サイエンスとその活用方法について理解を深めるためには、人工知能(AI)や機械学習など、その分野に関連する他の用語について知ることも同様に重要です。多くの場合、これらの用語は同じ意味で使用されていますが、微妙な違いがあります。
簡単に分類すると次のようになります。
組織はデータ・サイエンスを利用して製品やサービスを改善し、データを競争上の優位性に変えようとしています。データ・サイエンスや機械学習には次のようなケースがあります。
多くの企業がデータ・サイエンスに優先的に取り組んでおり、多大な投資を行っています。3,000人以上のCIOを対象にGartnerが最近行った調査によると、回答者の多くが、アナリティクスやビジネス・インテリジェンスを組織の最重要差別化テクノロジーとして位置付けています。調査対象となったCIOは、これらのテクノロジーを自社にとって最も戦略的なものと見なしており、それにふさわしい投資を行っています。
データの分析とそれに応じた行動決定のプロセスは、線形的というよりは反復的ですが、データ・モデリング・プロジェクトにおけるデータ・サイエンスのライフサイクルは通常は次のような流れになります。
計画: プロジェクトとその成果の候補を定義します。
データ・モデルの構築: 多くの場合、データ・サイエンティストは、さまざまなオープン・ソース・ライブラリやデータベース内ツールを使用して機械学習モデルを構築します。ユーザーは多くの場合、データの取り込み、データのプロファイリングと視覚化、または機能エンジニアリングに役立つAPIを望みます。ユーザーには適切なツールが必要になるだけでなく、適切なデータやその他のリソース(計算能力など)へのアクセスも必要になります。
モデルの評価: データ・サイエンティストが自分のモデルを自信を持って展開するためには、そのモデルについて高い精度を実現する必要があります。通常、モデルの評価では、新しいデータに対するモデルのパフォーマンスを測定するための包括的な評価指標と視覚化一式を作り出し、本番環境で最適な動作が実現するように、それらを時間をかけてランク付けします。モデルの評価は本来のパフォーマンスを超えるものになり、期待される基準の動作が考慮されます。
モデルの説明: 機械学習モデルがもたらす結果の内部的なメカニズムを人間の言葉で説明できることは、必ずしも可能になったわけではありませんが、その重要性はますます高まってきています。データ・サイエンティストは、予測の生成に関与する要因の相対的な重み付けと重要性についての説明が自動化されることを求めています。また、モデルの予測に関するモデル固有の詳細な説明も求めています。
モデルの導入: トレーニングを施した機械学習モデルを必要なシステムに導入する作業は、多くの場合、困難で面倒なプロセスです。プロセスを簡単にするために、モデルをスケーラブルでセキュアなAPIとして運用化したり、データベース内機械学習モデルを利用したりできます。
モデルの監視: 残念ながら、モデルは導入で終わりではありません。導入後、モデルが正しく機能していることを確認するために、常にモデルを監視する必要があります。モデルのトレーニングに利用したデータが、時とともに将来の予測に関連しなくなっていく場合があります。たとえば詐欺の検出では、犯罪者はアカウントをハッキングする新しい方法を常に考え出そうとしています。
機械学習モデルの構築、評価、導入、監視のプロセスは複雑になる場合があります。そのため、データ・サイエンス・ツールの数が増加を続けています。データ・サイエンティストが利用するツールには多くの種類がありますが、最も一般的なツールの1つはオープン・ソースのノートブックです。これは、コードの記述と実行、データの視覚化、結果の確認を、すべて同じ環境の中で行うWebアプリケーションです。
特に人気のあるノートブックとしてはJupyter、RStudio、Zeppelinなどがあります。ノートブックは分析を行うにはとても便利ですが、データ・サイエンティストがチームで作業する必要がある場合には制限があります。この問題を解決するために開発されたのがデータ・サイエンス・プラットフォームです。
どのデータ・サイエンス・ツールが適しているかを判断するには、次の質問が重要です。データ・サイエンティストは、どのような言語を使用していますか?どのような作業方法を好みますか?どのようなデータソースを使用していますか?
たとえば、データソースに依存しないサービスを好むユーザーもいます。こうしたサービスではオープン・ソースのライブラリが使用されています。一方で、データベース内の機械学習アルゴリズムの処理速度を好むユーザーもいます。
通常、ほとんどの組織では、データ・サイエンス・プロジェクトは次の3種類のマネージャーによって統括されています。
ビジネス・マネージャー: ビジネス・マネージャーは、データ・サイエンス・チームと協力して問題を定義し、分析のための戦略を開発します。マーケティング、財務、営業などの事業部長が担当することもあり、データ・サイエンス・チームはその指揮下に配属されます。ビジネス・マネージャーはデータ・サイエンス・マネージャーやITマネージャーと緊密に連携しながら、プロジェクトの進行を管理します。
ITマネージャー: シニアITマネージャーは、データ・サイエンスの運用をサポートするインフラストラクチャとアーキテクチャを担当します。このマネージャーは、運用状況やリソースの使用率を常に監視して、データ・サイエンス・チームが効率的かつ安全に運用を継続できるようにします。また、ITマネージャーはデータ・サイエンス・チームが使用するIT環境の構築や更新についても担当する場合があります。
データ・サイエンス・マネージャー: このマネージャーは、データ・サイエンス・チームとその日常業務を監督します。チームのまとめ役として、プロジェクトの計画や監視とのバランスを図りながらチーム開発を進める、チーム。ビルダーの役割を果たします。
ただし、このプロセスで最も重要な役割を果たすのはデータ・サイエンティストです。
データ・サイエンスは、まだ新しい学術分野です。元々は、統計分析とデータ・マイニングの分野から発展したものです。Data Science Journalは、2002年に発刊され、国際科学会議の科学技術データ委員会から発行されています。データ・サイエンティストという肩書は2008年ごろから一般化し、その後、この分野が急速に成長していきました。以降、データ・サイエンスの学位の授与を始めている大学が増え続けていますが、データ・サイエンティストの数は相変わらず不足しています。
データ・サイエンティストの職務には、データの分析戦略の開発、分析用データの準備、データの探索/分析/視覚化、PythonやRなどのプログラミング言語を使用したデータによるモデルの構築、アプリケーションへのモデルのデプロイなどがあります。
データ・サイエンティストは単独で作業するわけではありません。実際、効果的なデータ・サイエンス業務の多くはチームで進められます。このチームには、データ・サイエンティストのほかに、問題を定義するビジネス・アナリスト、データとそのアクセス手方法を準備するデータ・エンジニア、基盤となるプロセスとインフラストラクチャを監督するITアーキテクト、分析のモデルや出力をアプリケーションや製品に導入するアプリケーション開発者などが加わることもあります。
データ・サイエンスの重要性は広く知られるようになり、データ・サイエンス・チームに対する投資も盛んに行われるようになりましたが、多くの企業では、データの価値を十分に引き出せていません。人材の獲得やデータ・サイエンス・プログラムの開発に向けて競争が進むなか、一部の企業では、使用するツールやプロセスがスタッフによって異なるために、連携がうまくいかず、チームのワークフローが非効率になるという事態が発生しています。もっと統制の取れた、一元的な管理体制を整えなければ、経営幹部は投資効果を十分に把握できません。
このように環境がばらばらだと、様々な問題が生じます。
データ・サイエンティストが効率的に作業できない。データへのアクセスにはIT管理者からの許可を得る必要があるため、データ・サイエンティストは分析するデータやリソースにすぐにアクセスできず、長く待たされる状況が頻繁に発生します。また、アクセスが許可されても、データ・サイエンス・チームが使用するツールがメンバーごとに異なっていて、互換性がないというケースもあります。たとえば、あるサイエンティストがR言語を使ってモデルを開発し、それを使用するアプリケーションが別の言語で記述されているケースもあるでしょう。その場合、モデルをアプリケーションに導入するのに数週間かかったり、場合によっては数か月かかることも考えられます。
アプリケーション開発者が機械学習にアクセスして使用できない。開発者が機械学習モデルを受け取っても、それをアプリケーションに導入する準備ができていないことがあります。また、アクセス・ポイントに柔軟性があるとは限らないため、必ずしもすべてのシナリオでモデルを導入できるわけではなく、スケーラビリティがアプリケーション開発者に委ねられてしまいます。
IT管理者がサポートに時間をとられすぎる。オープン・ソース・ツールが急増しているため、ITチームがサポートしなければならないツールの数が増え続ける場合があります。たとえば、マーケティング部門のデータ・サイエンティストと財務部門のデータ・サイエンティストとの間で、使用しているツールが異なる場合があります。また、チームによってワークフローが異なっているために、ITチームが環境を何度も再構築し、更新する必要があるというケースも考えられます。
ビジネス・マネージャーがデータ・サイエンスから除かれる。データ・サイエンスのワークフローが常にビジネスの意思決定のプロセスやシステムに組み込まれているとは限らないため、その場合は、ビジネス・マネージャーがデータ・サイエンティストと十分な情報を得ながら連携することは難しくなります。統合が不十分だと、ビジネス・マネージャーはプロトタイプから本番環境への移行に長い時間がかかっている理由を理解できず、移行が遅すぎると感じるプロジェクトへの投資を支援しなくなる可能性があります。
企業の多くは、統合プラットフォームがなければデータ・サイエンスの作業は非効率的で、安全でなく、拡張も困難になると認識するようになりました。そうした認識が、データ・サイエンス・プラットフォームの開発へとつながりました。データ・サイエンス・プラットフォームとは、データ・サイエンス業務を1つの環境にまとめるためのソフトウェア・ハブのことです。優れたプラットフォームを使用すれば、データ・サイエンスの導入に伴う多くの課題をクリアし、企業がデータをインサイトへと変えるスピードと効率を向上させるのに役立ちます。
一元化された機械学習プラットフォームにより、データ・サイエンティストは、連携性に優れた環境で好みのオープン・ソース・ツールを使用して作業できるようになり、すべての作業をバージョン管理システムによって同期させることができます。
データ・サイエンス・プラットフォームによって、コード、結果、レポートをチーム間で共有できるようになり、冗長性が減少してイノベーションが推進されます。管理が簡素化されてベストプラクティスが組み込まれ、ワークフローのボトルネックが解消されます。
一般に、最適なデータ・サイエンス・プラットフォームは次のようなことを目的としています。
データ・サイエンスプラットフォームは、専門のデータ・サイエンティスト、シチズン・データ・サイエンティスト、データエンジニア、機械学習エンジニアやスペシャリストといった幅広いユーザーによるコラボレーションを目的として構築されています。たとえば、データ・サイエンティストはデータ・サイエンス・プラットフォームを利用してモデルをAPIとして導入することで、モデルをさまざまなアプリケーションに簡単に統合できるようになります。データ・サイエンティストは、ITチームの許可を待つことなく、ツール、データ、インフラストラクチャにアクセスできます。
データ・サイエンス・プラットフォームに対する需要は大きく広がっています。実際、このプラットフォームの市場は大きな成長が見込まれており、今後数年間の複合年間成長率は39%を超え、市場規模は2025年までに3,850億米ドルに達すると予測されています。
データ・サイエンス・プラットフォームにどのような機能があるかを調べる際は、次の主要機能について確認するようにしてください。
コラボレーションを促進するプロジェクトベースのUIを選ぶ。コンセプト作りから最終的な開発に至るまで、モデルの構築を連携して行えるプラットフォームを選びましょう。それぞれのチーム・メンバーがデータやリソースにセルフサービスでアクセスできるようにする必要があります。
統合と柔軟性を優先させる。最新のオープン・ソース・ツールをサポートしているプラットフォームを選びましょう。GitHub、GitLab、Bitbucketなどの一般的なバージョン管理プロバイダーが利用できるかどうかや、その他のリソースと緊密に統合できるかどうかを確認してください。
エンタープライズグレードの機能を備えている。チームの拡大とともにビジネスに合わせて拡張できるプラットフォームを選ぶようにしましょう。可用性に優れ、アクセス制御も万全で、多数の同時ユーザーに対応できるプラットフォームを選ぶ必要があります。
データ・サイエンス業務のセルフサービス化を促進できる。ITチームややエンジニアリング・チームの負担を軽減できることや、データ・サイエンティストが環境をすぐに稼働できること、すべての作業を追跡できること、さらには、モデルを本番環境に簡単にデプロイできることを重視してプラットフォームを選びましょう。
モデルの導入を容易にする。モデルの導入と運用化は機械学習のライフサイクルにおける最も重要なステップの1つですが、多くの場合、重要視されていません。モデルの運用を容易にするサービスを選ぶ必要があります。これはAPIを提供する場合でも、統合を簡単にするような形でユーザーがモデルを構築する場合でも同じです。
次のような課題のある組織では、データ・サイエンス・プラットフォームの導入によってメリットが得られる可能性があります。
データ・サイエンス・プラットフォームはビジネスに真の価値をもたらします。オラクルのデータ・サイエンス・プラットフォームに組み込まれている幅広いサービスは、モデルの導入の迅速化とデータ・サイエンスの結果の向上を目的とした、エンドツーエンドの包括的なエクスペリエンスをもたらします。