一致する検索結果がありませんでした。
お探しのものを見つけるために、以下の項目を試してみてください。
データサイエンスとは何でしょうか。
端的に言えば、統計、科学的手法、データ分析などの複数の分野を駆使してデータから価値を引き出すことです。
データ・サイエンスに取り組む人をデータ・サイエンティストと呼びます。データ・サイエンティストは、Web、スマートフォン、顧客、センサーなどの情報源から収集されたデータを、さまざまなスキルを組み合わせて分析します。
データ・サイエンスは今日、最も期待の大きい分野の1つです。ですが、なぜそれほど重要なのでしょうか?
それは、企業が「データの宝庫」となっているからです。現代のテクノロジーは増え続ける情報の作成と保存を可能にしましたが、その結果、データの量が爆発的に増加しています。世界に存在するデータの90%は過去2年間に作成されたと推定されています。たとえば、Facebookのユーザーによって1時間に1,000万枚もの写真がアップロードされています。
しかし、これらのデータは多くの場合、データベースやデータレイクに保管されているだけで、ほとんどが手付かずのままです。
こうしたテクノロジーによって収集、保存された大量のデータは、世界中の組織や社会に革新的なメリットをもたらす可能性を持っていますが、それを実現するには、それらのデータを解析できることが必要です。そこで登場するのが、データ・サイエンスです。
データ・サイエンスは、傾向を明らかにしたうえで、企業が優れた意思決定を下し、より多くの革新的な製品やサービスを作り出すのに役立つインサイトを生み出します。おそらくデータ・サイエンスで最も重要なのは、データから何を発見できるかをビジネス・アナリストに頼るのではなく、機械学習(ML)モデルを通じて、供給される膨大な量のデータから学習できるようになることです。
データはイノベーションの基盤となるものですが、その価値を引き出すには、データ・サイエンティストがデータから情報を集め、それらの情報に対応する必要があります。
データ・サイエンスとその—活用方法—について理解を深めるためには、人工知能(AI)や機械学習など、その分野に関連する他の用語について知ることも同様に重要です。多くの場合、これらの用語は同じ意味で使用されていますが、微妙な違いがあります。
簡単に分類すると次のようになります。
さらに、次のような定義も紹介しておきましょう。
組織はデータ・サイエンスを利用して製品やサービスを改善し、データを競争上の優位性に変えようとしています。データ・サイエンスや機械学習には次のようなケースがあります。
多くの企業がデータ・サイエンスに優先的に取り組んでおり、多大な投資を行っています。3,000人以上のCIOを対象にGartnerが最近行った調査によると、回答者の多くが、アナリティクスやビジネス・インテリジェンスを組織の最重要差別化テクノロジーとして位置付けています。調査対象となったCIOは、これらのテクノロジーを自社にとって最も戦略的なものと見なしており、それにふさわしい投資を行っています。
データの分析とそれに応じた行動決定のプロセスは、線形的というよりは反復的ですが、データ・モデリング・プロジェクトにおけるデータ・サイエンスのライフサイクルは通常は次のような流れになります。
機械学習モデルの構築、評価、導入、監視のプロセスは複雑になる場合があります。そのため、データ・サイエンス・ツールの数が増加を続けています。データ・サイエンティストが利用するツールには多くの種類がありますが、最も一般的なツールの1つはオープン・ソースのノートブックです。これは、コードの記述と実行、データの視覚化、結果の確認を、すべて同じ環境の中で行うWebアプリケーションです。
特に人気のあるノートブックとしてはJupyter、RStudio、Zeppelinなどがあります。ノートブックは分析を行うにはとても便利ですが、データ・サイエンティストがチームで作業する必要がある場合には制限があります。この問題を解決するために開発されたのがデータ・サイエンス・プラットフォームです。
どのようなデータ・サイエンス・ツールが適切かを判断するには、次の問いに答えることが重要です。データ・サイエンティストはどのような言語を使用していますか?どのような作業方法を好みますか?どのようなデータソースを使用していますか?
たとえば、データソースに依存しないサービスを好むユーザーもいます。こうしたサービスではオープン・ソースのライブラリが使用されています。一方で、データベース内の機械学習アルゴリズムの処理速度を好むユーザーもいます。
通常、ほとんどの組織では、データ・サイエンス・プロジェクトは次の3種類のマネージャーによって統括されています。
ただし、このプロセスで最も重要な役割を果たすのはデータ・サイエンティストです。
データ・サイエンスは、まだ新しい学術分野です。元々は、統計分析とデータ・マイニングの分野から発展したものです。Data Science Journalは、2002年に国際科学会議の科学技術データ委員会により発行されました。データ・サイエンティストという肩書は2008年ごろから一般化し、その後、この分野が急速に成長していきました。以降、データ・サイエンスの学位の授与を始めている大学が増え続けていますが、データ・サイエンティストの数は相変わらず不足しています。
データ・サイエンティストの職務には、データの分析戦略の開発、分析用データの準備、データの探索/分析/視覚化、PythonやRなどのプログラミング言語を使用したデータによるモデルの構築、アプリケーションへのモデルのデプロイなどがあります。
データ・サイエンティストは単独で作業するわけではありません。実際、効果的なデータ・サイエンス業務の多くはチームで進められます。このチームには、データ・サイエンティストのほかに、問題を定義するビジネス・アナリスト、データとそのアクセス手方法を準備するデータ・エンジニア、基盤となるプロセスとインフラストラクチャを監督するITアーキテクト、分析のモデルや出力をアプリケーションや製品に導入するアプリケーション開発者などが加わることもあります。
データ・サイエンスの重要性は広く知られるようになり、データ・サイエンス・チームに対する投資も盛んに行われるようになりましたが、多くの企業では、データの価値を十分に引き出せていません。人材の獲得やデータ・サイエンス・プログラムの開発に向けて競争が進むなか、一部の企業では、使用するツールやプロセスがスタッフによって異なるために、連携がうまくいかず、チームのワークフローが非効率になるという事態が発生しています。もっと統制の取れた、一元的な管理体制を整えなければ、経営幹部は投資効果を十分に把握できません。
このように環境がばらばらだと、様々な問題が生じます。
データ・サイエンティストが効率的に作業できない。データへのアクセスにはIT管理者からの許可を得る必要があるため、データ・サイエンティストは分析するデータやリソースにすぐにアクセスできず、長く待たされる状況が頻繁に発生します。また、アクセスが許可されても、データ・サイエンス・チームが使用するツールがメンバーごとに異なっていて、互換性がないというケースもあります。たとえば、あるサイエンティストがR言語を使ってモデルを開発し、それを使用するアプリケーションが別の言語で記述されているケースもあるでしょう。その場合、モデルをアプリケーションにデプロイするのに数週間かかったり、場合によっては数か月かかることも考えられます。
アプリケーション開発者が機械学習にアクセスして使用できない。開発者が機械学習モデルを受け取っても、それをアプリケーションに導入する準備ができていないことがあります。また、アクセス・ポイントに柔軟性があるとは限らないため、必ずしもすべてのシナリオでモデルを導入できるわけではなく、スケーラビリティがアプリケーション開発者に委ねられてしまいます。
IT管理者がサポートに時間をとられすぎる。オープン・ソース・ツールが急増しているため、ITチームがサポートしなければならないツールの数が増え続ける場合があります。たとえば、マーケティング部門のデータ・サイエンティストと財務部門のデータ・サイエンティストとの間で、使用しているツールが異なる場合があります。また、チームによってワークフローが異なっているために、ITチームが環境を何度も再構築し、更新する必要があるというケースも考えられます。
ビジネス・マネージャーがデータ・サイエンスから除かれる。データ・サイエンスのワークフローが常にビジネスの意思決定のプロセスやシステムに組み込まれているとは限らないため、ビジネス・マネージャーがデータ・サイエンティストと十分な方法をやりとりしながら連携することが難しくなります。統合が不十分だと、ビジネス・マネージャーはプロトタイプから本番環境への移行に長い時間がかかっている理由を理解できず、移行が遅すぎると感じるプロジェクトへの投資を支援しなくなる可能性があります。
企業の多くは、統合プラットフォームがなければデータ・サイエンスの作業は非効率的で、安全でなく、拡張も困難になると認識するようになりました。そうした認識が、データ・サイエンス・プラットフォームの開発へとつながりました。データ・サイエンス・プラットフォームとは、データ・サイエンス業務を1つの環境にまとめるためのソフトウェア・ハブのことです。優れたプラットフォームを使用すれば、データ・サイエンスの導入に伴う多くの課題をクリアし、企業がデータをインサイトへと変えるスピードと効率を向上させるのに役立ちます。
一元化された機械学習プラットフォームにより、データ・サイエンティストは、連携性に優れた環境で好みのオープン・ソース・ツールを使用して作業できるようになり、すべての作業をバージョン管理システムによって同期させることができます。
データ・サイエンス・プラットフォームによって、コード、結果、レポートをチーム間で共有できるようになり、冗長性が減少してイノベーションが推進されます。管理が簡素化されてベスト・プラクティスが組み込まれ、ワークフローのボトルネックが解消されます。
一般に、最適なデータ・サイエンス・プラットフォームは次のようなことを目的としています。
データ・サイエンスプラットフォームは、専門のデータ・サイエンティスト、シチズン・データ・サイエンティスト、データエンジニア、機械学習エンジニアやスペシャリストといった幅広いユーザーによるコラボレーションを目的として構築されています。たとえば、データ・サイエンティストはデータ・サイエンス・プラットフォームを利用してモデルをAPIとして導入することで、モデルをさまざまなアプリケーションに簡単に統合できるようになります。データ・サイエンティストは、ITチームの許可を待つことなく、ツール、データ、インフラストラクチャにアクセスできます。
データ・サイエンス・プラットフォームに対する需要は大きく広がっています。実際、このプラットフォームの市場は大きな成長が見込まれており、今後数年間の複合年間成長率は39%を超え、市場規模は2025年までに3,850億米ドルに達すると予測されています。
データ・サイエンス・プラットフォームにどのような機能があるかを調べる際は、次の主要機能について確認するようにしてください。
次のような課題のある組織では、データ・サイエンス・プラットフォームの導入によってメリットが得られる可能性があります。
データ・サイエンス・プラットフォームはビジネスに真の価値をもたらします。オラクルのデータ・サイエンス・プラットフォームに組み込まれている幅広いサービスは、モデルの導入の迅速化とデータ・サイエンスの結果の向上を目的とした、エンドツーエンドの包括的なエクスペリエンスをもたらします。