該当する結果がありません

一致する検索結果がありませんでした

データ・サイエンスとは?

データ・サイエンスは、複数の分野にまたがる学問であり、科学的な方法、プロセス、アルゴリズム、システムを使用して、データからバリューを抽出するものです。データ・サイエンティストは、統計学、コンピュータ科学、ビジネス・ナレッジなど、幅広い分野のスキルを組み合わせて、Web、スマートフォン、顧客、センサー、およびその他のソースから収集されたデータを分析します。

データ・サイエンスでは、傾向を明らかにしたうえで、意思決定を迅速化したり、革新的な製品やサービスを作り出すために役立つインサイトを生成します。データはイノベーションの基盤となるものですが、その価値を引き出すには、データ・サイエンティストがデータから情報を収集し、それらの情報に対応する必要があります。

 

データ・サイエンティスト向けのツール

データ・サイエンティストは様々なツールを使用しますが、最もよく使われるのはオープンソースのノートブックです。これは、コードの記述と実行、データの可視化、結果の確認を、すべて同じ環境で行うためのWebアプリケーションです。特に人気のあるノートブックとしては、Jupyter、RStudio、Zepplinが挙げられます。ノートブックは分析を行うのにとても便利ですが、データ・サイエンティストがチームとして作業する必要がある場合には、不便な点もあります。この問題を解決するために登場したのが、データ・サイエンス・プラットフォームです。

データ・サイエンスとデータ量の増大

Data Science and the Growth of Data

近年、最新のテクノロジーによってかつてなく大量の情報を作成/格納できるようになった結果、データの量が急速に増大しています。世界に存在するデータの90パーセントは、過去2年間に作成されたものであると推定されています。たとえば、Facebookユーザーは、1時間当たり1,000万枚の写真をアップロードしています。世界に存在するオンライン・デバイス、すなわちモノのインターネット(IoT)の数は、2025年までに750億台を超えると予想されています.

これらのテクノロジーによって収集/格納される大量のデータは、世界中の企業や社会に革新的なメリットをもたらす可能性を持っていますが、それを実現するには、それらのデータを解釈する必要があります。そこで必要となるのが、データ・サイエンスなのです。

データとデータ・サイエンスの詳細については、こちらのインフォグラフィックをご覧ください。

データ・サイエンティストの出現

データ・サイエンティストの出現

データ・サイエンスは、まだ新しい学術分野です。元々は、統計分析とデータ・マイニングの分野から発生したものです。Data Science Journalは、国際科学会議の科学技術データ委員会によって2002年に発行されました。データ・サイエンティストという肩書は2008年ごろから一般化し、その後、その分野が急速に成長していきました。 以降、データ・サイエンスの学位を授与する大学が増えてはいるものの、データ・サイエンティストの数は常に不足している状況です。

データ・サイエンティストはその職務として、データ分析の戦略を開発したり、データを分析用に準備したり、データを探索/分析/可視化したり、PythonやRなどのプログラミング言語を使用してデータのモデルを構築したり、モデルをアプリケーション内にデプロイしたりします。

データ・サイエンティストは単独で作業するわけではありません。実際、効果的なデータ・サイエンス業務の多くはチームで進められます。このチームには、データ・サイエンティスト以外に、問題を定義するビジネス・アナリストや、データとそのアクセス方法を準備するデータ・エンジニア、基盤のプロセスとインフラを監督するITアーキテクト、分析のモデルや出力をアプリケーションや製品内にデプロイするアプリケーション開発者などが参加します。

データ・サイエンスがビジネスにもたらす変革

企業はデータ・サイエンス・チームを通じて製品やサービスを改善することにより、データを競争力へと変えます。たとえば、コールセンターから収集されたデータを分析して、解約する可能性が高い顧客を特定し、マーケティング・チームがそれらの顧客の維持に向けて対応できるようにしている企業もあります。流通業界の企業では、交通のパターンや気象条件、およびその他の要因を分析して、配送スピードの改善やコストの削減に役立てるケースがあります。医療関連の企業では、医療検査データや報告された症状を分析して、医師がより早期に病気を診断し、より効果的に治療を行えるようにしているケースもあります。

近年、多くの企業がデータ・サイエンスを優先事項に位置付け、重点的な投資を行っています。3,000人以上のCIOを対象に Gartnerが最近行った調査によると 回答者の多くが、アナリティクスやビジネス・インテリジェンスを組織の最重要差別化テクノロジーとして位置付けています。調査対象となったCIOたちは、これらのテクノロジーを自社の最重要戦略と考え、新規投資の多くをそれらに注ぎ込んでいます。

データ・サイエンスの実施方法

How Data Science is Conducted

データを分析して結果に対応するプロセスは、単発的ではなく反復的に行われます。通常、データ・モデリング・プロジェクトは次のようなワークフローで実施されます。

  • プランニング: プロジェクトと、その考えうる成果について定義します
  • 準備: 作業環境を構築して、データ・サイエンティストが適切なツールを使用できることと、適切なデータやその他のリソース(計算パワーなど)にアクセスできることを確認します
  • 取り込み: 作業環境内にデータをロードします
  • 探索: データを分析し、探索し、可視化します
  • モデリング: モデルの構築、トレーニング、検証を行って、目的どおりに機能できるようにします
  • デプロイ: モデルを本番環境にデプロイします

データ・サイエンス・プロセスの監督者

Who Oversees the Data Science Process?

通常、データ・サイエンス・プロセスは、次の3種類のマネージャによって監督されます。

  • ビジネス・マネージャ: このマネージャは、データ・サイエンス・チームと連携して問題を定義し、分析のための戦略を開発します。これは、マーケティング、財務、営業などの事業部長が担当することもあり、データ・サイエンス・チームはその指揮下に配属されます。ビジネス・マネージャはデータ・サイエンス・マネージャやITマネージャと緊密に連携しながら、プロジェクトの進行を管理します。
  • ITマネージャ: シニアITマネージャは、データ・サイエンスの運用をサポートするインフラのプランニングとアーキテクチャを担当します。このマネージャは、運用状況やリソースの使用率を常に監視して、データ・サイエンス・チームが効率的かつ安全に運用を継続できるようにします。また、ITマネージャはデータ・サイエンス・チームが使用する環境の構築や更新も担当します。
  • データ・サイエンス・マネージャ:このマネージャは、データ・サイエンス・チームとその日常業務を監督します。データ・サイエンス・マネージャは、プロジェクトのプランニングや監視とバランスを図りながらチーム開発を進める、チーム・ビルダーの役割を果たします。

データ・サイエンスを導入するうえでの課題

データ・サイエンスの重要性は広く知られるようになり、データ・サイエンス・チームに対する投資も盛んに行われるようになりましたが、多くの企業では、データの価値を十分に引き出せていません。人材の獲得やデータ・サイエンス・プログラムの開発に向けて競争が進むなか、一部の企業では、使用するツールやプロセスがスタッフによって異なるために、連携がうまくいかず、チームのワークフローが非効率になるという事態が発生しています。もっと統制の取れた、一元的な管理体制を整えなければ、役員たちは投資効果を十分に把握できません。このように環境がばらばらだと、様々な問題が生じます。

データ・サイエンティストが効率的に作業できない。 データへのアクセスにIT管理者の許可が必要な場合、データ・サイエンティストは分析するデータやリソースにすぐにアクセスできず、長く待たされる状況が頻繁に発生します。また、アクセスが許可されても、データ・サイエンス・チームが使用するツールがメンバーごとに異なっていて、互換性がないというケースもあります。たとえば、あるサイエンティストがR言語を使ってモデルを開発し、それを使用するアプリケーションが別の言語で記述されているケースもあるでしょう。その場合、モデルをアプリケーションにデプロイするのに数週間かかったり、場合によっては数か月かかることも考えられます。

アプリケーション開発者が機械学習モデルにすぐに使用できない。 開発者が機械学習モデルを受け取っても、それらのコードを記述し直さなければならなかったり、アプリケーション内にすぐにデプロイできないースもあります。また、アクセス・ポイントに柔軟性がないと、様々なシナリオに応じてモデルをデプロイすることができず、スケーラビリティがアプリケーション開発者に委ねられてしまいます。

IT管理者がサポートに時間をとられすぎる。 オープンソース・ツールの数が増えるに従って、ITチームがサポートしなければならないツールの数も増え続けています。たとえば、マーケティング担当のデータ・サイエンティストと財務担当のデータ・サイエンティストとの間で、使っているツールが異なるというケースもあるでしょう。また、チーム間でワークフローが異なっているために、ITチームが環境を何度も再構築し、更新しなければならないというケースも考えられます。

ビジネス・マネージャがデータ・サイエンスから除かれる。 データ・サイエンスのワークフローがビジネスの意思決定プロセスやシステムと統合されていないと、ビジネス・マネージャがデータ・サイエンティストと十分な情報をやりとりしながら連携することが難しくなります。統合が不十分だと、ビジネス・マネージャはプロトタイプから本稼働への移行になぜ時間がかかっているのか理解できず、遅いと感じたプロジェクトを積極的に支援しなくなる可能性があります。

データ・サイエンス・プラットフォームの出現

Data Science Platform Emerges

統合型のプラットフォームがないと、データ・サイエンス業務の効率性やセキュリティが確保できず、スケーリングも困難になることは、多くの企業に知られるようになりました。その結果出現したのが、データ・サイエンス・プラットフォームです。データ・サイエンス・プラットフォームとは、すべてのデータ・サイエンス業務を1つの環境にまとめるためのソフトウェア・ハブのことです。優れたプラットフォームを使用すれば、データ・サイエンスを導入するうえでの様々な課題をクリアし、データからのインサイト抽出をより迅速かつ効率的に行うことができます。

一元的なプラットフォームが確保されることで、データ・サイエンティストは連携性に優れた環境で、好みのオープンソース・ツールを使って作業できるようになり、バージョン管理システムを通じて、すべての作業を同期できるようになります。

自律性をサポートするデータ・サイエンス・プラットフォームによってビジネス・インパクトを高める

データ・サイエンス・プラットフォームのメリット

The Benefits of a Data Science Platform

データ・サイエンス・プラットフォームでは、コード、結果、レポートをチーム間で共有することで、冗長性を減らし、イノベーションを推進します。また、オープンソースのツール、フレームワーク、インフラを使って管理を簡素化することにより、ワークフローのボトルネックを減らします。

たとえば、データ・サイエンス・プラットフォームで、データ・サイエンティストがモデルをAPIとしてデプロイできれば、様々なアプリケーションにモデルを簡単に統合できます。データ・サイエンティストは、ITチームの許可を待つことなく、ツール、データ、インフラにアクセスできます。

データ・サイエンス・プラットフォームに対する需要は大きく広がっています。実際、このプラットフォームの市場は大きな成長が見込まれており、 今後数年間の複合年間成長率は39パーセントを超え、市場規模は2025年までに3,850億米ドルに達すると予測されています。

データ・サイエンス・プラットフォームの機能を検討する際には、次の主要機能について確認するようにしましょう。

  • コラボレーションを促進するプロジェクトベースのUIを選ぶ。 構想から最終開発まで、モデルの構築を連携的に行えるプラットフォームを選びましょう。各チーム・メンバーがセルフサービスでデータやリソースにアクセスできることが重要です。
  • 統合性と柔軟性を重視する。 最新のオープンソース・ツールをサポートしたプラットフォームを選びましょう。GitHub、GitLab、Bitbucketなどの一般的なバージョン管理プロバイダーが利用できるかどうかや、その他のリソースと緊密に統合できるかどうかを確認しましょう。
  • エンタープライズグレードの機能を備えている。ビジネスやチームの成長に応じて拡張できるプラットフォームを選ぶようにしましょう。可用性に優れ、アクセス制御も万全で、多数の同時ユーザーに対応できるプラットフォームを選ぶことが重要です。
  • データ・サイエンス業務のセルフサービス化を促進できる。 ITチームやエンジニアリング・チームの負担を軽減できることや、データ・サイエンティストが環境をすぐに稼働できること、すべての作業を追跡できること、さらには、モデルを簡単に本番環境へデプロイできることを重視してプラットフォームを選びましょう。

データ・サイエンス関連の人材獲得競争

データ・サイエンスを導入して競争力を強化しようとする企業にとって、人材の確保は最も大きな障壁となっています。 McKinsey & Companyが最近行った調査によると、 企業の役員の半数は、地域や業種を問わず、分析の専門家を確保するのが他のスキルに比べて難しいと答えています。また、人材の定着率を問題点に挙げた回答者も40パーセントに上りました。

McKinseyのレポートでは、データ・サイエンティストだけでなく、その他の分析カテゴリでも人材の不足が報告されています。特に、ビジネス課題に対してデータ・サイエンスを適切に適用できる人材や、データを可視化するスキルに長けた人材が不足しています。

Indeed.com、Glassdoor、およびBloomberg、データ・サイエンス分野の人材に対する需要が大きく高まっているという根拠として、次のデータを公表しています。

  • Indeed.comでは、データ・サイエンティストに対する求人件数が2015年1月から2018年1月までの間に75パーセント増えました。またBloombergによると、データ・サイエンティストの求人検索数は65パーセント増加しています。
  • Glassdoorは、データ・サイエンティストに対する需要が2018年に供給を50パーセント上回ると予測しています。
  • Glassdoorは、データ・サイエンティストを3年連続で米国の最人気職業に選出しました。

人工知能に関する学習ライブラリ

What is Artificial Intelligence?
人工知能について詳しく知る

人工知能(AI)は、テクノロジーや機械を通じてデータを処理することで、人間のタスクを学習し、自ら進化しながら、それらを実行できるようにする技術です。

Learn more about Machine Learning
機械学習について詳しく知る

機械学習は、人工知能(AI)の一分野です。データを通じて学習するシステムを構築することに主眼を置いた研究分野で、その目標は、意思決定を自動化して迅速化し、バリュー達成までの時間を短縮することです。

News and Opinions
ニュースと評価

機械学習、人工知能、およびデータ・サイエンスは、複雑な問題に対する企業のアプローチに変化をもたらし、各業種における従来の方法を変えつつあります。最新の記事を読んで、これらのテクノロジーに対する企業のアプローチを確認しましょう。