該当する結果がありません

一致する検索結果がありませんでした。

お探しのものを見つけるために、以下の項目を試してみてください。

  • キーワード検索のスペルを確認してください。
  • 入力したキーワードの同義語を使用してください。たとえば、「ソフトウェア」の代わりに「アプリケーション」を試してみてください。
  • 下記に示すよく使用される検索語句のいずれかを試してみてください。
  • 新しい検索を開始してください。
急上昇中の質問

データ・サイエンス

データ・サイエンスとは何でしょうか。

端的に言えば、統計、科学的手法、データ分析などの複数の分野を駆使してデータから価値を引き出すことです。

データ・サイエンスに取り組む人をデータ・サイエンティストと呼びます。データ・サイエンティストは、Web、スマートフォン、顧客、センサーなどの情報源から収集されたデータを、さまざまなスキルを組み合わせて分析します。

データ:機械学習にとって未開の領域

データ・サイエンスは今日、最も期待の大きい分野の1つです。ですが、なぜそれほど重要なのでしょうか?

それは、企業が「データの宝庫」となっているからです。現代のテクノロジーは増え続ける情報の作成と保存を可能にしましたが、その結果、データの量が爆発的に増加しています。世界に存在するデータの90%は過去2年間に作成されたと推定されています。たとえば、Facebookのユーザーによって1時間に1,000万枚もの写真がアップロードされています。

しかし、これらのデータは多くの場合、データベースやデータレイクに保管されているだけで、ほとんどが手付かずのままです。

こうしたテクノロジーによって収集、保存された大量のデータは、世界中の組織や社会に革新的なメリットをもたらす可能性を持っていますが、それを実現するには、それらのデータを解析できることが必要です。そこで登場するのが、データ・サイエンスです。

データ・サイエンスは、傾向を明らかにしたうえで、企業が優れた意思決定を下し、より多くの革新的な製品やサービスを作り出すのに役立つインサイトを生み出します。おそらくデータ・サイエンスで最も重要なのは、データから何を発見できるかをビジネス・アナリストに頼るのではなく、機械学習(ML)モデルを通じて、供給される膨大な量のデータから学習できるようになることです。

データはイノベーションの基盤となるものですが、その価値を引き出すには、データ・サイエンティストがデータから情報を集め、それらの情報に対応する必要があります。

データ・サイエンス、人工知能、機械学習のそれぞれの違いは何ですか?

データ・サイエンス、人工知能、機械学習のそれぞれの違いは何ですか?

データ・サイエンスとその—活用方法—について理解を深めるためには、人工知能(AI)や機械学習など、その分野に関連する他の用語について知ることも同様に重要です。多くの場合、これらの用語は同じ意味で使用されていますが、微妙な違いがあります。

簡単に分類すると次のようになります。

  • AIとは、人間の動作を何らかの方法でコンピューターに模倣させることを意味します。
  • データ・サイエンスはAIの分野の1つであり、統計、科学的手法、データ分析の領域がより多く重なったものを意味します。これらの領域はすべて、データから意味や洞察を抽出する目的で使用されます。
  • 機械学習はAIのもう1つの分野です。この分野を構成する手法を利用することによって、コンピューターはデータから物事を理解し、AIアプリケーションを提供できるようになります。

さらに、次のような定義も紹介しておきましょう。

  • 深層学習。これは機械学習の分野の1つで、コンピューターがより複雑な問題を解決できるようにするものです。

データ・サイエンスによるビジネスの変革

データ・サイエンスとデータの増加

組織はデータ・サイエンスを利用して製品やサービスを改善し、データを競争上の優位性に変えようとしています。データ・サイエンスや機械学習には次のようなケースがあります。

  • コール・センターから収集したデータを分析して顧客の解約率を調べ、顧客維持のためのマーケティング対策を講じることができる
  • 交通パターンや気象条件などの要因を分析して効率を改善し、物流会社が配送の迅速化とコスト削減を図ることができる
  • 医学検査のデータや症状の報告を分析して患者の診断を改善し、医師が病気を早期に診断してより効果的に治療できるようになる
  • 機器の故障時期を予測してサプライ・チェーンを最適化する
  • 不審な行動や異常な行為を認識して金融サービスの詐欺を検出する
  • 過去の購入に基づいて顧客へのおすすめを作成し、売上を向上させる

多くの企業がデータ・サイエンスに優先的に取り組んでおり、多大な投資を行っています。3,000人余りのCIOを対象としたGartnerの最近の調査では、回答者がアナリティクスとビジネス・インテリジェンスを組織の差別化テクノロジーのトップにランク付けしました。調査対象となったCIOは、これらのテクノロジーを自社にとって最も戦略的なものと見なしており、それにふさわしい投資を行っています。

データ・サイエンスの実施方法

データ・サイエンスの実施方法

データの分析とそれに応じた行動決定のプロセスは、線形的というよりは反復的ですが、データ・モデリング・プロジェクトにおけるデータ・サイエンスのライフサイクルは通常は次のような流れになります。

  • 計画:プロジェクトとその成果の候補を定義します。
  • データ・モデルの構築:多くの場合、データ・サイエンティストは、さまざまなオープン・ソース・ライブラリやデータベース内ツールを使用して機械学習モデルを構築します。ユーザーは多くの場合、データの取り込み、データのプロファイリングと視覚化、または機能エンジニアリングに役立つAPIを望みます。ユーザーには適切なツールが必要になるだけでなく、適切なデータやその他のリソース(計算能力など)へのアクセスも必要になります。
  • モデルの評価:データ・サイエンティストが自分のモデルを自信を持って展開するためには、そのモデルについて高い精度を実現する必要があります。通常、モデルの評価では、新しいデータに対するモデルのパフォーマンスを測定するための包括的な評価指標と視覚化一式を作り出し、本番環境で最適な動作が実現するように、それらを時間をかけてランク付けします。モデルの評価は本来のパフォーマンスを超えるものになり、期待される基準の動作が考慮されます。
  • モデルの説明:機械学習モデルがもたらす結果の内部的なメカニズムを人間の言葉で説明できることは、必ずしも可能であったわけではありませんが、その重要性はますます高まってきています。データ・サイエンティストは、予測の生成に関与する要因の相対的な重み付けと重要性についての説明が自動化されることを求めています。また、モデルの予測に関するモデル固有の詳細な説明も求めています。
  • モデルの導入:トレーニングを施した機械学習モデルを必要なシステムに導入する作業は、多くの場合、困難で面倒なプロセスです。プロセスを簡単にするために、モデルをスケーラブルでセキュアなAPIとして運用化したり、データベース内機械学習モデルを利用したりできます。
  • モデルの監視:残念ながら、モデルは導入で終わりではありません。導入後、モデルが正しく機能していることを確認するために、常にモデルを監視する必要があります。モデルのトレーニングに利用したデータが、時とともに将来の予測に関連しなくなっていく場合があります。たとえば詐欺の検出では、犯罪者はアカウントをハッキングする新しい方法を常に考え出そうとしています。

データ・サイエンスのためのツール

データ・サイエンスのためのツール

機械学習モデルの構築、評価、導入、監視のプロセスは複雑になる場合があります。そのため、データ・サイエンス・ツールの数が増加を続けています。データ・サイエンティストが利用するツールには多くの種類がありますが、最も一般的なツールの1つはオープン・ソースのノートブックです。これは、コードの記述と実行、データの視覚化、結果の確認を、すべて同じ環境の中で行うWebアプリケーションです。

特に人気のあるノートブックとしてはJupyter、RStudio、Zeppelinなどがあります。ノートブックは分析を行うにはとても便利ですが、データ・サイエンティストがチームで作業する必要がある場合には制限があります。この問題を解決するために開発されたのがデータ・サイエンス・プラットフォームです。

どのようなデータ・サイエンス・ツールが適切かを判断するには、次の問いに答えることが重要です。データ・サイエンティストはどのような言語を使用していますか?どのような作業方法を好みますか?どのようなデータソースを使用していますか?

たとえば、データソースに依存しないサービスを好むユーザーもいます。こうしたサービスではオープン・ソースのライブラリが使用されています。一方で、データベース内の機械学習アルゴリズムの処理速度を好むユーザーもいます。

誰がデータ・サイエンスのプロセスを統括するのか?

誰がデータ・サイエンスのプロセスを統括するのか?

通常、ほとんどの組織では、データ・サイエンス・プロジェクトは次の3種類のマネージャーによって統括されています。

  • ビジネス・マネージャー:ビジネス・マネージャーは、データ・サイエンス・チームと協力して問題を定義し、分析のための戦略を開発します。マーケティング、財務、営業などの事業部長が担当することもあり、データ・サイエンス・チームはその指揮下に配属されます。ビジネス・マネージャーはデータ・サイエンス・マネージャーやITマネージャーと緊密に連携しながら、プロジェクトの進行を管理します。
  • ITマネージャー:シニアITマネージャーは、データ・サイエンスの運用をサポートするインフラストラクチャとアーキテクチャを担当します。このマネージャーは、運用状況やリソースの使用率を常に監視して、データ・サイエンス・チームが効率的かつ安全に運用を継続できるようにします。また、ITマネージャーはデータ・サイエンス・チームが使用するIT環境の構築や更新についても担当する場合があります。
  • データ・サイエンス・マネージャー:このマネージャーは、データ・サイエンス・チームとその日常業務を監督します。チームのまとめ役として、プロジェクトの計画や監視とのバランスを図りながらチーム開発を進める、チーム。ビルダーの役割を果たします。

ただし、このプロセスで最も重要な役割を果たすのはデータ・サイエンティストです。

データ・サイエンティストとは?

データ・サイエンティストとは?

データ・サイエンスは、まだ新しい学術分野です。元々は、統計分析とデータ・マイニングの分野から発展したものです。Data Science Journalは、2002年に国際科学会議の科学技術データ委員会により発行されました。データ・サイエンティストという肩書は2008年ごろから一般化し、その後、この分野が急速に成長していきました。以降、データ・サイエンスの学位の授与を始めている大学が増え続けていますが、データ・サイエンティストの数は相変わらず不足しています。

データ・サイエンティストの職務には、データの分析戦略の開発、分析用データの準備、データの探索/分析/視覚化、PythonやRなどのプログラミング言語を使用したデータによるモデルの構築、アプリケーションへのモデルのデプロイなどがあります。

データ・サイエンティストは単独で作業するわけではありません。実際、効果的なデータ・サイエンス業務の多くはチームで進められます。このチームには、データ・サイエンティストのほかに、問題を定義するビジネス・アナリスト、データとそのアクセス手方法を準備するデータ・エンジニア、基盤となるプロセスとインフラストラクチャを監督するITアーキテクト、分析のモデルや出力をアプリケーションや製品に導入するアプリケーション開発者などが加わることもあります。

データ・サイエンス・プロジェクトの実装における課題

データ・サイエンティストとは?

データ・サイエンスの重要性は広く知られるようになり、データ・サイエンス・チームに対する投資も盛んに行われるようになりましたが、多くの企業では、データの価値を十分に引き出せていません。人材の獲得やデータ・サイエンス・プログラムの開発に向けて競争が進むなか、一部の企業では、使用するツールやプロセスがスタッフによって異なるために、連携がうまくいかず、チームのワークフローが非効率になるという事態が発生しています。もっと統制の取れた、一元的な管理体制を整えなければ、経営幹部は投資効果を十分に把握できません。

このように環境がばらばらだと、様々な問題が生じます。

データ・サイエンティストが効率的に作業できない。データへのアクセスにはIT管理者からの許可を得る必要があるため、データ・サイエンティストは分析するデータやリソースにすぐにアクセスできず、長く待たされる状況が頻繁に発生します。また、アクセスが許可されても、データ・サイエンス・チームが使用するツールがメンバーごとに異なっていて、互換性がないというケースもあります。たとえば、あるサイエンティストがR言語を使ってモデルを開発し、それを使用するアプリケーションが別の言語で記述されているケースもあるでしょう。その場合、モデルをアプリケーションにデプロイするのに数週間かかったり、場合によっては数か月かかることも考えられます。

アプリケーション開発者が機械学習にアクセスして使用できない。開発者が機械学習モデルを受け取っても、それをアプリケーションに導入する準備ができていないことがあります。また、アクセス・ポイントに柔軟性があるとは限らないため、必ずしもすべてのシナリオでモデルを導入できるわけではなく、スケーラビリティがアプリケーション開発者に委ねられてしまいます。

IT管理者がサポートに時間をとられすぎる。オープン・ソース・ツールが急増しているため、ITチームがサポートしなければならないツールの数が増え続ける場合があります。たとえば、マーケティング部門のデータ・サイエンティストと財務部門のデータ・サイエンティストとの間で、使用しているツールが異なる場合があります。また、チームによってワークフローが異なっているために、ITチームが環境を何度も再構築し、更新する必要があるというケースも考えられます。

ビジネス・マネージャーがデータ・サイエンスから除かれる。データ・サイエンスのワークフローが常にビジネスの意思決定のプロセスやシステムに組み込まれているとは限らないため、ビジネス・マネージャーがデータ・サイエンティストと十分な方法をやりとりしながら連携することが難しくなります。統合が不十分だと、ビジネス・マネージャーはプロトタイプから本番環境への移行に長い時間がかかっている理由を理解できず、移行が遅すぎると感じるプロジェクトへの投資を支援しなくなる可能性があります。

データ・サイエンス・プラットフォームがもたらす新しい機能

データ・サイエンス・プラットフォームの出現

企業の多くは、統合プラットフォームがなければデータ・サイエンスの作業は非効率的で、安全でなく、拡張も困難になると認識するようになりました。そうした認識が、データ・サイエンス・プラットフォームの開発へとつながりました。データ・サイエンス・プラットフォームとは、データ・サイエンス業務を1つの環境にまとめるためのソフトウェア・ハブのことです。優れたプラットフォームを使用すれば、データ・サイエンスの導入に伴う多くの課題をクリアし、企業がデータをインサイトへと変えるスピードと効率を向上させるのに役立ちます。

一元化された機械学習プラットフォームにより、データ・サイエンティストは、連携性に優れた環境で好みのオープン・ソース・ツールを使用して作業できるようになり、すべての作業をバージョン管理システムによって同期させることができます。

データ・サイエンス・プラットフォームのメリット

データ・サイエンス・プラットフォームのメリット

データ・サイエンス・プラットフォームによって、コード、結果、レポートをチーム間で共有できるようになり、冗長性が減少してイノベーションが推進されます。管理が簡素化されてベスト・プラクティスが組み込まれ、ワークフローのボトルネックが解消されます。

一般に、最適なデータ・サイエンス・プラットフォームは次のようなことを目的としています。

  • データ・サイエンティストによるモデルの迅速な開発、提供の迅速化、エラーの低減を促進してデータ・サイエンティストの生産性を高める
  • データ・サイエンティストが多種多様な大量のデータを扱いやすくなるようにする
  • 偏りがなく、監査と再現が可能な、エンタープライズグレードの信頼できる人工知能を提供する

データ・サイエンスプラットフォームは、専門のデータ・サイエンティスト、シチズン・データ・サイエンティストデータエンジニア、機械学習エンジニアやスペシャリストといった幅広いユーザーによるコラボレーションを目的として構築されています。たとえば、データ・サイエンティストはデータ・サイエンス・プラットフォームを利用してモデルをAPIとして導入することで、モデルをさまざまなアプリケーションに簡単に統合できるようになります。データ・サイエンティストは、ITチームの許可を待つことなく、ツール、データ、インフラストラクチャにアクセスできます。

データ・サイエンス・プラットフォームに対する需要は大きく広がっています。実際、このプラットフォームの市場は大きな成長が見込まれており、今後数年間の複合年間成長率は39%を超え、市場規模は2025年までに3,850億米ドルに達すると予測されています。

データ・サイエンティストがプラットフォームに求めるもの

データ・サイエンティストがプラットフォームに求めるもの

データ・サイエンス・プラットフォームにどのような機能があるかを調べる際は、次の主要機能について確認するようにしてください。

  • コラボレーションを促進するプロジェクトベースのUIを選ぶ。コンセプト作りから最終的な開発に至るまで、モデルの構築を連携して行えるプラットフォームを選びましょう。それぞれのチーム・メンバーがデータやリソースにセルフサービスでアクセスできるようにする必要があります。
  • 統合と柔軟性を優先させる。最新のオープン・ソース・ツールをサポートしているプラットフォームを選びましょう。GitHub、GitLab、Bitbucketなどの一般的なバージョン管理プロバイダーが利用できるかどうかや、その他のリソースと緊密に統合できるかどうかを確認してください。
  • エンタープライズグレードの機能を備えている。チームの拡大とともにビジネスに合わせて拡張できるプラットフォームを選ぶようにしましょう。可用性に優れ、アクセス制御も万全で、多数の同時ユーザーに対応できるプラットフォームを選ぶ必要があります。
  • データ・サイエンス業務のセルフサービス化を促進できる。ITチームややエンジニアリング・チームの負担を軽減できることや、データ・サイエンティストが環境をすぐに稼働できること、すべての作業を追跡できること、さらには、モデルを本番環境に簡単にデプロイできることを重視してプラットフォームを選びましょう。
  • モデルの導入を容易にする。モデルの導入と運用化は機械学習のライフサイクルにおける最も重要なステップの1つですが、多くの場合、重要視されていません。モデルの運用を容易にするサービスを選ぶ必要があります。これはAPIを提供する場合でも、統合を簡単にするような形でユーザーがモデルを構築する場合でも同じです。

データ・サイエンス・プラットフォームの導入が適切となるケース

次のような課題のある組織では、データ・サイエンス・プラットフォームの導入によってメリットが得られる可能性があります。

  • 生産性やコラボレーションに限界が見えている
  • 機械学習モデルの監査や再現ができない
  • モデルを本番環境に導入したことがない

データ・サイエンス・プラットフォームはビジネスに真の価値をもたらします。オラクルのデータ・サイエンス・プラットフォームに組み込まれている幅広いサービスは、モデルの導入の迅速化とデータ・サイエンスの結果の向上を目的とした、エンドツーエンドの包括的なエクスペリエンスをもたらします。

データ・サイエンス学習ライブラリ

人工知能とは?
人工知能の詳細

人工知能(AI)は、テクノロジーや機械を通じてデータを処理することで、人間のタスクを学習し、自ら進化しながら、それらを実行できるようにする技術です。

機械学習の詳細
機械学習の詳細

機械学習は、人工知能(AI)の分野の1つです。データを通じて学習するシステムを構築することに主眼を置いた研究分野で、その目標は、意思決定を自動化して迅速化し、、価値実現までの時間を短縮することです。

ニュースと意見
ニュースと意見

機械学習、人工知能、データ・サイエンスは、複雑な問題に対する企業のアプローチに変化をもたらし、各業種における従来の方法を変えつつあります。最新の記事を読んで、これらのテクノロジーに対する業界や同業他社の人々のアプローチを確認しましょう。