該当する結果がありません

一致する検索結果がありませんでした

お探しのものを見つけるために、以下の項目を試してみてください。

  • キーワード検索のスペルを確認してください。
  • 入力したキーワードの同義語を使用してください。たとえば、「ソフトウェア」の代わりに「アプリケーション」を試してみてください。
  • 下記に示すよく使用される検索語句のいずれかを試してみてください。
  • 新しい検索を開始してください。

 

急上昇中の質問

ビッグ・データとは何か

ビッグ・データの定義

ビッグ・データとは、正確には何なのでしょうか。

ビッグ・データを真に理解するには、その歴史的背景を知るといいでしょう。Gartnerによる定義はこうなっています(2001年頃の定義ですが、今でも信頼できる定義です):ビッグ・データとは、種類(Variety)も量(Volume)も増え、速度(Velocity)も上がり続けているデータのことをいう。これが、いわゆるビッグ・データの「3つのV」です。

簡単にいうと、ビッグ・データとは大規模で複雑化した、特に新しいデータ・ソースに由来するデータ・セットのことです。このデータ・セットはあまりにも大量なので、従来のデータ処理ソフトウェアでは管理しきれません。しかし、こうした膨大な量のデータを利用すれば、今までは対処できなかったビジネス上の問題にも対応できるのです。

ビッグ・データの3つのV

Volume(量) データの量は重要です。ビッグ・データでは、密度が低く、構造化されていないデータを大量に処理しなければなりません。そのなかには、Twitterのデータ・フィード、Webページやモバイル・アプリでのクリックストリーム、またはセンサー対応機器など価値の不明なデータも含まれています。組織によって、データは何十テラバイト単位の場合もあれば、何百ペタバイトに及ぶことさえあります。
Velocity(速度) 速度とは、データが受け取られ、(たいていは)処理される高速な速度のことです。通常は、データ・ストリームが直接メモリーに書き込まれる速度がもっとも高く、ディスクへの書き込みとは異なります。インターネット機能があるスマート製品は、リアルタイムまたはほぼリアルタイムで動作するので、リアルタイムの評価と対応を必要とします。
Variety(種類) 種類とは、利用できるデータの種類が多いことを指します。従来のデータは構造化されており、リレーショナル・データベースにも適していました。ビッグ・データの普及とともに、構造化されていない新しいデータの種類が増えています。テキスト、音声、動画といった非構造化および半構造化データは、意味を導き出しメタデータをサポートするために事前処理が必要です。

ビッグ・データの価値と真実

その後、最近になって2つのVが追加されました。価値(Value)正確性(Veracity)です。

データには固有の価値があります。しかし、それもその価値が発見されなければ意味がありません。同じくらい重要なのが、データがどのくらい真実か、どのくらい信頼できるかということです。

今や、ビッグ・データは資本になりました。世界有数のテクノロジー企業について考えてみましょう。テクノロジー企業の大手が提供している価値のほとんどは、データから来ています。データを常に分析して効率を上げ、新しい製品を開発しているのです。

近年のテクノロジー上のブレークスルーによって、データ・ストレージとコンピュートのコストは飛躍的に下がり、データの保存は従来よりずっと簡単に、しかも安価になりました。ビッグ・データは量が増える一方で安価に利用しやすくなっているので、ビジネス上の意思決定を今まで以上に正確かつ高精度で下すことができます。

ビッグ・データに価値を見いだすうえで重要なのは、その分析だけではありません(それ自体は別のメリットです)。検出プロセス全体が重要であり、そこでインサイトに富むアナリスト、ビジネス・ユーザー、そしてエグゼクティブが適切な内容を質問し、パターンの認識、情報に基づく仮定、行動の予測を行う必要があります。

では、どうすればそれが実現できるのでしょうか。

ビッグ・データの歴史

ビッグ・データという概念そのものは比較的新しいものですが、大規模データ・セットの始まりは古く、1960年代から70年代、初期のデータ・センターでデータの世界が始まったときや、リレーショナル・データベースの頃からありました。

2005年頃になると、FacebookやYouTubeをはじめとするオンライン・サービスでユーザーが生み出すデータ量の多さが認識され始めました。Hadoop(大規模なデータ・セットの格納と分析を特に目的として作成されたオープンソースのフレームワーク)が開発されたのは、その年のことです。同じ頃、NoSQLも普及し始めています。

ビッグ・データの発展には、Hadoop(もっと最近ではSpark)などのオープンソース・フレームワークの開発が不可欠でした。ビッグ・データの扱いが容易になり、格納するコストも下がるからです。それ以来、ビッグ・データは急激に増加しています。ユーザーは今でも大量のデータを生み出し続けていますが、それは人間だけではありません。

モノのインターネット(IoT)が登場すると、インターネットに接続するモノやデバイスが増え、顧客の利用パターンや製品のパフォーマンスに関してデータを収集するようになったからです。機械学習が出現すると、生み出されるデータはさらに増えます。

ビッグ・データはこのように普及しましたが、その実用は始まったばかりです。クラウド・コンピューティングが、ビッグ・データの可能性をさらに広げました。クラウドは弾力的な拡張性をもち、開発者はアドホック・クラスタの処理速度を上げて、データのサブセットをテストすることができます。

ビッグ・データとデータ分析のメリット

  • ビッグ・データを利用すると、利用できる情報も多くなるため、今まで以上に複雑な回答を得ることができます。
  • 回答が完全になればなるほど、データの信頼性も向上します。つまり、問題への対処に対してまったく異なるアプローチができるということです。

ビッグ・データのユース・ケース

ビッグ・データは、カスタマー・エクスペリエンスから分析まで、幅広いビジネス活動に対処できます。その例をいくつかご紹介します。(他のユース・ケースは、オラクルのビッグ・データ・ソリューションをご覧ください。)

製品開発 NetflixやProcter & Gambleなどの企業は、ビッグ・データを使用して顧客の需要を予測するようになりました。過去の現在の製品またはサービスの主な属性を分類し、その属性と商業的な成功との関係をモデル化して、新しい製品やサービスの予測モデルを構築しています。またP&Gは、フォーカス・グループ、ソーシャル・メディア、テスト・マーケット、初期の店舗展開から得られるデータと分析を利用して、新製品の計画、生産、発売につなげています。
予測メンテナンス 機械的な障害を予測できる要因は、設備の製造年、製造元、モデルといった構造化データに深く埋まっていることもあれば、また膨大な量のログ・エントリ、センサー・データ、エラー・メッセージ、エンジン温度などに及ぶ非構造化データに隠れていることもあります。問題が顕在化する前に、こうした潜在的な問題の指標を分析することで、組織は効率的にメンテナンスを展開し、部品や設備の稼働時間を最大化することができます。
カスタマー・エクスペリエンス 顧客をめぐる争奪戦が始まっています。カスタマー・エクスペリエンスを明瞭に把握することは、これまで以上に容易になってきました。ビッグ・データを利用すれば、ソーシャル・メディア、Webサイト、通話記録といったソースからデータを収集し、対話の体験を改善してそこから最大限の価値を得ることができます。パーソナライズした製品やサービスの提供を始め、顧客離れを抑制して、問題をプロアクティブに処理しましょう。
不正対策とコンプライアンス セキュリティについて考えるなら、問題になるのは少数の悪質なハッカーではありません。相手は専門性の高いグループです。セキュリティをめぐる状況とコンプライアンスの要件は、常に変化しています。ビッグ・データは、不正の可能性が高いデータのパターンを識別し、大量の情報を集約して規制当局への報告を迅速に作成するときにも有効です。
機械学習 機械学習は今、ホットなトピックです。その理由のひとつはデータ、とりわけビッグ・データにあります。機械は、プログラムするのではなく教え込むことができるようになりました。それを可能にしたのが、機械学習モデルのトレーニングにビッグ・データを利用できるようになったことです。
運用効率 運用効率というのは、特に目新しいことではないかもしれませんが、ビッグ・データの重要性が高い部分です。ビッグ・データを利用すれば、製品、顧客からのフィードバック、返品、その他の要因を分析・評価して、ダウンタイムを減らし、今後の需要を予測することができます。ビッグ・データによって、現在の市場需要に応じた意思決定を改善することもできます。
イノベーションの推進 ビッグ・データは、人間、組織や団体、プロセスの相互依存性を研究し、そのインサイトの新しい使い方を決めることによってイノベーションを促します。データ・インサイトを活用して、財務やプランニングの検討事項に関する意思決定を改善する。トレンドや顧客の要望を調べて、新しい製品やサービスを提供する。動的な価格設定を実装する。可能性は無限大です。

ビッグ・データの課題

ビッグ・データは多くの点で有望ですが、課題がないわけではありません。

まず、ビッグ・データは……ビッグです。データを格納するための新しいテクノロジーも開発されていますが、データの量はほぼ2年ごとに2倍になっています。組織はいまだに、データに追いつき、有効に保存する方法を見いだすことに苦労しているのが現状です。

しかも、データは保存すればいいものではありません。データは使って初めて価値を生むもので、そのためにはキュレーションが必要です。クリーン・データ、つまり顧客にとって適切であり、意味のある形で分析ができるよう整理されているデータを用意するには、相当の労力が必要になります。データ・サイエンティストは、実際にデータが使えるようになる前のキュレーションと準備にその時間の50~80%を費やしているといいます。

それだけでなく、ビッグ・データのテクノロジーは急速に変化しつつあります。数年前までは、ビッグ・データの処理に使うテクノロジーとしてApache Hadoopが人気でした。その後、2014年になるとApache Sparkが登場しました。今日では、その2つのフレームワークの組合せが最適なアプローチのようです。ビッグ・データのテクノロジーに追いついていくのは、終わることのない課題なのです。

ビッグ・データに関するリソースをもっと見る

ビッグ・データの仕組み

ビッグ・データは、新しい可能性とビジネス・モデルを切り開く新しいインサイトをもたらします。ビッグ・データを始めるのに必要な対応は、次の3つです。

1.統合

ビッグ・データは、種類の異なる多数のソースやアプリケーションからデータを集めます。ETL(抽出、変換、ロード)など従来のデータ統合メカニズムでは、とうてい足りません。テラバイト級、さらにはペタバイト級の大規模なデータ・セットを分析するには、新しい戦略とテクノロジーが必要です。

統合の際には、データを取り込んで処理し、適切なフォーマットにして、ビジネス・アナリストが手をつけられる形で公開しなければなりません。

2.管理

ビッグ・データには、ストレージが必要です。ストレージ・ソリューションとしては、クラウド、オンプレミス、その併用という選択肢があります。データは希望するどんな形で格納することもでき、そのデータに必要な処理要件と必要なプロセス・エンジンを、オンデマンドで用意できます。ストレージ・ソリューションを選択する基準はたいてい、現在どこにデータがあるかということです。クラウドは、現在の計算処理要件に対応しつつ、必要に応じてリソースを拡張していけることから、ますます人気が高くなっています。

3.分析

ビッグ・データに対する投資は、データを分析しデータに基づいて対応したときに初めてその価値を発揮します。様々なデータ・セットのビジュアル分析によって、新たな明晰さを得ることができます。データをさらに探索すれば、新しい発見があります。発見した結果は、他のユーザーと共有しましょう。機械学習と人工知能を使ってデータ・モデルを構築します。データを実用につなげましょう。

ビッグ・データのベスト・プラクティス

ビッグ・データ導入への道程の一助として、念頭に置くべき重要なベスト・プラクティスをいくつかご紹介します。ビッグ・データの基盤づくりに成功するためのガイドラインとしてください。

ビッグ・データを具体的なビジネス目標に合せる 詳細なデータ・セットが増えれば、新しい発見が可能になります。そのためには、ビジネス主導の強力なコンテキストでスキル、組織、インフラに対する新たな投資を基礎に据え、継続的なプロジェクト投資と財源確保を保証することが重要です。正しい道筋をたどれていることを確認するために、ビッグ・データがビジネスとITの最優先事項をサポート誌、実現しているかどうか確かめましょう。たとえば、Webログを絞り込んでeコマースの挙動を把握すること、ソーシャル・メディアやカスタマー・サポートの対話からセンチメントを導き出すこと、統計的な相関手法とそれが顧客、製品、製造、およびエンジニアリングのデータとどう関連するかを理解すること、などが考えられます。
標準およびガバナンスによってスキルの不足を取り除く ビッグ・データに対する投資から利益を得ようとしたとき、最大の障害となるのが、スキルの不足です。このリスクは、ビッグ・データのテクノロジー、検討事項、決定事項をITのガバナンス・プログラムに間違いなく反映すれば、抑えることができます。アプローチの標準化によって、コストの管理と人材の活用が可能になります。ビッグ・データのソリューションと戦略を実装しようとする組織は、早くから頻繁にスキル要件を評価し、予想されるスキル・ギャップを前もって見極めることが必要です。こういったことに対処するには、既存の人材をトレーニング/クロストレーニングする、新しい人材を雇用する、コンサルタント企業を活用するといった対策があります。
センター・オブ・エクセレンスで知識の伝達を最適化 知識を共有し、見逃しを抑え、プロジェクトのコミュニケーションを管理するには、センター・オブ・エクセレンスのアプローチを用います。ビッグ・データへの投資が初めての場合でも投資を拡大する場合でも、ソフト・コストとハード・コストは全社間で共有できます。このアプローチを活用すれば、ビッグ・データの性能と情報アーキテクチャ全体の成熟度が上がり、構造化と体系化が進みます。
最大の利点は、非構造化データと構造化データを連携できること

ビッグ・データをそのまま分析できれば、確かに価値があります。しかし、密度の低いビッグ・データでも、現在すでに利用している構造化データとつないで統合すれば、さらに大きなビジネス・インサイトを得ることができます。

顧客、製品、備品、環境など何に関するビッグ・データを取得する場にしても、目標は中核となるマスターおよび分析サマリーに、さらに適切なデータ・ポイントを追加することです。たとえば、あらゆる顧客のセンチメントと、最良の顧客のセンチメントとを区別することに差があります。だからこそ、ビッグ・データが既存のビジネス・インテリジェンス機能、データ・ウェアハウス・プラットフォームおよび情報アーキテクチャを拡張するものとして不可欠だという見方は少なくありません。

ビッグ・データ分析のプロセスとモデルは、人間ベースも機械ベースにもできることを念頭においてください。ビッグ・データ分析の機能としては、統計、空間分析、セマンティクス、対話的な発見、ビジュアライゼーションがあります。分析モデルを利用すれば、様々なタイプとソースのデータを相関して、関連付けと意味のある発見が可能になります。

ラボでパフォーマンスを見極めて計画する

データに意味を見いだそうとしても、簡単にいくときばかりではありません。ときには、何を求めているのかさえわからないことがあります。それは当然です。経営幹部とITが、この「方向性の欠如」や「明確な要件の欠如」に対応しなければなりません。

同時に、アナリストとデータ・サイエンティストが業務部門と密接に協力して、業務上の知識に関する主なギャップや要件を把握することも重要です。インタラクティブなデータの探索と、統計的アルゴリズムの実験に対応するためには、パフォーマンスの高い作業領域が必要になります。サンドボックス環境が、必要なサポートを受けられ、適切に統制されていることを確認してください。

クラウド運用モデルと連携する ビッグ・データのプロセスとユーザーは、反復的な実験のためにも、本番ジョブを実行するためにも、幅広いリソースにアクセスできなければなりません。ビッグ・データ・ソリューションには、トランザクション、マスター・データ、参照データ、要約データなどのあらゆるデータ・レルムが含まれます。必要に応じて分析サンドボックスを作成する必要があります。前処理と後処理、統合、インデータベースのサマリー作成、分析的なモデリングなどデータ・フローの全体を確実に制御するには、リソース管理が必須です。このように変化の絶えない要件をサポートするには、十分に計画されたプライベートおよびパブリック・クラウドのプロビジョニングならびにセキュリティ戦略が、重要な役割をはたします。