What Is Big Data?

Michael Chen | Content Strategist | September 23, 2024

ビッグデータの定義

ビッグデータとは具体的にはどのようなものでしょうか。

ビッグデータを定義すると、より多様なデータを含み、より大量に、より高速に到着するデータと言えます。これは、いわゆるビッグデータの「3つのV」とも呼ばれます。

簡単に言えば、ビッグデータはより大きくより複雑なデータセットであり、特に新しいデータソースからのデータセットが該当します。これらのデータセットは非常に大きいため、従来のデータ処理ソフトウェアでは管理できません。しかし、これらの大量のデータを使用すれば、これまで解決できなかったビジネス上の問題に対処することができます。

ビッグデータの「3つのV」


  • データの量は重要です。ビッグデータでは、低密度の大量の非構造化データを処理する必要があります。そのなかには、X(旧Twitter)のデータフィード、Webページやモバイルアプリでのクリックストリーム、またはセンサー対応機器など価値の不明なデータも含まれています。組織によっては、データが数十テラバイトになる場合があります。中には、数百ペタバイトになる組織もあるかもしれません。
  • 速度
    速度とは、データが受け取られ、(たいていは)処理される高速な速度のことです。最高速度で処理されるデータストリームは、通常はディスクではなく、メモリに直接書き込まれます。一部のインターネット対応スマート製品は、リアルタイムまたはほぼリアルタイムで動作し、リアルタイムの評価とアクションが必要になります。
  • 種類
    種類とは、利用できるデータの種類が多いことを指します。従来のデータは構造化されており、リレーショナル・データベースにも適していました。ビッグデータの登場に伴い、データは新しい非構造化データタイプでやってくるようになりました。テキスト、オーディオ、ビデオなどの非構造化および半構造化データタイプでは、意味を導き出し、メタデータをサポートするために、追加の前処理が必要です。

ビッグ・データの価値と真実

その後、最近になって2つのVが追加されました。価値(Value)正確性(Veracity)です。データには本質的な価値があります。しかし、その価値が発見されるまでは役に立ちません。同じくらい重要なのが、データがどのくらい真実か、どのくらい信頼できるかということです。

現在では、ビッグデータは資本になっています。世界最大のテクノロジー企業のいくつかを考えてみてください。そのような企業が提供する価値の大部分はデータからもたらされています。より効率を上げて新製品を開発するために、データを絶えず分析しています。

最近の技術革新により、データストレージとコンピューティングのコストが飛躍的に低減され、これまで以上に多くのデータを簡単に低コストで保存できるようになりました。大量のビッグデータに、より安価にアクセスしやすくなったため、高い精度でより正確なビジネス上の意思決定を行うことができます。

ビッグデータから価値を見出すことは、単にビッグデータを分析することとは異なります(分析には別のメリットがあります)。価値を見出すことは、洞察力に優れたアナリストやビジネスユーザー、エグゼクティブが適切な問いを立て、パターンを認識し、情報をもとに仮説を立て、動きを予測することが必要な発見のプロセスです。

そのプロセスにたどり着く方法を見てみましょう。

ビッグ・データの歴史

ビッグデータ自体の概念は比較的新しいものですが、大規模なデータセットの起源は1960~70年代まで遡ります。当時、初めてのデータセンターが生まれ、リレーショナル・データベースが開発されたことで、データの世界が幕を開けました。

2005年頃には、FacebookやYouTube、その他のオンラインサービスでユーザーによって生成されるデータ量の多さが認識され始めました。同年には、大規模なデータセットの保存と分析に特化したオープンソースのフレームワークであるHadoopが開発されています。NoSQLが普及し始めたのもこの頃です。

Hadoopや、最近ではSparkなどのオープンソース・フレームワークの開発は、ビッグデータの成長に欠かせないものでした。これらによって、ビッグデータが扱いやすくなり、手ごろな価格で保存できるようになりました。この頃を境に、ビッグデータの量は急増してきました。ユーザーが生成するデータ量も膨大ですが、データを生成するのは人間だけではありません。

Internet of Things(IoT)の出現に伴い、インターネットに接続されるものやデバイスが増え、顧客の利用動向や製品のパフォーマンスに関するデータが収集されています。 機械学習の登場により、生成されるデータ量がさらに増加しています。

ビッグデータはこのような道のりを歩んできましたが、実用性という観点ではまだ始まったばかりです。クラウド・コンピューティングによって、ビッグデータの可能性はさらに拡大しています。クラウドによって非常に柔軟なスケーラビリティを実現でき、開発者はアドホックにクラスターを立ち上げてデータのサブセットのテストを行うことができます。また、グラフ・データベースもますます重要になってきています。アナリティクスを高速かつ包括的に実施できるように大量のデータを表示する機能を備えています。

クラウド戦略の変革

データ・インサイトの発見

  • 不正な資金移動や金融サービス詐欺を行っている犯罪者は誰か?
  • 感染者と接触し、隔離する必要がある人物は誰か?
  • データサイエンスにおける特徴量エンジニアリングを、よりシンプルかつ効率的に行うにはどうすればよいか?

eBook「グラフ・データベースとグラフ分析に関する17のユースケース」を読むには、以下をクリックしてください。

ビッグデータの利点

  • ビッグデータにより、得られる情報が増えれば、より包括的な答えが得られるようになります。
  • より包括的な答えとは、データへの信頼性が高まることであり、問題解決へのアプローチがまったく違ったものになります。

ビッグ・データのユース・ケース

ビッグデータは、カスタマー・エクスペリエンスから分析まで、幅広いビジネス活動に役立ちます。ここでは、その一部を挙げてみます

1.製品開発
NetflixやProcter & Gambleなどの企業は、ビッグデータを使用して顧客の需要を予測するようになりました。過去および現在の製品やサービスの主な特性を分類し、それらの特性とその製品またはサービスの商業的成果との関係をモデル化することにより、新しい製品やサービスの予測モデルを構築しています。またP&Gは、フォーカス・グループ、ソーシャル・メディア、テスト・マーケット、初期の店舗展開から得られるデータとアナリティクスを利用して、新製品の計画、生産、発売につなげています。

2.予知保全
機械的な障害を予測できる要因は、設備の製造年、製造元、モデルといった構造化データに深く埋まっていることもあれば、また膨大な量のログ・エントリ、センサー・データ、エラー・メッセージ、エンジン温度などに及ぶ非構造化データに隠れていることもあります。問題が発生する前に、このような潜在的な問題の兆候を分析することで、コスト効率よく保守作業を実施し、部品や機器の稼働時間を最大化することができます。

3.カスタマー・エクスペリエンス
顧客をめぐる争奪戦が始まっています。これまでにないほど明確な、カスタマー・エクスペリエンスの可視化が可能になっています。ビッグデータにより、ソーシャルメディアやWebアクセス、通話記録などの情報源からデータを収集して、やり取りの体験を向上させ、提供価値を最大限に高めることができます。顧客ごとにパーソナライズされた提案を行い、顧客の離脱・解約率を下げ、プロアクティブに問題に対処しましょう。

4.不正対策とコンプライアンス
セキュリティの問題は、ごく少数の悪辣なハッカーだけが問題なのではなく、熟練者の集団に立ち向かわなければなりません。セキュリティ動向やコンプライアンス要件は常に変化しています。ビッグデータは、不正を示すデータ内のパターンの特定や、規制報告を作成するための膨大な情報の集約を迅速に行うのに役立ちます。

5.機械学習
機械学習は今、ホットなトピックです。データ、特にビッグデータを扱えるようになったことが大きな理由の1つとなっています。機械をプログラミングするのではなく、学習させることが可能になりましたが、それは、機械学習モデルのトレーニングにビッグデータを使用できるようになったためです。

6.運用効率
運用効率というのは、特に目新しいことではないかもしれませんが、ビッグデータの重要性が高い部分です。ビッグデータを使用して、製造、顧客のフィードバックや返品、その他の要素を分析、評価することで、障害を減らし、将来の需要を予測することができます。また、ビッグデータは、現在の市場の需要に即して、より良い意思決定を行うためにも役立ちます。

7.イノベーションの促進
ビッグデータは、人間、組織や団体、プロセスの相互依存性を研究し、そのインサイトの新しい使い方を決めることによってイノベーションを促します。データインサイトを、財務や企画の検討に関する意思決定の改善に役立てる、トレンドや顧客のニーズを調べて、新しい製品やサービスの提供に活かす、動的価格設定を実現するなど、可能性は尽きません。

知っておきたいビッグデータのユースケース22選

無料のeBookをダウンロードして、以下について学びましょう。

  • データの新たな活用法
  • 競合他社が採用している可能性があるイノベーション方法
  • さまざまなユースケースのメリットと課題

ビッグ・データの課題

ビッグデータには大きな可能性がありますが、課題がないわけではありません。

第一に、ビッグデータは大きいのです。データストレージの新しいテクノロジーが開発されていますが、データ量は2年ごとに倍増しています。企業や組織では、データ量の増加に対応できる、効果的な保存方法を模索して苦心しています。

しかし、データを保存するだけでは十分ではありません。データを使用できなければ価値を引き出せず、それにはキュレーションが必要です。データをクリーンな状態、つまり、クライアントにとって意味があり、有意義な分析ができるように整理された状態にするには、大きな手間がかかります。データ・サイエンティストは業務時間の50~80%を、データが実際に使用可能になるまでのデータのキュレーションや準備に費やしています。

最後に、ビッグデータのテクノロジーは急速なペースで変化しています。ほんの数年前まで、Apache Hadoopがビッグデータの処理に使用される一般的なテクノロジーでした。その後、2014年になるとApache Sparkが登場しました。今日では、その2つのフレームワークの組合せが最適なアプローチのようです。常に最新のビッグデータのテクノロジーに対応していくことは、継続的な課題です。

ビッグデータのその他のリソースをチェック:

ビッグ・データの仕組み

ビッグデータによって得られる新しいインサイトにより、新しい可能性が開かれ、新しいビジネスモデルが可能になります。実際に始めるには、重要な3つのアクションが必要です。

1.統合
ビッグデータは、種類の異なる多数のソースやアプリケーションからデータを集めます。通常、抽出、変換、読み込み(ETL)など、従来型のデータ統合のメカニズムでは不十分です。テラバイトあるいはペタバイト規模のビッグデータを分析するには、新しい戦略やテクノロジーが必要です。

データの統合では、データを取り込み、処理して、一定のフォーマットに変換し、ビジネスアナリストが使用できる形式にする必要があります。

2.管理
ビッグデータにはストレージが必要です。ストレージ・ソリューションは、クラウドでもオンプレミスでも、その両方でも構いません。データはどのような形態で保存しても構いません。望ましい処理要件と必要な処理エンジンをデータセットにオンデマンドで適用することができます。多くの場合は、現在データがどこにあるかに応じて、ストレージ・ソリューションが選択されます。クラウドでは、現在のコンピューティング要件に対応できるだけでなく、必要に応じてリソースを調達できるため、クラウドが広く使用されるようになりつつあります。

3.分析
ビッグデータに対する投資は、データを分析しデータに基づいて対応したときに初めてその価値を発揮します。さまざまなデータセットのビジュアル分析を行うと、明確な理解が得られます。データの探索を進めることで、新たな発見があります。発見した情報は他の人と共有しましょう。機械学習や人工知能を利用して、データモデルを構築することもできます。さまざまな方法で、データを活かしましょう。

ビッグ・データのベストプラクティス

ビッグデータの活用を進めるうえで、覚えておくべき重要なベストプラクティスをいくつかまとめました。成果の上がるビッグデータの基盤を構築するためのガイドラインをご確認ください。

1.ビッグデータを具体的なビジネス目標に合わせる
データセットの規模が大きくなるほど、新たな発見も増えます。そのためには、継続的なプロジェクトへの投資の確保や資金の調達ができるように、ビジネスに基づく強固なコンテキストを持つスキルや組織、インフラストラクチャへの新規投資を基盤に置くことが重要です。現在の方向が正しいかどうかを判断するには、ビッグデータがビジネスやITの最優先事項の実現に役立っているかどうかを考えます。たとえば、Webログを絞り込んでeコマースの挙動を把握すること、ソーシャル・メディアやカスタマー・サポートの対話からセンチメントを導き出すこと、統計的な相関手法とそれが顧客、製品、製造、およびエンジニアリングのデータとどう関連するかを理解すること、などが考えられます。

2.標準とガバナンスによりスキル不足を緩和する
ビッグデータに投資してメリットを実現するうえで、最大の障害の1つとなるのが、スキル不足です。ビッグデータのテクノロジー、検討事項、決定事項をITガバナンスプログラムに加えることによって、このリスクを緩和できます。方法を標準化することで、コストの管理とリソースの活用が可能になります。ビッグデータのソリューションおよび戦略を導入する組織では、早期に、また度々、スキル要件の評価を行い、潜在的なスキルギャップをプロアクティブに特定する必要があります。それには、既存の人材のトレーニング/クロストレーニング、新しい人材の採用、コンサルティング会社の活用が役立ちます。

3.CoE(センター・オブ・エクセレンス)により知識移転を最適化する
CoE(センター・オブ・エクセレンス)のアプローチを知識の共有、管理監督、プロジェクトのコミュニケーションの管理に役立てます。ビッグデータに新たに投資する場合でも投資を拡大する場合でも、ソフトコストおよびハードコストを企業全体で分け合うことができます。このアプローチを利用すると、より構造化された体系的な方法を実現して、ビッグデータの能力を向上させ、全体的な情報アーキテクチャの成熟度を高めるのに役立ちます。

4.最も効果が得られるのは、非構造化データを構造化データに揃えること
ビッグデータをそのまま分析できれば、確実にメリットがあります。しかし、密度の低いビッグデータと現在すでに使用している構造化データを結び付け、統合することで、さらに優れたビジネスインサイトが得られます。

顧客、製品、機器、環境など、収集するビッグデータがどのようなものであっても、その目標は、コアマスターや分析サマリーに使用できる意味のあるデータポイントを追加することにより、より的確な結果を得ることです。たとえば、全顧客のセンチメントの分類と、優良顧客のみのセンチメントの分類には違いがあります。そのため、多くの人がビッグデータを、既存のビジネス・インテリジェンス機能やデータウェアハウス・プラットフォーム、情報アーキテクチャを拡張する不可欠な要素と考えています。

ビッグデータの分析プロセスおよびモデルには、人間ベースのものと機械ベースの両方があることに注意してください。ビッグデータの分析機能には、統計、空間分析、セマンティクス、対話型データ探索、視覚化などが含まれます。分析モデルを使用することにより、さまざまな種類、さまざまなソースのデータの相関関係を調べて、関連性を特定し、意味のある発見をすることができます。

5.最適なパフォーマンスが得られるように、データ探索用ラボの計画を策定する
データから意味を見出すことは、必ずしも簡単なことではありません。何を探しているのかさえ分からない場合もありますが、それも想定内です。管理チームやITチームは、このように方向性や明確な要件がない場合にも対応が必要です。

同時に、アナリストやデータ・サイエンティストは、重要な業務知識のギャップや要件を把握するため、ビジネス部門と緊密に連携を取ることが重要です。対話型データ探索や実験的な統計アルゴリズムに対応するには、高性能の作業領域が必要になります。必要なサポートが得られ、適切なガバナンスが行われるサンドボックス環境を確保してください。

6.クラウド運用モデルに対応する
ビッグデータのプロセスとユーザーは、反復的な実験のためにも、本番ジョブを実行するためにも、幅広いリソースにアクセスできなければなりません。ビッグ・データ・ソリューションには、トランザクション、マスターデータ、参照データ、サマリーデータなど、あらゆるデータ領域が含まれます。分析用サンドボックスをオンデマンドで作成できる必要があります。前処理と後処理、統合、データベース内サマリー、分析モデリングを含むデータフロー全体を制御するには、リソース管理が不可欠です。このように絶えず変化する要件に対応するには、プライベートクラウドおよびパブリッククラウドのプロビジョニングおよびセキュリティの戦略を適切に計画しておくことが非常に重要です。