該当する結果がありません

一致する検索結果がありませんでした。

お探しのものを見つけるために、以下の項目を試してみてください。

  • キーワード検索のスペルを確認してください。
  • 入力したキーワードの同義語を使用してください。たとえば、「ソフトウェア」の代わりに「アプリケーション」を試してみてください。
  • 下記に示すよく使用される検索語句のいずれかを試してみてください。
  • 新しい検索を開始してください。
急上昇中の質問

ビッグデータとは

ビッグデータの定義

ビッグデータとは具体的にはどのようなものでしょうか。

ビッグデータを本当に理解するためには、いくつかの歴史的背景を知っておくと役に立ちます。2001年頃、Gartnerは次のように定義しました(これは今でも頼りになる定義です)。ビッグデータとは、より多くのVariety(多様性)が含まれ、Volume(量)がどんどん増加し、Velocity(処理速度)がかつてない速さのデータです。これは3つのVとして知られています。

簡単に言えば、ビッグデータはより大きくより複雑なデータセットであり、特に新しいデータソースからのデータセットが該当します。これらのデータセットは非常に大きいため、従来のデータ処理ソフトウェアでは管理できません。しかし、これらの大量のデータを使用すれば、これまで解決できなかったビジネス上の問題に対処することができます。

ビッグデータの3つのV

Volume(量) データの量は重要です。ビッグデータでは、低密度の大量の非構造化データを処理する必要があります。これは、Twitterデータフィード、Webページまたはモバイルアプリのクリックストリーム、センサー対応機器など、価値が不明なデータである可能性があります。組織によっては、データが数十テラバイトになる場合があります。中には、数百ペタバイトになる組織もあるかもしれません。
Velocity(処理速度) 処理速度とは、データを受信して(おそらく)それに基づいてアクションを起こすスピードが高速であることです。最高速度で処理されるデータストリームは、通常はディスクではなく、メモリに直接書き込まれます。一部のインターネット対応スマート製品は、リアルタイムまたはほぼリアルタイムで動作し、リアルタイムの評価とアクションが必要になります。
Variety(多様性) 多様性とは、利用可能な多くのタイプのデータを指します。従来のデータのタイプは構造化データであり、リレーショナル・データベースにうまく適合していました。ビッグデータの登場に伴い、データは新しい非構造化データタイプでやってくるようになりました。テキスト、オーディオ、ビデオなどの非構造化および半構造化データタイプでは、意味を導き出し、メタデータをサポートするために、追加の前処理が必要です。

ビッグデータの価値と真実

ここ数年間でさらに2つのVが登場しました。Value(価値)Veracity(正確さ)です。

データには本質的な価値があります。しかし、その価値が発見されるまでは役に立ちません。また、それと同じくらい重要なのが、データの正確さです。データをどれだけ信頼できますか?

現在では、ビッグデータは資本になっています。世界最大のテクノロジー企業のいくつかを考えてみてください。そのような企業が提供する価値の大部分はデータからもたらされています。より効率を上げて新製品を開発するために、データを絶えず分析しています。

最近の技術革新により、データストレージとコンピューティングのコストが飛躍的に低減され、これまで以上に多くのデータを簡単に低コストで保存できるようになりました。大量のビッグデータに、より安価にアクセスしやすくなったため、高い精度でより正確なビジネス上の意思決定を行うことができます。

ビッグデータから価値を見出すことは、単にビッグデータを分析することとは異なります(分析には別のメリットがあります)。価値を見出すことは、洞察力に優れたアナリストやビジネスユーザー、エグゼクティブが適切な問いを立て、パターンを認識し、情報をもとに仮説を立て、動きを予測することが必要な発見のプロセスです。

そのプロセスにたどり着く方法を見てみましょう。

ビッグデータの歴史

ビッグデータ自体の概念は比較的新しいものですが、大規模なデータセットの起源は1960~70年代まで遡ります。当時、初めてのデータセンターが生まれ、リレーショナル・データベースが開発されたことで、データの世界が幕を開けました。

2005年頃には、FacebookやYouTube、その他のオンラインサービスでユーザーによって生成されるデータ量の多さが認識され始めました。同年には、大規模なデータセットの保存と分析に特化したオープンソースのフレームワークであるHadoopが開発されています。NoSQLが普及し始めたのもこの頃です。

Hadoopや、最近ではSparkなどのオープンソース・フレームワークの開発は、ビッグデータの成長に欠かせないものでした。これらによって、ビッグデータが扱いやすくなり、手ごろな価格で保存できるようになりました。この頃を境に、ビッグデータの量は急増してきました。ユーザーが生成するデータ量も膨大ですが、データを生成するのは人間だけではありません。

Internet of Things(IoT)の出現に伴い、インターネットに接続されるものやデバイスが増え、顧客の利用動向や製品のパフォーマンスに関するデータが収集されています。機械学習の登場により、生成されるデータ量がさらに増加しています。

ビッグデータはこのような道のりを歩んできましたが、実用性という観点ではまだ始まったばかりです。クラウド・コンピューティングによって、ビッグデータの可能性はさらに拡大しています。クラウドによって非常に柔軟なスケーラビリティを実現でき、開発者はアドホックにクラスターを立ち上げてデータのサブセットのテストを行うことができます。

ビッグデータとデータ分析のメリット:

  • ビッグデータにより、得られる情報が増えれば、より包括的な答えが得られるようになります。
  • より包括的な答えとは、データへの信頼性が高まることであり、問題解決へのアプローチがまったく違ったものになります。

ビッグデータのユースケース

ビッグデータは、カスタマー・エクスペリエンスから分析まで、幅広いビジネス活動に役立ちます。ここでは、その一部を挙げてみます(Oracle Big Dataソリューションではさらに多くのユースケースを紹介しています)。

製品開発 NetflixやProcter & Gambleなどの企業では、顧客需要の予測にビッグデータを利用しています。過去および現在の製品やサービスの主な特性を分類し、それらの特性とその製品またはサービスの商業的成果との関係をモデル化することにより、新しい製品やサービスの予測モデルを構築しています。さらに、P&Gでは、フォーカスグループ、ソーシャルメディア、テスト市場、初期段階の店頭での展開から得られたデータと分析を、新製品の企画、製作、発表に利用しています。
予知保全 機械の故障の予測に役立つ要素が、機器の製造年、型式、モデルなどの構造化データや、ログエントリ、センサーデータ、エラー・メッセージ、エンジン温度などの膨大な非構造化データに深く埋もれている場合があります。問題が発生する前に、このような潜在的な問題の兆候を分析することで、コスト効率よく保守作業を実施し、部品や機器の稼働時間を最大化することができます。
カスタマー・エクスペリエンス 顧客の獲得・維持の競争が始まっています。これまでにないほど明確な、カスタマー・エクスペリエンスの可視化が可能になっています。ビッグデータにより、ソーシャルメディアやWebアクセス、通話記録などの情報源からデータを収集して、やり取りの体験を向上させ、提供価値を最大限に高めることができます。顧客ごとにパーソナライズされた提案を行い、顧客の離脱・解約率を下げ、プロアクティブに問題に対処しましょう。
不正とコンプライアンス セキュリティの問題は、ごく少数の悪辣なハッカーだけが問題なのではなく、熟練者の集団に立ち向かわなければなりません。セキュリティ動向やコンプライアンス要件は常に変化しています。ビッグデータは、不正を示すデータ内のパターンの特定や、規制報告を作成するための膨大な情報の集約を迅速に行うのに役立ちます。
機械学習 機械学習は、現在注目の集まっているテーマです。データ、特にビッグデータを扱えるようになったことが大きな理由の1つとなっています。機械をプログラミングするのではなく、学習させることが可能になりましたが、それは、機械学習モデルのトレーニングにビッグデータを使用できるようになったためです。
運用効率 運用効率は、目新しい話題ではないかもしれませんが、ビッグデータが非常に大きな影響を及ぼす分野の1つです。ビッグデータを使用して、製造、顧客のフィードバックや返品、その他の要素を分析、評価することで、障害を減らし、将来の需要を予測することができます。また、ビッグデータは、現在の市場の需要に即して、より良い意思決定を行うためにも役立ちます。
イノベーションの促進 ビッグデータを利用して、複数の人、機関、エンティティ、プロセスの間の相互依存関係を調べ、それらのインサイトを活用する新しい方法を見つけることにより、イノベーションを促進できます。データインサイトを、財務や企画の検討に関する意思決定の改善に役立てる、トレンドや顧客のニーズを調べて、新しい製品やサービスの提供に活かす、動的価格設定を実現するなど、可能性は尽きません。

ビッグデータの課題

ビッグデータには大きな可能性がありますが、課題がないわけではありません。

第一に、ビッグデータは大きいのです。データストレージの新しいテクノロジーが開発されていますが、データ量は2年ごとに倍増しています。企業や組織では、データ量の増加に対応できる、効果的な保存方法を模索して苦心しています。

しかし、データを保存するだけでは十分ではありません。データを使用できなければ価値を引き出せず、それにはキュレーションが必要です。データをクリーンな状態、つまり、クライアントにとって意味があり、有意義な分析ができるように整理された状態にするには、大きな手間がかかります。データ・サイエンティストは業務時間の50~80%を、データが実際に使用可能になるまでのデータのキュレーションや準備に費やしています。

最後に、ビッグデータのテクノロジーは急速なペースで変化しています。ほんの数年前まで、Apache Hadoopがビッグデータの処理に使用される一般的なテクノロジーでした。そして、2014年にApache Sparkが登場し、現在では、2つのフレームワークを組み合わせるのが最適なアプローチということになっています。常に最新のビッグデータのテクノロジーに対応していくことは、継続的な課題です。

ビッグデータのその他のリソースをチェック:

ビッグデータを活用する方法

ビッグデータによって得られる新しいインサイトにより、新しい可能性が開かれ、新しいビジネスモデルが可能になります。実際に始めるには、重要な3つのアクションが必要です。

1.統合

ビッグデータでは、それぞれに異なるさまざまなソースやアプリケーションからのデータをまとめますが、ほとんどの場合、ETL(抽出、変換、読み込み)などの従来型のデータ統合のメカニズムでは、不十分です。テラバイトあるいはペタバイト規模のビッグデータを分析するには、新しい戦略やテクノロジーが必要です。

データの統合では、データを取り込み、処理して、一定のフォーマットに変換し、ビジネスアナリストが使用できる形式にする必要があります。

2.管理

ビッグデータにはストレージが必要です。ストレージ・ソリューションは、クラウドでもオンプレミスでも、その両方でも構いません。データはどのような形態で保存しても構いません。望ましい処理要件と必要な処理エンジンをデータセットにオンデマンドで適用することができます。多くの場合は、現在データがどこにあるかに応じて、ストレージ・ソリューションが選択されます。クラウドでは、現在のコンピューティング要件に対応できるだけでなく、必要に応じてリソースを調達できるため、クラウドが広く使用されるようになりつつあります。

3.分析

データを分析し、それをもとに実践することで、ビッグデータへの投資の効果が得られます。さまざまなデータセットのビジュアル分析を行うと、明確な理解が得られます。データの探索を進めることで、新たな発見があります。発見した情報は他の人と共有しましょう。機械学習や人工知能を利用して、データモデルを構築することもできます。さまざまな方法で、データを活かしましょう。

ビッグデータのベスト・プラクティス

ビッグデータの活用を進めるうえで、覚えておくべき重要なベスト・プラクティスをいくつかまとめました。成果の上がるビッグデータの基盤を構築するためのガイドラインをご確認ください。

ビッグデータと具体的なビジネス目標を対応付ける データセットの規模が大きくなるほど、新たな発見も増えます。そのためには、継続的なプロジェクトへの投資の確保や資金の調達ができるように、ビジネスに基づく強固なコンテキストを持つスキルや組織、インフラストラクチャへの新規投資を基盤に置くことが重要です。現在の方向が正しいかどうかを判断するには、ビッグデータがビジネスやITの最優先事項の実現に役立っているかどうかを考えます。たとえば、eコマースの動向を把握するためのWebログのフィルタリングの方法の理解、ソーシャルメディアやカスタマーサポートのやり取りからのセンチメントの抽出、統計的相関法およびその顧客、製品、製造、エンジニアリング・データとの関連性の理解などが挙げられます。
標準とガバナンスによりスキル不足を緩和する ビッグデータに投資してメリットを実現するうえで、最大の障害の1つとなるのが、スキル不足です。ビッグデータのテクノロジー、検討事項、決定事項をITガバナンスプログラムに加えることによって、このリスクを緩和できます。方法を標準化することで、コストの管理とリソースの活用が可能になります。ビッグデータのソリューションおよび戦略を導入する組織では、早期に、また度々、スキル要件の評価を行い、潜在的なスキルギャップをプロアクティブに特定する必要があります。それには、既存の人材のトレーニング/クロストレーニング、新しい人材の採用、コンサルティング会社の活用が役立ちます。
CoE(センター・オブ・エクセレンス)により知識移転を最適化する CoE(センター・オブ・エクセレンス)のアプローチを知識の共有、管理監督、プロジェクトのコミュニケーションの管理に役立てます。ビッグデータに新たに投資する場合でも投資を拡大する場合でも、ソフトコストおよびハードコストを企業全体で分け合うことができます。このアプローチを利用すると、より構造化された体系的な方法を実現して、ビッグデータの能力を向上させ、全体的な情報アーキテクチャの成熟度を高めるのに役立ちます。
最も効果が得られるのは、非構造化データを構造化データに揃えること

ビッグデータを単独で分析することで、確かにメリットが得られます。しかし、密度の低いビッグデータと現在すでに使用している構造化データを結び付け、統合することで、さらに優れたビジネスインサイトが得られます。

顧客、製品、機器、環境など、収集するビッグデータがどのようなものであっても、その目標は、コアマスターや分析サマリーに使用できる意味のあるデータポイントを追加することにより、より的確な結果を得ることです。たとえば、全顧客のセンチメントの分類と、優良顧客のみのセンチメントの分類には違いがあります。そのため、多くの人がビッグデータを、既存のビジネス・インテリジェンス機能やデータ・ウェアハウス・プラットフォーム、情報アーキテクチャを拡張する不可欠な要素と考えています。

ビッグデータの分析プロセスおよびモデルには、人間ベースのものと機械ベースの両方があることに注意してください。ビッグデータの分析機能には、統計、空間分析、セマンティクス、対話型データ探索、視覚化などが含まれます。分析モデルを使用することにより、さまざまな種類、さまざまなソースのデータの相関関係を調べて、関連性を特定し、意味のある発見をすることができます。

最適なパフォーマンスが得られるように、データ探索用ラボの計画を策定する

データから意味を見出すことは、必ずしも簡単なことではありません。何を探しているのかさえ分からない場合もありますが、それも想定内です。管理チームやITチームは、このように方向性や明確な要件がない場合にも対応が必要です。

同時に、アナリストやデータ・サイエンティストは、重要な業務知識のギャップや要件を把握するため、ビジネス部門と緊密に連携を取ることが重要です。対話型データ探索や実験的な統計アルゴリズムに対応するには、高性能の作業領域が必要になります。必要なサポートが得られ、適切なガバナンスが行われるサンドボックス環境を確保してください。

クラウド運用モデルに対応する ビッグデータのプロセスおよびユーザーは、実験の繰り返しや本番環境のジョブの実行のため、幅広いリソースにアクセスできる必要があります。ビッグ・データ・ソリューションには、トランザクション、マスターデータ、参照データ、サマリーデータなど、あらゆるデータ領域が含まれます。分析用サンドボックスをオンデマンドで作成できる必要があります。前処理と後処理、統合、データベース内サマリー、分析モデリングを含むデータフロー全体を制御するには、リソース管理が不可欠です。このように絶えず変化する要件に対応するには、プライベートクラウドおよびパブリッククラウドのプロビジョニングおよびセキュリティの戦略を適切に計画しておくことが非常に重要です。