申し訳ございません。検索条件に一致するものが見つかりませんでした。

お探しのものを見つけるために、以下の項目を試してみてください。

  • キーワード検索のスペルを確認してください。
  • 入力したキーワードの同義語を使用してください。たとえば、「ソフトウェア」の代わりに「アプリケーション」を試してみてください。
  • 新しい検索を開始してください。
お問い合わせ Oracle Cloudにサインイン

Oracle Cloud Free Tier

Oracle Cloudでアプリケーションを無料で構築、テスト、デプロイしましょう。

構造化データ型と非構造化データ型の比較

構造化データ型と非構造化データ型の違いについて学ぶ

構造化データと非構造化データの違い、そしてそれが重要な理由とは何でしょうか。多くの企業や組織にとって、このような区別は、ビッグ・データを扱うIT部門だけのものであるかのように感じられる場合があります。

構造化データと非構造化データの定義(データの保存場所と処理方法)を理解すれば、データ駆動型プロセスを改善するためにこのデータをどのように利用できるかがわかるようになるため、その違いを理解することは誰にとっても重要なことです。

営業、マーケティング、業務、人事など、これらすべてのグループがデータを生成します。物理的な在庫を持ち、地域の顧客基盤を持つ実店舗のようなごく小規模なビジネスでさえ、電子メール、クレジットカード取引、在庫購入、ソーシャル・メディアなどから構造化および非構造化データを生成しています。ビジネスが生み出すデータを活用するためには、この2つを理解し、どのように連携させるかが重要です。

構造化データとは。

構造化データとは、あらかじめ定義され、期待されるフォーマットを使用したデータのことです。これは様々なソースから得られますが、共通しているのは、フィールドが固定されていることと、保存方法が固定されていることです(それゆえ、構造化されています)。この決められたデータ・モデルにより、容易な入力、問合せ、分析が可能になります。

例えば、オンライン・ショッピングのトランザクション・データを考えてみましょう。このデータには、タイムスタンプ、購入金額、関連するアカウント情報(またはゲストアカウント)、購入した商品、支払い情報、確認番号が記録されます。各フィールドには目的が定義されているため、このデータを手動で問合わせ(ExcelのスプレッドシートでCTRL+Fを押すのと同じこと)をすることが容易になります。また、機械学習アルゴリズムがパターンを特定することも容易であり、多くの場合、そのパターン外の異常も特定することができます。

構造化されたデータは、確立された期待される要素にドリルダウンします。タイムスタンプは定義されたフォーマットで届きますが、言葉で記述されたタイムスタンプは構造から外れるので送信しません(できません)。あらかじめ定義されたフォーマットであれば、最終的に手動レベルで処理する場合でも、簡単に拡張性や処理性を確保することができます。

構造化データは、ソースが構造を定義していれば、何にでも利用することが可能です。ビジネスにおける代表的な用途としては、CRMフォーム、オンライン取引、株式データ、企業ネットワーク監視データ、Webサイト・フォームなどが挙げられます。

非構造化データとは。

構造化されたデータには定義があるように、非構造化データには定義がありません。目的別にあらかじめ定義されたフィールドではなく、非構造化データはあらゆる形や大きさで存在します。構造化されていないデータは、通常はテキスト(フォームのオープン・テキスト・フィールドなど)ですが、画像、音声、動画、文書ファイル、その他のファイル形式など、さまざまな形でオブジェクトとして保存することができます。すべての非構造化データに共通する点は、定義がないことです。

非構造化データの方が一般的であり(詳細は後述)、フィールドには構造化データほど文字数やスペースの制限がない場合があります。非構造化データの形式は多岐にわたるため、この種のデータが通常、組織のデータの約80%を占めることは驚くことではありません。

メディア・ファイルは、非構造化データの一例です。ポッドキャストのようなコンテンツには構造がありません。ポッドキャストのMP3ファイルを検索するのは、デフォルトでは容易ではありません。ファイル名、タイムスタンプ、手動で割り当てたタグなどのメタデータは検索の助けになるかもしれませんが、オーディオファイル自体には、さらなる分析や関係性がないとコンテクストがありません。

これはビデオファイルにも適用されます。ビデオ・アセットは、ソーシャル・メディアの短編クリップから、完全なウェビナーやディスカッションを表示する大規模ファイルまで、最近では至る所で見られます。ポッドキャストのMP3ファイルと同様、メタデータ以外のコンテンツには具体性がありません。データベース内の実際のコンテンツに基づいて、特定のビデオ・ファイルを検索することはできません。

造化データと非構造化データの連携方法とは。

今日のデータドリブンなビジネスの世界では、構造化データと非構造化データの両方を使用することが、インサイトを深める良い方法です。ここで、ある企業のソーシャル・メディアへの投稿、特に何らかのメディアを添付した投稿の例に戻って考えてみましょう。マーケティング・エンゲージメントについて、組織がインサイトを深めるにはどうしたらよいでしょうか。

まず、構造化データを使用して、ソーシャルメディアの投稿をエンゲージメントの高い順に並べ替え、マーケティングに関係のないハッシュタグをフィルタリングします(たとえば、顧客サービスに関連するハッシュタグを持つエンゲージメントの高い投稿を削除します)。そこから、関連する非構造化データ、つまり実際のソーシャル・メディアの投稿内容を調べ、メッセージ、メディアの種類、トーン、その他の要素から、その投稿がなぜエンゲージメントを生んだかを理解するためのインサイトが得られる可能性があります。

こういうと、手作業が多いように思われるかもしれませんが、数年前までは確かにそうでした。ただし、機械学習人工知能の進歩により、自動化のレベルが向上しています。例えば、音声ファイルを自然言語処理で音声テキスト化すれば、キーワードのパターンやポジティブまたはネガティブなメッセージの分析が可能になります。こうしたインサイトは、ビッグ・データがより大きくなり、そのビッグ・データの大半が非構造化であるという事実により、ますます重要になりつつある最先端のツールにより迅速化されます。

データの出所と行き先

今日、データはさまざまなソースから生成されます。標準的なeコマースを設定している中堅企業を見てみましょう。この場合、データは以下のような分野から得られることが多いようです。

  • トランザクション・データ
  • 顧客アカウント・データ
  • 在庫購買
  • 物流追跡
  • ソーシャル・メディア・エンゲージメント
  • 内部HRデータ
  • 検索エンジンによるキーワードのクローリング

さらに多くのデータ・ソースが存在する可能性があります。実際、最近どの企業でも引き出されるデータの量は驚異的です大企業でなくても、ビッグ・データ革命の一翼を担うことができます。しかし、そのデータをどう扱うかが、データを活用できるかの鍵になります。多くの場合、最適なソリューションはデータ・レイクです。

データ・レイクは、構造化および非構造化データを受け取るリポジトリです。複数のデータ入力を単一のソースに統合する機能により、データ・レイクはあらゆるビッグ・データ・インフラストラクチャに不可欠な要素となります。データレイクに入るデータは、固有の構造が取り除かれ、生データとなるため、容易に拡張性と柔軟性を持つことができます。データを読み込んで処理する際には、必要に応じて構造やスキーマを付与し、量と効率の両方をバランスよく実現します。

Oracle Big Dataのご紹介

Oracle Cloudを搭載したOracle Big Dataサービスは、生データの管理と処理を高速化します。ブロック・ストレージからデータレイクまで、オラクルは構造化データと非構造化データの両方に対応する柔軟なソリューションを提供します。