Michael Chen |コンテンツ・ストラテジスト| 2024年9月4日
データの重複は単純な概念です。データのどの部分にも、組織のインフラストラクチャのどこかに1つ以上の正確な重複があるという考え方です。たとえば、データベース内のレコード、ストレージ・ボリューム内のファイル、またはVMイメージなどです。単独では、重複は良性、さらには有益であるように見えるかもしれません。追加のコピーが嫌いな人はいないでしょう。しかし、企業規模に拡大すると、問題の範囲が明確になります。ほぼすべての現代的なデバイスが絶えずデータを生成し、バックアップやアーカイブが定期的にスケジュールされ実行され、ファイルが複数のプラットフォーム間で共有される中、データの重複は単なる煩わしさから、莫大なコストと技術的負担へと発展しています。問題の解決は、データの重複が発生する方法と理由を理解することから始まります。
データの複製は、意図的に(計画バックアップなど)、または意図せずに、1つ以上の同一のバージョンのデータを作成するプロセスです。重複は、ファイル、VMイメージ、データベース内のブロックまたはレコード、またはその他のデータ型に格納されたデータとして存在する場合があります。原因に関係なく、データの重複によってストレージ領域が浪費され、データ・ストアのサイズとともにコストが増加します。また、データ管理の問題にもつながります。たとえば、ファイルのすべてのコピーが同時に更新されない場合、不整合が原因で分析が失敗する可能性があります。
データの複製とは、データの冗長性、またはプライマリ・バージョンのデータの冗長セーフティ・ネットとして機能する複数のレコードを持つことです。データ複製の反対はデータ複製解除です。これにより、リソースを解放し、場合によっては古いコピーを削除するために、重複データの削除が必要になります。
主なポイント
データの重複は必ずしも悪いことではありません。意図的なデータ複製は、簡単にアクセスできるバックアップ、包括的なアーカイブ、より効果的なディザスタ・リカバリなど、大きなメリットをもたらします。ただし、過度のコストをかけずにこれらのメリットを得るには、バックアップと定期的かつスケジュールされた複製解除を実行するための戦略が必要です。そうしないと、重複データによって、せいぜい不必要に追加のストレージ領域が占有され、最悪の場合、ユーザー間の混乱や偏りのデータ分析が発生する可能性があります。
「データの重複」と「データの冗長性」という用語は同じ意味で使用されることが多いですが、違いがあります。重複データは、必ずしも意図的に冗長であるとは限りません。場合によっては、人間やマシンによって不注意に、または誤って重複が発生することがあります。しかし、エンジニアリングの観点からは、冗長性という概念は、問題が発生した場合に安全策を講じるためのものです。これにより、意図的な重複が発生します。冗長性自体は、堅牢なエンジニアリング・プラクティスの原則ですが、過剰な冗長性を生み出すことは確かに可能です。その場合、余分な重複セットが目的を持って生成されても、使用するリソースの量に限られた値を提供します。
データは、人間と自動化されたプロセスによって、いくつかの方法で複製できます。たとえば、多くの人がドキュメントを編集する過程で、わずかな変更を加えた複数のバージョンを別々の名前で保存した経験があるのではないでしょうか。「salesreport_final.docx」や「salesreport_final_v2.docx」のようなファイルがそれに当たります。こうしたファイルは、最終版が完成しても削除されずに残りがちです。また、同じファイルが社内でメール送信され、異なる担当者がそれぞれ別の共有ドライブに保存してしまうこともあります。アプリケーションの実行ファイル(.exe)やメディアファイルが、何度もダウンロードされるケースもありますし、仮想マシン(VM)のイメージが複数の場所に保存されることもあります。さらに、データベース内でも同じ情報が二重に入力されることがあります。これは、顧客や従業員など、異なる人が同じファイルを取り込んだり、同じ内容を手入力したりすることで発生します。このような重複は、ローカル・アプリケーションまたは互換性のあるファイル・タイプを持つ異なるアプリケーションで、異なる部門が同じレコード(顧客情報など)を作成した場合にも発生します。つまり、異なるバックアップ・バージョンにまたがって冗長コピーが作成され、それ自体が重複している可能性があります。
データドリブンな組織が増えるほど、重複が問題になる可能性があります。ビッグデータは、過剰なストレージのための大きなコストにつながる可能性があります。自動化によって重複が作成されることもあります。この場合、自動バックアップ・プロセスによって、冗長性の目的で重複ファイルが作成される可能性があります。ただし、同じファイルが複数回バックアップされると、問題が発生します。不要なレベルの冗長性によって、ストレージの使用が非効率になります。
一般的に、予期しないイベントがデータの重複につながります。たとえば、バックアッププロセス中に停電または自然災害が発生した場合、バックアップはリセットされ、一部のファイルがすでに書き込まれたあとでプロセスを再起動します。ハードウェア障害によって同様の問題が発生し、バックアップまたはアーカイブ・プロセス中に計画外の複製が発生する可能性があります。
データの重複は必ずしも悪いことではありません。ITチームは、重複が意図されたものかどうか、重複の格納に使用されるリソースの数、および現状のコストを理解する必要があります。第2世代アーカイブに完全に複製されたファイルへのポインタを含む、意図的に作成された 3 世代目のアーカイブは、共有ドライブに同じ巨大な PowerPoint ファイルが複数保存されている場合とはまったく異なる状況です。
データ重複の最も一般的なタイプと、それらが組織にどのように影響するかを次に示します。
データが重複すると、ハードウェア、帯域幅、メンテナンス、データ管理にまたがる追加負担の波及効果が生じ、これらはすべて不要なコストになります。問題が軽微にとどまる場合もありますが、最悪の場合は深刻な結果を招くこともあります。データ重複がデータサイエンスの取り組みに悪影響を及ぼす代表的な例を挙げます。
ストレージ領域。これは、データ重複の最も直接的なコストです。冗長コピーは、ローカル・ハード・ドライブ、サーバーおよびクラウド・ストレージの貴重な容量を消費するため、コストが高くなります。10テラバイトのデータがあり、10%が重複している部門を想像してみてください。これは1テラバイトの無駄なストレージであり、特にクラウドベースのプライマリ・ストレージとアーカイブ・ストレージの場合、大きなコストになる可能性があります。
データ複製解除ツール。別のハード・コストの重複除外ツールは、ストレージ・ボリュームから重複を排除できます。これらのサービスおよびツールは、通常、レコード単位のボリュームに基づきます。つまり、除外する重複が多ければ多いほど、コストも高くなります。
スキュー・データ。重複レコードは、不正確なメトリックを作成することで、データ分析およびビジュアライゼーションにエラーをもたらす可能性があります。たとえば、新規顧客の名前がわずかに異なる販売データベースに2回入力された、または2人の管理者が同じ発注書を入力したとします。
前述の各要素には、コストのかかるスタッフの作業も必要です。ストレージ・ボリュームはメンテナンスする必要があります。誰かが重複除去システムを評価、購入、および実行する必要があります。偏ったデータには、レコードの削除とデータベースのクリーニングが必要です。不良データがさらにレポートまたは通信に伝播する場合は、それ以降のすべての作業をバックトラックして元に戻してから、修復する必要があります。
意図せずに複製されたファイルやデータベースのレコードは、放置すれば組織全体に影響が波及し、深刻な問題を引き起こす可能性があります。次に、データの複製で発生する最も一般的な問題の一部を示します。
共有ドライブ、Internet of Thingsデバイス、インポートされたパブリック・データとパートナ・データ、階層型クラウド・ストレージ、より堅牢なレプリケーションとディザスタ・リカバリ、その他無数のソースにより、組織はこれまで以上に多くのデータを保持しています。これに伴い、データの重複が発生するリスクも増加しており、組織は重複データの発生を最小限に抑え、拡散した場合には速やかに排除する戦略を優先すべきです。
以下は、一般的かつ効果的な対策の一部です。
組織がデータドリブンになるにつれて、重複データを排除することがますます必要になり、有益になります。冗長性を最小限に抑えるための積極的な措置を講じることで、ストレージ・インフラストラクチャの最適化、データ管理の効率性の向上、コンプライアンスの改善、その他の優先事項のための資金とスタッフのリソースの解放が可能になります。
次に、データ複製解除の最も一般的な利点の一部を示します。
データの重複の問題を最小限に抑える最善の方法は、そもそも重複を発生させないことです。Oracle HeatWaveは、オンライン・トランザクション処理、データウェアハウスとデータレイクにわたるリアルタイム分析、機械学習(ML)および生成AIを1つのクラウド・サービスに統合します。これにより、お客様は以下のような多くのメリットを享受できます。
データの重複排除は、情報のサイロ化を解消し、データのアクセス性を向上させ、チーム間のコラボレーションを促進します。これにより、組織全体で得られたデータインサイトを活用した、より良い意思決定が可能になります。たとえば、マーケティングチームがCRMシステムで顧客連絡先情報を管理し、営業チームが類似のデータを持つ別のリード管理システムを使っているような状況では、情報が分断されがちです。重複排除プログラムを導入することで、こうした情報を統合し、両チームが統一された顧客ビューに基づいて、連携してマーケティング施策や営業活動を展開できるようになります。
AIの可能性を引き出したいとお考えですか?そのカギを握るのはデータインフラの整備です。この包括的なガイドブックでは、CIOがデータとAIを活用して戦略的意思決定を推進し、業務を最適化し、競争力を獲得するための戦略を提供します。す。
データ重複の今後のトレンドについて教えてください。
テクノロジーの進化により、ITは重複データの発生をより効果的に抑制できるようになってきています。今後の代表的な進展として、以下のようなトレンドが挙げられます。
データの重複をどのように監視しますか。
重複データのモニターおよび識別には、様々な戦略を使用できます。これには、データ・プロファイリング、データ照合、データ・カタログなどのツールが含まれます。受信データ・ソース用のデータ・クレンジング・ツールではある程度の識別が可能ですが、特殊なデータ重複除外ツールでは重複データを検出して排除できます。
データ複製の課題を教えてください。
データの重複は、あらゆる規模の組織にとって大きな課題となります。最も明らかな問題は、無駄なストレージ領域です。重複コピーにより、サーバー、ハード・ドライブおよびクラウド・ストレージの貴重な容量が消費されるため、コストが高くなります。システム間で重複データを管理することは、重複を識別し、プライマリ・バージョンを特定し、冗長コピーを削除する必要があるITワーカーにとっても時間がかかります。記憶域の場所に散在する重複ファイルのアクセスと取得に時間がかかるため、データの重複が過剰になると、システムも遅くなる可能性があります。
また、更新がすべてのコピーに適用されない場合は、データの不整合もあります。これにより、不正確なレポート、古い情報に基づく無駄な労力、異なるチームが競合するデータ・セットに依存している場合の混乱につながる可能性があります。さらに、正確なデータ保持や削除を求める規制要件への対応も困難になり、セキュリティの観点からは、データ量が多ければ多いほど攻撃対象が広がるリスクがあります。
重複データを持つ利点はありますか。
バックアップやアーカイブなどの意図的に複製されたデータには、ビジネス継続性やディザスタ・リカバリに関連する機能に多くの利点があります。重複データを正常に使用するには、組織が戦略的なアプローチを採用し、重複を特定の限られた量に保持して、過剰なリソースの使用やその他の問題を防ぐ必要があります。
