Michael Chen |コンテンツ・ストラテジスト| 2024年9月4日
データの重複はどのようなデータでも、組織のインフラストラクチャのどこかに1つ以上の正確な重複があるという考え方の単純な概念です。たとえば、データベース内のレコード、ストレージ・ボリューム内のファイル、またはVMイメージなどです。それ自体では、重複は穏やかで、有益にさえ感じられる場合があります。追加のコピーが嫌いな人はいないでしょう。しかし、エンタープライズ規模に拡大すると、問題の範囲が明らかになります。ほぼすべての現代的なデバイスが絶えずデータを生成し、バックアップやアーカイブが定期的にスケジュールされ実行され、ファイルが複数のプラットフォーム間で共有される中、データの重複は単なる煩わしさから、莫大なコストと技術的負担へと発展しています。問題の解決は、データの重複が発生する仕組みと理由を理解することから始まります。
データの重複とは、計画的なバックアップのように意図的に、または意図せずに、1つまたは複数の同一バージョンのデータを作成するプロセスを指します。重複は、ファイル内の保存データ、VMイメージ、データベース内のブロックまたはレコード、またはその他のデータ型として存在する可能性があります。原因の如何に関わらず、データの重複はストレージ領域を浪費し、そのコストはデータ・ストアのサイズと共に増大します。また、データ管理の問題にもつながる可能性があります。たとえば、ファイルのすべてのコピーが同時に更新されないと、一貫性の欠如が誤った分析につながる可能性があります。
データの複製に関連するものとして、データの冗長性、つまりデータのプライマリ・バージョンの冗長なセーフティネットとして機能する複数のレコードがあります。データ重複の反対は、データ重複除去で、データ重複を排除してリソースを解放し、古くなった可能性のあるコピーを削除します。
主なポイント
データの重複は必ずしも悪いことではありません。意図的なデータの重複は、アクセスしやすいバックアップ、包括的なアーカイブ、より効果的なディザスタ・リカバリなど、大きなメリットをもたらします。しかし、過度なコストをかけずにこのようなメリットを得るには、バックアップと定期的かつスケジュールされた重複除去を実行する戦略が必要です。これがなければ、重複データは、よくても不必要にストレージ領域を増やし、最悪の場合、ユーザー間の混乱を引き起こし、データ分析を歪める可能性があります。
「データの重複」と「データの冗長性」という言葉はよく同じ意味で使われますが、違いがあります。重複データは必ずしも意図的に冗長化されているわけではなく、人間や機械が不注意やミスで重複させることもあります。しかし、エンジニアリングの観点からすると、冗長性のコンセプトは、問題が発生した場合のセーフティネットを作り出すことです。これは意図的な重複につながります。冗長性それ自体は、堅牢なエンジニアリング手法の信条ですが、過剰な冗長性を生み出すことも確かにあり得ます。その場合、たとえ余分な重複のセットが目的を持って生成されたものだとしても、使用するリソースの量に見合う価値は限定されます。
データは、人間や自動化されたプロセスにより、さまざまな形で重複する可能性があります。たとえば、多くの人がドキュメントを編集する過程で、わずかな変更を加えた複数のバージョンを別々の名前で保存した経験があるのではないでしょうか。「salesreport_final.docx」や「salesreport_final_v2.docx」のようなファイルがそれに当たります。こうしたファイルは、最終版が完成しても削除されずに残りがちです。また、同じファイルが社内でメール送信され、異なる担当者がそれぞれ別の共有ドライブに保存してしまうこともあります。アプリケーションの実行ファイル(.exe)やメディアファイルが、何度もダウンロードされるケースもありますし、仮想マシン(VM)のイメージが複数の場所に保存されることもあります。さらに、データベース内でも同じ情報が二重に入力されることがあります。これは、顧客や従業員など、異なる人が同じファイルを取り込んだり、同じ内容を手入力したりすることで発生します。このような重複は、異なる部門がローカル・アプリケーションや互換性のあるファイル・タイプの異なるアプリケーションで顧客情報などの同じレコードを作成する場合にも発生します。つまり、異なるバックアップ・バージョンにまたがって冗長コピーが作成され、それ自体が重複している可能性があります。
データドリブンな組織であればあるほど、重複が問題になる可能性があります。ビッグデータは、過剰なストレージに対する大きなコストにつながる可能性があります。自動化によって重複が生じることもあります。この場合、自動化されたバックアップ・プロセスは、冗長性を意図して重複ファイルを作成する可能性があります。しかし、同じファイルが複数回バックアップされると問題が発生します。不必要なレベルの冗長性は、非効率的なストレージの使用につながります。
あまり一般的ではありませんが、予期せぬ出来事がデータの重複を引き起こします。たとえば、バックアップ処理中に停電や自然災害が発生すると、バックアップがリセットされ、一部のファイルがすでに書き込まれた後に処理が再開されることがあります。ハードウェアの故障も同様の問題を引き起こし、バックアップやアーカイブ処理中に予期せぬ重複が発生する可能性があります。
データの重複は必ずしも悪いことではありません。ITチームは、重複が意図されたものかどうか、重複の格納に使用されるリソースの数、および現状のコストを理解する必要があります。第2世代アーカイブに完全に複製されたファイルへのポインタを含む、意図的に作成された3世代目のアーカイブは、共有ドライブに同じ巨大なPowerPointファイルが複数保存されている場合とはまったく異なる状況です。
以下は、最も一般的なデータ重複の種類と、それらが組織に与える影響です。
重複したデータは、ハードウェア、帯域幅、メンテナンス、データ管理など、さまざまな負担の増加を波及させ、不要なコストがかさみます。問題が軽微にとどまる場合もありますが、最悪の場合は深刻な結果を招くこともあります。データ重複がデータサイエンスの取り組みに悪影響を及ぼす代表的な例を挙げます。
ストレージ領域。これは、データの重複による最も直接的なコストです。冗長コピーは、ローカル・ハードディスク、サーバー、クラウド・ストレージの貴重な容量を使い果たし、コスト増につながります。10テラバイトのデータがある部署で、10%が重複しているとします。これは1テラバイトの無駄なストレージであり、特にそれがクラウドベースのプライマリ・ストレージとアーカイブ・ストレージにある場合、大きなコストにつながる可能性があります。
データ複重複除外ツール。重複除外ツールは、ストレージ・ボリュームから重複を一掃することができます。これらのサービスおよびツールは、通常、レコード単位のボリュームに基づきます。つまり、除外する重複が多ければ多いほど、コストも高くなります。
スキュー・データ。レコードが重複していると、不正確な測定基準が作成されるため、データ分析や可視化にエラーが生じます。例えば、新規顧客が微妙に異なる名前で販売データベースに2度入力されたとか、2人の管理者が同じ発注書を入力したとします。
上記の各要素には、コストのかかるスタッフの作業も必要です。ストレージのボリュームを維持する必要があります。誰かが重複除外システムを評価し、購入し、実行する必要があります。偏ったデータには、レコードの削除とデータベースのクリーニングが必要です。不適切なデータがさらにレポートや 通信に伝搬した場合、すべての作業を後戻りさせて元に戻し、修復する必要があります。
意図せずに重複したファイルやデータベースのレコードは、放置すれば組織全体に影響が波及し、深刻な問題を引き起こす可能性があります。次に、データ重複で発生する最も一般的な問題の一部を示します。
共有ドライブ、IoTデバイス、インポートされたパブリック・データやパートナー・データ、階層化されたクラウド・ストレージ、より堅牢なレプリケーションとディザスタ・リカバリ、その他無数のソースにより、組織はかつてないほど多くのデータを保有しています。これに伴い、データの重複が発生するリスクも増加しており、組織は重複データの発生を最小限に抑え、拡散した場合には速やかに排除する戦略を優先すべきです。
以下は、一般的かつ効果的な対策の一部です。
組織がデータドリブンになるにつれ、重複データの排除がかつてないほど必要かつ有益になります。冗長性を最小化するための積極的な対策を講じることで、ストレージ・インフラストラクチャの最適化、データ管理効率の向上、コンプライアンスの改善、他の優先事項のための費用やスタッフのリソースの確保が可能になります。
以下は、データ重複除外による最も一般的なメリットの紹介です。
データの重複の問題を最小限に抑える最善の方法は、そもそも重複を発生させないことです。Oracle HeatWaveは、オンライン・トランザクション処理、データウェアハウスやデータレイク全体のリアルタイム分析、機械学習(ML)、生成AIを1つのクラウド・サービスに統合します。これにより、お客様は以下のような多くのメリットを享受できます。
データの重複排除は、情報のサイロ化を解消し、データのアクセス性を向上させ、チーム間のコラボレーションを促進します。これにより、組織全体で得られたデータインサイトを活用した、より良い意思決定が可能になります。たとえば、マーケティングチームがCRMシステムで顧客連絡先情報を管理し、営業チームが類似のデータを持つ別のリード管理システムを使っているような状況では、情報が分断されがちです。重複排除プログラムを導入することで、こうした情報を統合し、両チームが統一された顧客ビューに基づいて、連携してマーケティング施策や営業活動を展開できるようになります。
AIの可能性を引き出したいとお考えですか。そのカギを握るのはデータインフラの整備です。この包括的なガイドブックでは、CIOがデータとAIを活用して戦略的意思決定を推進し、業務を最適化し、競争力を獲得するための戦略を提供します。す。
データ重複の今後のトレンドについて教えてください。
テクノロジーの進化により、ITは重複データの発生をより効果的に抑制できるようになってきています。今後の代表的な進展として、以下のようなトレンドが挙げられます。
重複データの監視方法を教えてください。
重複データを監視および特定するためのさまざまな戦略があります。これには、データ・プロファイリング、データ照合、データ・カタログなどのツールが含まれます。受信データ・ソースのデータ・クレンジング・ツールはある程度の識別が可能であり、特化したデータ重複除外ツールは重複データの発見と除外の両方が可能です。
データ重複の課題を教えてください。
データの重複は、あらゆる規模の組織にとって大きな課題となります。最も明白な問題は、ストレージ領域の浪費です。重複コピーは、サーバー、ハードディスク、クラウドストレージの貴重な容量を消費し、コスト増につながります。システム間で重複したデータを管理することは、重複を特定し、プライマリ・バージョンを決定し、冗長なコピーを削除する必要があるIT作業者にとっても時間のかかる作業です。重複したファイルがストレージに散在していると、アクセスや検索に時間がかかるため、過剰なデータ重複はシステムの処理速度も低下させます。
また、更新がすべてのコピーに適用されない場合、データの不整合も発生します。これは、不正確なレポート、古い情報に基づく無駄な取り組み、異なるチームが相反するデータセットを利用することによる混乱につながる可能性があります。さらに、正確なデータ保持や削除を求める規制要件への対応も困難になり、セキュリティの観点からは、データ量が多ければ多いほど攻撃対象が広がるリスクがあります。
重複データを持つことにメリットはありますか。
バックアップやアーカイブなど、意図的に重複させたデータは、事業継続やディザスタリカバリに関連する機能にとって多くのメリットがあります。重複データをうまく利用するためには、組織は戦略的なアプローチを採用し、重複データを特定の限られた量に抑えることで、リソースの過剰使用やその他の問題を防ぐ必要があります。
