データ重複の影響と解決策

Michael Chen |コンテンツ・ストラテジスト| 2024年9月4日

データの重複はどのようなデータでも、組織のインフラストラクチャのどこかに1つ以上の正確な重複があるという考え方の単純な概念です。たとえば、データベース内のレコード、ストレージ・ボリューム内のファイル、またはVMイメージなどです。それ自体では、重複は穏やかで、有益にさえ感じられる場合があります。追加のコピーが嫌いな人はいないでしょう。しかし、エンタープライズ規模に拡大すると、問題の範囲が明らかになります。ほぼすべての現代的なデバイスが絶えずデータを生成し、バックアップやアーカイブが定期的にスケジュールされ実行され、ファイルが複数のプラットフォーム間で共有される中、データの重複は単なる煩わしさから、莫大なコストと技術的負担へと発展しています。問題の解決は、データの重複が発生する仕組みと理由を理解することから始まります。

データの重複とは

データの重複とは、計画的なバックアップのように意図的に、または意図せずに、1つまたは複数の同一バージョンのデータを作成するプロセスを指します。重複は、ファイル内の保存データ、VMイメージ、データベース内のブロックまたはレコード、またはその他のデータ型として存在する可能性があります。原因の如何に関わらず、データの重複はストレージ領域を浪費し、そのコストはデータ・ストアのサイズと共に増大します。また、データ管理の問題にもつながる可能性があります。たとえば、ファイルのすべてのコピーが同時に更新されないと、一貫性の欠如が誤った分析につながる可能性があります。

データの複製に関連するものとして、データの冗長性、つまりデータのプライマリ・バージョンの冗長なセーフティネットとして機能する複数のレコードがあります。データ重複の反対は、データ重複除去で、データ重複を排除してリソースを解放し、古くなった可能性のあるコピーを削除します。

主なポイント

  • 重複データとは、ネットワーク内のファイルやデータベースレコードの正確なコピーを指します。多くの場合、コミュニケーション不足、時代遅れのプロセス、ファイル共有のベストプラクティスを実行しないことが原因です。
  • 重複データとは、ネットワーク内のファイルやデータベースレコードの正確なコピーを指します。
  • 重複データは、同じ販売記録を2度提供するなど、分析結果を歪める可能性があります。
  • 組織は、バックアップやアーカイブとして意図的に、あるいは複数のダウンロード、コピー/ペーストのエラー、重複したデータ入力によって意図せずに、データ重複を作り出しています。
  • あらゆる形でデータ重複に対処することは、直接的にはリソースの浪費、間接的にはスタッフが請求書や注文書の間違いを訂正したり、重複したデータに基づくその他のアクションを実行する必要がある場合など、大きなコスト負担となります。

データの重複の説明

データの重複は必ずしも悪いことではありません。意図的なデータの重複は、アクセスしやすいバックアップ、包括的なアーカイブ、より効果的なディザスタ・リカバリなど、大きなメリットをもたらします。しかし、過度なコストをかけずにこのようなメリットを得るには、バックアップと定期的かつスケジュールされた重複除去を実行する戦略が必要です。これがなければ、重複データは、よくても不必要にストレージ領域を増やし、最悪の場合、ユーザー間の混乱を引き起こし、データ分析を歪める可能性があります。

「データの重複」と「データの冗長性」という言葉はよく同じ意味で使われますが、違いがあります。重複データは必ずしも意図的に冗長化されているわけではなく、人間や機械が不注意やミスで重複させることもあります。しかし、エンジニアリングの観点からすると、冗長性のコンセプトは、問題が発生した場合のセーフティネットを作り出すことです。これは意図的な重複につながります。冗長性それ自体は、堅牢なエンジニアリング手法の信条ですが、過剰な冗長性を生み出すことも確かにあり得ます。その場合、たとえ余分な重複のセットが目的を持って生成されたものだとしても、使用するリソースの量に見合う価値は限定されます。

データ重複が発生する理由

データは、人間や自動化されたプロセスにより、さまざまな形で重複する可能性があります。たとえば、多くの人がドキュメントを編集する過程で、わずかな変更を加えた複数のバージョンを別々の名前で保存した経験があるのではないでしょうか。「salesreport_final.docx」や「salesreport_final_v2.docx」のようなファイルがそれに当たります。こうしたファイルは、最終版が完成しても削除されずに残りがちです。また、同じファイルが社内でメール送信され、異なる担当者がそれぞれ別の共有ドライブに保存してしまうこともあります。アプリケーションの実行ファイル(.exe)やメディアファイルが、何度もダウンロードされるケースもありますし、仮想マシン(VM)のイメージが複数の場所に保存されることもあります。さらに、データベース内でも同じ情報が二重に入力されることがあります。これは、顧客や従業員など、異なる人が同じファイルを取り込んだり、同じ内容を手入力したりすることで発生します。このような重複は、異なる部門がローカル・アプリケーションや互換性のあるファイル・タイプの異なるアプリケーションで顧客情報などの同じレコードを作成する場合にも発生します。つまり、異なるバックアップ・バージョンにまたがって冗長コピーが作成され、それ自体が重複している可能性があります。

データドリブンな組織であればあるほど、重複が問題になる可能性があります。ビッグデータは、過剰なストレージに対する大きなコストにつながる可能性があります。自動化によって重複が生じることもあります。この場合、自動化されたバックアップ・プロセスは、冗長性を意図して重複ファイルを作成する可能性があります。しかし、同じファイルが複数回バックアップされると問題が発生します。不必要なレベルの冗長性は、非効率的なストレージの使用につながります。

あまり一般的ではありませんが、予期せぬ出来事がデータの重複を引き起こします。たとえば、バックアップ処理中に停電や自然災害が発生すると、バックアップがリセットされ、一部のファイルがすでに書き込まれた後に処理が再開されることがあります。ハードウェアの故障も同様の問題を引き起こし、バックアップやアーカイブ処理中に予期せぬ重複が発生する可能性があります。

データ重複の種類とその影響

データの重複は必ずしも悪いことではありません。ITチームは、重複が意図されたものかどうか、重複の格納に使用されるリソースの数、および現状のコストを理解する必要があります。第2世代アーカイブに完全に複製されたファイルへのポインタを含む、意図的に作成された3世代目のアーカイブは、共有ドライブに同じ巨大なPowerPointファイルが複数保存されている場合とはまったく異なる状況です。

以下は、最も一般的なデータ重複の種類と、それらが組織に与える影響です。

  • 浅い重複: 浅い重複では、データがコピーされると新しいオブジェクトが作成されますが、データを完全にクローニングするのではなく、オブジェクトには元のオブジェクトへの参照ポインタが格納されます。この方がストレージ領域ははるかに少なくて済みますが、クエリはソース・データを取得するために1ステップ追加する必要があります。さらに、重複は基本的にオリジナルと同期されるため、オリジナルへの変更は重複にも反映されます。これは、変更を動的に重複に反映させるのではなく、ある時点の状態を保存したい場合には不向きです。

  • 深い重複: 深い重複では、元データの完全なコピーが新しいオブジェクトとして作成されます。新しいオブジェクトはオリジナルと同量のストレージ領域を要するため、深い重複 は浅い重複よりも多くのストレージを消費することになります。このような欠点があるにもかかわらず、深い重複には独立した冗長性を提供するという利点があります。故意または過失でソース・ファイルに何か起こった場合、深い重複はディザスタ・リカバリに対応できるクリーンなバックアップの確保を支援します。
  • データ断片化: データ断片化とは、データファイルのセグメントを異なる場所に格納するプロセスを指します。アクセス頻度や容量に基づいてセグメントを書き込むことで、ストレージをより効率的にすることができますが、システムがセグメントを検索し、完全なファイルをコンパイルする必要があるため、一般的にファイルをクエリするには、より多くの処理時間とリソースが必要になります。リカバリ目的の断片化により問題が発生する場合があります。たとえば、機械的な障害や接続障害によって不完全な重複が発生する可能性があります。また、ロケーションベースの障害により、一部の断片のみが損傷し、バックアップやアーカイブ・プロセスが破壊されることもあります。
  • 論理レプリケーション: 論理レプリケーションは浅い重複と似ていますが、より効率的な重複プロセスのために参照を使用します。バックアップ・システムを維持する場合、論理レプリケーションでは一貫性をパブリッシャー/サブスクライバー・モデルとして扱い、通常はアドレスで識別される特定のボリュームのデータに対して、パブリッシャーがソース、サブスクライバーがターゲットとなります。パブリッシャーが指定されたアドレス範囲内でソースを更新すると、サブスクライバーのデータも更新され、同期が保たれます。サブスクライブされた範囲外の更新は、最大限の効率を得るために無視されます。
  • 物理レプリケーション: 物理レプリケーションはデータベースのレプリケーションの一形態で、データをバイト単位で規則的にコピーします。論理レプリケーションとは異なり、より時間がかかり、より包括的で、より多くのリソースを必要とするモデルです。

データ重複のコスト

重複したデータは、ハードウェア、帯域幅、メンテナンス、データ管理など、さまざまな負担の増加を波及させ、不要なコストがかさみます。問題が軽微にとどまる場合もありますが、最悪の場合は深刻な結果を招くこともあります。データ重複がデータサイエンスの取り組みに悪影響を及ぼす代表的な例を挙げます。

ストレージ領域。これは、データの重複による最も直接的なコストです。冗長コピーは、ローカル・ハードディスク、サーバー、クラウド・ストレージの貴重な容量を使い果たし、コスト増につながります。10テラバイトのデータがある部署で、10%が重複しているとします。これは1テラバイトの無駄なストレージであり、特にそれがクラウドベースのプライマリ・ストレージとアーカイブ・ストレージにある場合、大きなコストにつながる可能性があります。

データ複重複除外ツール。重複除外ツールは、ストレージ・ボリュームから重複を一掃することができます。これらのサービスおよびツールは、通常、レコード単位のボリュームに基づきます。つまり、除外する重複が多ければ多いほど、コストも高くなります。

スキュー・データ。レコードが重複していると、不正確な測定基準が作成されるため、データ分析や可視化にエラーが生じます。例えば、新規顧客が微妙に異なる名前で販売データベースに2度入力されたとか、2人の管理者が同じ発注書を入力したとします。

上記の各要素には、コストのかかるスタッフの作業も必要です。ストレージのボリュームを維持する必要があります。誰かが重複除外システムを評価し、購入し、実行する必要があります。偏ったデータには、レコードの削除とデータベースのクリーニングが必要です。不適切なデータがさらにレポートや 通信に伝搬した場合、すべての作業を後戻りさせて元に戻し、修復する必要があります。

データの重複による問題

意図せずに重複したファイルやデータベースのレコードは、放置すれば組織全体に影響が波及し、深刻な問題を引き起こす可能性があります。次に、データ重複で発生する最も一般的な問題の一部を示します。

  • データ品質の問題: データは、正確性、完全性、適時性および目的の組織の基準を満たすと、高品質とみなされます。重複データが増加すると、これらの各要因が損なわれる可能性があり、生成されるレポートや分析の精度が低下します。重複データが長期間放置されるほど、組織全体のデータ品質は劣化し、過去分析から将来予測に至るまで、あらゆる分析に支障をきたします。
  • スタッフの効率低下: 重複データの追跡と修正にどれだけの時間が費やされているでしょうか。データの重複が蓄積されると、従業員はレポートや記録の二重・三重チェック、問題の修正対応などに多大な時間を割かれることになり、場合によっては数日〜数週間のロスが発生します。必要な修正には次のものが含まれます。
    • レコードの更新
    • 共有サーバーに同一ファイルが何バージョン存在するかの追跡
    • 重複情報によりレポートの統計がいかに歪んでいるかの確認
    • 不正確なデータを含むレポートを見たユーザーの追跡
  • 正確なレポートと分析の生成の難しさ: 意思決定者がレポートやデータ分析から引き出すインサイトは、どの程度優れているのでしょうか。重複データ、あるいは低品質なデータが含まれていると、レポートが誤った方向へと組織を導いてしまう可能性があります。重複データの存在が把握されている場合、組織はその影響を回避するために、レポート作成前の追加的なデータクレンジングや、不足データの補完作業といった余分な対応を求められることになります。
  • 規制要件への不適合: データが重複していると、規制ガイドラインへの準拠が困難になる可能性があり、包括的なデータ管理の必要性が強調されることがよくあります。たとえば財務データに関するレポート提出が義務づけられている場合、重複データにより不正確または不整合な情報が含まれることがあります。その結果、罰金や制裁措置を受けるリスクが生じます。規制上の要件として、多くの場合、強力なデータ・セキュリティ慣行と、侵害を迅速に特定し報告する能力が義務付けられています。顧客のクレジットカードのような機密データが複数の場所に保管されている場合は、そのようなことは困難です。最後に、一般データ保護規則(General Data Protection Regulation)やカリフォルニア州消費者プライバシー法(California Consumer Privacy Act)などの規制により、個人は自分の個人データにアクセス、訂正、削除する権利を認められています。記録が重複していると、特定の個人に関連するすべての関連データを見つけることが難しくなり、コンプライアンスの妨げになります。
  • 在庫原価の増加: データの重複は、在庫管理にも悪影響を及ぼします。誤った在庫情報により、本来不要な在庫の補充に追われたり、逆に過剰な在庫を抱えたりといった事態が発生します。クリーンなデータがないと、真のリーン運用は不可能になります。
  • 誤った経営判断: 組織は、データ主導型の意思決定を行うことで成功することができます。しかし、そのデータが重複によって汚染されている場合、意思決定は誤った前提のもとで行われます。その結果、小さな見落としにとどまる場合もあれば、即時対応を迫られる混乱、あるいは取り返しのつかない重大な意思決定ミスにつながる可能性すらあります。
  • カスタマーサービスの不良: 顧客が企業とやり取りする場合、情報が複数の重複レコードに分散していると、サービス・エージェントが履歴を全体的に把握することは困難です。担当者は、顧客の過去の購入履歴、サポート・チケット、コミュニケーション履歴などの重要な情報を見逃している可能性があります。これにより、パーソナライズされた効率的なサービスを提供する能力が損なわれ、大切な顧客が「なぜエージェントは私の話を知らなかったのか」と不信感を抱き、ブランドイメージにも悪影響を及ぼします。
  • 可視性の低下: ネットワークの可視性とは、企業が自社のネットワーク上を流れるすべてのトラフィックやデータを正確に把握できる状態を指します。重複データはこの可視性の確保を多方面で妨げます。具体的には、以下のような影響があります。
    • 不正確なデータ・ログの作成
    • バックアップやアーカイブ処理の長時間化・ストレージの過剰消費
    • ネットワーク・パフォーマンスおよび伝送メトリックの偏り
    • 処理能力や帯域幅のリソース浪費

データの重複を防ぐための戦略

共有ドライブ、IoTデバイス、インポートされたパブリック・データやパートナー・データ、階層化されたクラウド・ストレージ、より堅牢なレプリケーションとディザスタ・リカバリ、その他無数のソースにより、組織はかつてないほど多くのデータを保有しています。これに伴い、データの重複が発生するリスクも増加しており、組織は重複データの発生を最小限に抑え、拡散した場合には速やかに排除する戦略を優先すべきです。

以下は、一般的かつ効果的な対策の一部です。

  • データ検証ルールの適用: データレイクやデータウェアハウスなどのリポジトリにデータをインポートする場合は、そのデータをクレンジングして検証することが重要です。取込みステージでデータ検証を実行すると、上流で作成された重複データの受入れが制限されます。IT部門は、取り込みワークフローの一環として、重複データを特定し、除外するためのルールを作成し、実施するプロセスを構成する必要があります。
  • 一意の識別子の確立: データベースは、重複バージョンが生成されないように、一意の識別子をレコードに適用できます。たとえば、顧客アカウントの例では、一意の識別子は、顧客識別番号またはアカウント番号の新しいフィールドである可能性があります。そして、営業チームやマーケティング・チームが顧客と連携する際にこのアカウント番号を使用することで、誤って同じ顧客名を使用して別のレコードを作成することを防ぐことができます。
  • 定期的な監査の実行: 定期的な間隔で重複排除ツールを使用することは、効果的なITメンテナンス戦略の一環として非常に有効です。重複排除の効果は状況によって異なることがありますが、継続的に実施することにより、重複データの検出・排除を習慣化し、蓄積を最小限に抑えることが可能になります。
  • 再利用可能なコード・ライブラリおよびフレームワークの使用: アプリケーション開発において、開発者は再利用可能なコード・ライブラリとフレームワークを導入することで、自身の作業を効率化し、コードの重複を削減することに役立てることができます。この取り組みにより、機能およびその他の再利用可能な要素のリポジトリが作成され、重複コードや冗長な作業を発生させることなく、開発者がモジュール資産を確実に使用できるようになります。
  • データベースの制約の活用:データベース管理者は、特定のフィールド間でレコードが重複しないように制約を設定できます。たとえば顧客情報のデータベースで「顧客名」フィールドに一意制約を設けると、同じ顧客名で重複レコードを誤って作成することを防ぎ、売上データの正確性を維持することが可能になります。

データ重複の排除によるメリット

組織がデータドリブンになるにつれ、重複データの排除がかつてないほど必要かつ有益になります。冗長性を最小化するための積極的な対策を講じることで、ストレージ・インフラストラクチャの最適化、データ管理効率の向上、コンプライアンスの改善、他の優先事項のための費用やスタッフのリソースの確保が可能になります。

以下は、データ重複除外による最も一般的なメリットの紹介です。

  • ストレージ・コストの削減: 重複データを排除すると、企業がクラウドで支払う必要があるストレージの量を減らし、所有するデータセンター用に新しいハードウェアを購入する必要性を押し下げることができます。その結果、2種類のコスト削減が可能になります。直接的には、企業は購入サイクルを遅らせることができます。間接的には、データ・ストレージの使用量を減らすことで、ITチームはリソースの状態をより効率的に監視・維持できるようになり、全体的なメンテナンス費用と間接費を削減できます。
  • データ精度の向上: データ重複は、さまざまな精度の問題を引き起こします。顧客のデータベース・レコードが重複していると、2つの異なる部署が同じレコードを更新することになり、混乱が生じます。また、分析レポートにおいても、冗長なデータが含まれることで統計の信頼性が損なわれます。
  • 総合的なカスタマー・エクスペリエンスの向上:企業が顧客に関する正確で完全、かつクリーンなデータを持つことで、多くの場合、顧客満足度が向上し、ブランド認知度が向上し、売上が増加します。たとえば、購入履歴が重複レコードに分散するのを防ぐことで、レコメンドエンジンの精度やマーケティング施策の的確さが向上し、よりパーソナライズされた対応が可能になります。
  • 従業員の生産性の向上: 不正確なデータは、従業員の生産性を低下させる大きな要因にもなります。異なる部門の従業員がレポートの不正確さの原因を追跡するために時間を浪費したり、メンテナンスやデータ・クレンジング作業に新たなオーバーヘッドが必要になる可能性があります。いずれにせよ、データが不正確であることは、情報を正しく取得するための手間が増えることを意味し、スケジューリング、コミュニケーション、ワークフロー、そして最終的には予算に影響を与える可能性があります。
  • 総合的なカスタマー・エクスペリエンスの向上:企業が顧客に関する正確で完全、かつクリーンなデータを持つことで、顧客満足度が高まり、ブランド認知度が向上し、売上が増加することがよくあります。特に、システムやアプリケーション間に存在する「データサイロ(情報の孤立)」の解消につながります。重複除外は、情報を単一のデータソースに統合し、異なるチームが正確で一貫性のある情報にアクセスし、それを簡単に共有できるようにします。また、冗長なコピーを減らし、ストレージを最適化することで、チームは必要な情報を見つけやすくなります。時代遅れの可能性のある複数の場所やバージョンのデータを検索するのに時間を浪費する必要はありません。
  • 正確で最新のデータに基づく、より良い意思決定: データ主導の意思決定は、データが正確である場合にのみ機能します。重複データを排除してデータの精度を向上させることで、組織はより適切な意思決定を行うことができます。また、データに対する信頼性が高まることで、組織全体の運用効率の向上にもつながります。
  • データベースのバックアップと復元の高速化: 重複除外プロセスにより、ストレージ・メディアで使用される全体的なデータ量を削減できます。これにより、バックアップやアーカイブに必要な容量が小さくなり、バックアップ・移動・復元の各プロセスが高速化されます。データ量が少ないため、転送にかかる時間も短縮され、処理に必要な計算リソースも削減されます。

Oracle HeatWaveでデータを常に最適な状態に

データの重複の問題を最小限に抑える最善の方法は、そもそも重複を発生させないことです。Oracle HeatWaveは、オンライン・トランザクション処理、データウェアハウスやデータレイク全体のリアルタイム分析、機械学習(ML)、生成AIを1つのクラウド・サービスに統合します。これにより、お客様は以下のような多くのメリットを享受できます。

  • 分析用にデータベース内のトランザクション・データを別の分析データベースに重複させる必要はありません。
  • チームは、オブジェクト・ストレージ、MySQLデータベース、またはその両方の組み合わせにあるデータを、機能やサービスを追加することなく簡単にクエリできます。
  • 同様に、MLモデルを構築するためにデータを別のMLサービスに移動する必要もありません。
  • お客様は、さまざまなサービスを使用する複雑さとコスト、コストのかかる抽出、変換、読み込みの重複を避けることができます。
  • 分離された分析用データベースでレポートが生成されるまで待つ必要がなく、意思決定者は常にリアルタイムの分析結果を取得できます。
  • データがデータ・ストア間で転送されないため、データセキュリティと法規制コンプライアンスのリスクが減少します。
  • 自動化されたデータベース内ベクトル・ストアを含む Oracle HeatWave GenAI を使用すると、大規模な言語モデルのパワーを独自のデータで活用し、データを別のベクトル データベースに重複させることなく、パブリックなデータのみでトレーニングされたモデルを使用するよりも、より正確でコンテキストに関連した回答を得ることができます。

データの重複排除は、情報のサイロ化を解消し、データのアクセス性を向上させ、チーム間のコラボレーションを促進します。これにより、組織全体で得られたデータインサイトを活用した、より良い意思決定が可能になります。たとえば、マーケティングチームがCRMシステムで顧客連絡先情報を管理し、営業チームが類似のデータを持つ別のリード管理システムを使っているような状況では、情報が分断されがちです。重複排除プログラムを導入することで、こうした情報を統合し、両チームが統一された顧客ビューに基づいて、連携してマーケティング施策や営業活動を展開できるようになります。

データとAI : CIOを成功に導くためのガイド

AIの可能性を引き出したいとお考えですか。そのカギを握るのはデータインフラの整備です。この包括的なガイドブックでは、CIOがデータとAIを活用して戦略的意思決定を推進し、業務を最適化し、競争力を獲得するための戦略を提供します。す。

データ複製に関するFAQ

データ重複の今後のトレンドについて教えてください。

テクノロジーの進化により、ITは重複データの発生をより効果的に抑制できるようになってきています。今後の代表的な進展として、以下のようなトレンドが挙げられます。

  • 重複排除を、データ送信元または保存先のいずれかで実行できる柔軟性
  • インラインでのデータ重複排除
  • ローカル・ストレージだけでないグローバルなデータ重複除外
  • データ・リポジトリによる検証および変換プロセスの一環としての重複除外
  • ファイル単位ではなく、ブロックやセグメント単位での重複排除の導入

重複データの監視方法を教えてください。

重複データを監視および特定するためのさまざまな戦略があります。これには、データ・プロファイリング、データ照合、データ・カタログなどのツールが含まれます。受信データ・ソースのデータ・クレンジング・ツールはある程度の識別が可能であり、特化したデータ重複除外ツールは重複データの発見と除外の両方が可能です。

データ重複の課題を教えてください。

データの重複は、あらゆる規模の組織にとって大きな課題となります。最も明白な問題は、ストレージ領域の浪費です。重複コピーは、サーバー、ハードディスク、クラウドストレージの貴重な容量を消費し、コスト増につながります。システム間で重複したデータを管理することは、重複を特定し、プライマリ・バージョンを決定し、冗長なコピーを削除する必要があるIT作業者にとっても時間のかかる作業です。重複したファイルがストレージに散在していると、アクセスや検索に時間がかかるため、過剰なデータ重複はシステムの処理速度も低下させます。

また、更新がすべてのコピーに適用されない場合、データの不整合も発生します。これは、不正確なレポート、古い情報に基づく無駄な取り組み、異なるチームが相反するデータセットを利用することによる混乱につながる可能性があります。さらに、正確なデータ保持や削除を求める規制要件への対応も困難になり、セキュリティの観点からは、データ量が多ければ多いほど攻撃対象が広がるリスクがあります。

重複データを持つことにメリットはありますか。

バックアップやアーカイブなど、意図的に重複させたデータは、事業継続やディザスタリカバリに関連する機能にとって多くのメリットがあります。重複データをうまく利用するためには、組織は戦略的なアプローチを採用し、重複データを特定の限られた量に抑えることで、リソースの過剰使用やその他の問題を防ぐ必要があります。