Michael Chen | Content Strategist | 2024년 9월 4일
데이터 중복은 간단한 개념입니다. 모든 데이터 조각이 조직의 인프라 어딘가에 하나 이상의 정확한 복제본을 가지고 있다는 개념입니다. 그 형식은 데이터베이스의 레코드, 저장 영역 볼륨의 파일 또는 VM 이미지 등일 수 있습니다. 그 자체로는 데이터 중복은 심지어 유익한 것처럼도 보일 수 있습니다. 추가 사본이 있다면 좋은 일이 아닐까요? 그러나 엔터프라이즈 규모로 확장되면 문제의 범위가 명확해집니다. 거의 모든 최신 디바이스가 정기적으로 일정 및 실행된 데이터, 백업 및 아카이브 및 여러 플랫폼에서 공유되는 파일을 지속적으로 생성함에 따라 데이터 중복은 성가신 작업에서 막대한 비용 및 기술적 부담으로 자라났습니다. 문제를 해결하는 것은 데이터 복제가 발생하는 방법과 이유를 이해하는 것에서 시작합니다.
데이터 중복은 의도적으로(예: 계획된 백업의 경우) 또는 실수로 동일한 버전의 데이터를 하나 이상 생성하는 프로세스입니다. 중복은 파일, VM 이미지, 데이터베이스의 블록 또는 레코드 또는 기타 데이터 유형에 저장된 데이터로 존재할 수 있습니다. 원인에 관계없이 데이터 중복은 스토리지 공간을 낭비하며 데이터 저장소 크기와 함께 비용이 증가합니다. 또한 데이터 관리 문제에도 기여할 수 있습니다. 예를 들어, 파일의 모든 복사본이 동시에 업데이트되지 않으면 불일치로 인해 잘못된 분석이 발생할 수 있습니다.
데이터 중복과 관련된 개념으로 데이터 중복성(data redundancy)이 있습니다. 이는 주요 데이터 버전의 안전망 역할을 하는 여러 개의 기록을 보유하는 것을 의미합니다. 데이터 중복의 반대는 데이터 중복 제거(data deduplication)이며, 이는 중복 데이터를 제거하여 리소스를 확보하고 오래된 복사본을 제거하는 것입니다.
주요 요점
중복 데이터가 반드시 나쁜 것은 아닙니다. 의도적인 데이터 중복은 쉽게 액세스할 수 있는 백업, 포괄적인 아카이빙, 보다 효과적인 재해 복구 등 상당한 이점을 제공할 수 있습니다. 그러나 과도한 비용 없이 이러한 이점을 얻으려면 백업 및 정기적인 정기적인 중복 제거 수행 전략이 필요합니다. 그렇지 않으면 중복된 데이터가 불필요하게 추가 저장 공간을 차지할 수 있으며 최악의 경우 사용자 간의 혼란과 비대칭 데이터 분석이 발생할 수 있습니다.
"데이터 중복"과 "데이터 중복성"이라는 용어는 종종 같은 의미로 사용되지만 차이점이 있습니다. 중복된 데이터가 반드시 의도적으로 중복되는 것은 아니며, 때로는 사람이나 기계에 의해 부주의하게 또는 실수로 만들어지기도 합니다. 그러나 엔지니어링 측면에서 이중화의 개념은 문제가 발생할 경우 안전망을 생성하는 것입니다. 이는 의도적 중복입니다. 중복성은 그 자체로 강력한 엔지니어링 관행의 원칙이지만, 과도한 중복성이 야기되는 것도 분명 가능합니다. 이 경우 추가 중복 집합이 목적에 따라 생성되더라도 사용하는 리소스의 양에 대해 제한된 값을 제공합니다.
인간에 의해, 또는 자동화된 프로세스에 의해 여러 가지 방법으로 데이터가 중복될 수 있습니다. 대부분의 사람들은 문서가 수정 과정을 거치면서 약간 다른 이름으로 여러 버전을 저장합니다. 이 과정에서 변경 사항은 종종 미미합니다. 예를 들어 “salesreport_final.docx”와 “salesreport_final_v2.docx”와 같은 파일 이름이 사용됩니다. 보고서가 완성돼도 다른 버전은 일반적으로 삭제되지 않습니다. 또는 조직 전체에 파일을 이메일로 전송하면 서로 다른 두 사람이 공유 드라이브의 개별 지점에 동일한 버전을 저장합니다. 애플리케이션의 .exe 파일 또는 미디어 파일이 여러 번 다운로드될 수 있고, VM 인스턴스가 여러 위치에 저장될 수 있습니다. 마찬가지로 데이터베이스 내에서 동일한 데이터를 두 번 입력할 수 있습니다. 여러 고객 또는 직원이 파일을 가져오거나 레코드를 입력하는 과정에서 정보를 두 번 업로드할 수 있습니다. 그러한 중복은 서로 다른 부서에서 동일한 기록(예: 고객 정보)을 로컬 애플리케이션이나 호환 가능한 파일 형식을 사용하는 서로 다른 애플리케이션에 생성할 때 발생할 수 있습니다. 이것은 다양한 백업 버전 간에 중복된 복사본이 존재할 수 있음을 의미하며, 이러한 복사본 자체도 중복일 수 있습니다.
데이터 중심 조직이 될수록 더 많은 중복 문제가 발생할 수 있습니다. 빅 데이터는 과도한 스토리지 비용을 초래할 수 있습니다. 자동화가 중복을 생성할 수도 있습니다. 이 경우 자동화된 백업 프로세스에서 중복성을 위해 중복 파일을 생성할 수 있습니다. 그러나 동일한 파일이 여러 번 백업될 때 문제가 발생합니다. 불필요한 중복 수준으로 인해 스토리지 사용 효율성이 떨어집니다.
일반적으로 예상치 못한 이벤트가 발생할 경우 데이터가 중복됩니다. 예를 들어 백업 프로세스 중 정전이나 자연 재해가 발생하면 백업이 재설정되어 일부 파일이 이미 기록된 후 프로세스를 다시 시작할 수 있습니다. 하드웨어 고장은 유사한 문제를 일으킬 수 있으며, 이로 인해 백업 또는 아카이빙 과정에서 계획되지 않은 중복이 발생할 수 있습니다.
중복 데이터가 반드시 나쁜 것은 아닙니다. IT 팀은 복제가 필요한지 여부, 중복을 저장하는 데 사용되는 리소스 수 및 현상 유지에 드는 비용을 파악해야 합니다. 2세대 아카이브에서 완전히 복제된 중복에 대한 포인터를 포함하는 의도적인 3세대 아카이브는 공유 드라이브에서 동일한 거대 PowerPoint 파일의 여러 저장된 인스턴스와 완전히 다른 상황입니다.
다음은 가장 일반적인 데이터 중복 유형 및 데이터 중복이 조직에 미치는 영향입니다.
중복된 데이터는 하드웨어, 대역폭, 유지 관리 및 데이터 관리 전반에 걸쳐 추가적인 부담으로 인해 발생하는 파급 효과가 발생하며, 이로 인해 불필요한 비용이 증가합니다. 경우에 따라 사소한 문제도, 최악의 경우 재앙적 결과도 될 수 있습니다. 데이터 중복이 데이터 과학에 해를 끼치는 다음 방법을 고려해 보세요.
스토리지 공간. 이는 데이터 중복에 대한 가장 직접적인 비용입니다. 중복 복사본은 로컬 하드 드라이브, 서버 및 클라우드 스토리지에서 귀중한 용량을 차지하므로 비용이 높아집니다. 10테라바이트의 데이터가 있고 10%가 중복된 데이터라고 가정해 보겠습니다. 이는 1테라바이트의 스토리지 낭비이며, 특히 클라우드 기반의 운영 스토리지와 아카이브 스토리지에 비해 상당한 비용을 초래할 수 있습니다.
데이터 중복 제거 도구. 또 다른 직접 비용으로, 중복 제거 도구는 저장 볼륨에서 중복 데이터를 제거할 수 있습니다. 이러한 서비스 및 도구는 일반적으로 레코드당 볼륨을 기반으로 합니다. 따라서 중복 제거가 많을수록 비용이 높아집니다.
왜곡된 데이터. 중복 레코드로 인해 부정확한 척도를 생성하여 데이터 분석 및 시각화에 오류가 발생할 수 있습니다. 예를 들어, 새 고객이 약간 다른 이름의 판매 데이터베이스에 두 번 입력되었거나 두 명의 관리자가 동일한 구매 주문을 입력한다고 가정합니다.
위의 각 요소에는 인건비가 많이 드는 직원에 의한 작업도 필요합니다. 저장 영역 볼륨은 반드시 유지 관리해야 합니다. 데이터 중복 제거 시스템을 평가, 구매 및 실행해야 하는 경우도 있습니다. 비대칭 데이터를 사용하려면 레코드를 제거하고 데이터베이스를 정리해야 합니다. 잘못된 데이터가 추가 보고서나 통신으로 전달되는 경우 계속되는 모든 작업을 역추적하여 실행 취소한 다음 복구해야 합니다.
의도치 않게 중복된 파일과 데이터베이스 레코드는 방치할 경우 기업 전체에 문제를 일으킬 수 있습니다. 다음은 데이터 중복으로 인해 발생하는 가장 일반적인 문제 중 일부입니다.
공유 드라이브, 사물 인터넷 기기, 가져온 공개 및 파트너 데이터, 계층형 클라우드 스토리지, 더욱 강력한 복제 및 재해 복구 등의 무수한 소스를 통해 기업은 그 어느 때보다 많은 데이터를 보유하고 있습니다. 이로 인해 중복 가능성이 높아짐에 따라 조직은 중복 데이터 생성을 최소화하고, 중복 데이터가 늘어나면 이를 제거하기 위한 전략의 우선순위를 지정해야 합니다.
이를 달성하기 위한 가장 일반적인 전략 중 일부는 다음과 같습니다.
기업이 데이터 중심이 될수록 중복 데이터를 제거하는 것은 점점 더 필요하고 유익해지고 있습니다. 중복성을 최소화하기 위한 사전 예방적 조치를 취하면 스토리지 인프라를 최적화하고, 데이터 관리 효율성을 개선하고, 규제 준수를 개선하고, 다른 우선순위에 대비하여 비용 및 직원 리소스를 확보할 수 있습니다.
다음은 데이터 중복 제거의 가장 일반적인 몇 가지 이점에 대해 자세히 설명합니다.
데이터 중복 문제를 최소화하는 가장 좋은 방법은 우선 이를 방지하는 것입니다. Oracle HeatWave는 온라인 트랜잭션 처리, 데이터 웨어하우스 및 데이터 레이크 전반의 실시간 분석, 머신러닝(ML), 생성형 AI를 하나의 클라우드 서비스에 결합했습니다. 고객은 여러 가지 방법으로 그 혜택을 누릴 수 있습니다.
전반적으로 데이터 중복 제거는 정보 사일로를 분석하고, 데이터 접근성을 개선하고, 팀이 조직의 집단 데이터 통찰력을 활용하여 더 나은 의사 결정을 내릴 수 있는 협업 환경을 조성합니다. 영업팀이 유사한 데이터가 있는 별도의 리드 관리 시스템을 사용하는 동안 마케팅팀이 고객 컨택트 정보가 있는 CRM 시스템을 사용하는 상황을 피할 수 있습니다. 중복을 제거하는 프로그램은 이 정보를 통합하여 두 팀이 통합 고객 뷰에 액세스하고 마케팅 캠페인 및 영업 지원에 대해 보다 효과적으로 협업할 수 있도록 합니다.
AI의 잠재력을 활용하고 싶으신가요? 모든 것은 귀사의 데이터 인프라에 달려 있습니다. 이 포괄적인 가이드북은 CIO에게 데이터 및 AI를 활용하여 전략적 의사 결정을 주도하고 운영을 최적화하며 경쟁 우위를 확보하기 위한 전략을 제공합니다.
데이터 중복의 향후 추세는 무엇입니까?
기술 역량이 발전함에 따라 IT 부서는 중복 데이터의 양을 최소화할 수 있는 역량을 강화했습니다. 이러한 발전의 몇 가지 예는 다음과 같습니다.
데이터 중복을 어떻게 모니터링합니까?
중복 데이터를 모니터링하고 식별하기 위한 다양한 전략을 사용할 수 있습니다. 데이터 프로파일링, 데이터 일치 및 데이터 카탈로그화와 같은 도구가 포함됩니다. 수신 데이터 소스를 위한 데이터 정제 도구는 어느 정도의 식별 능력을 제공할 수 있으며, 특수 데이터 중복 제거 도구는 중복 데이터를 찾아 제거할 수 있습니다.
데이터 복제 관련 도전 과제는 무엇인가요?
데이터 중복은 모든 규모의 조직에 중대한 과제를 야기합니다. 가장 큰 문제는 저장 공간을 낭비하는 것입니다. 중복 복제본은 서버, 하드 드라이브 및 클라우드 스토리지에서 중요한 용량을 차지하므로 비용이 높아집니다. 중복된 데이터를 식별하고 기본 버전을 확인한 다음 중복된 복사본을 삭제해야 하는 IT 작업자는 시스템 전반에서 중복 데이터를 관리하는 데 시간이 많이 걸립니다. 스토리지 위치에 분산된 중복 파일은 액세스 및 검색 시간이 더 오래 걸리므로 과도한 데이터 복제로 인해 시스템 속도가 느려질 수 있습니다.
업데이트가 모든 복사본에 적용되지 않는 경우에도 데이터 불일치가 발생합니다. 이로 인해 부정확한 보고, 오래된 정보를 기반으로 한 노력 낭비, 서로 다른 팀이 충돌하는 데이터 세트에 의존하는 경우의 혼란이 발생할 수 있습니다. 중복 데이터는 정확한 데이터 보존 및 삭제 관행이 필요한 규정을 준수하기 어렵게 만들 수 있으며, 보안 관점에서 보면 보유 중인 데이터가 많을수록 공격 표면은 커집니다.
중복된 데이터를 사용하면 어떤 이점이 있습니까?
백업 및 아카이브와 같은 의도적으로 복제된 데이터는 무중단 업무 운영 및 재해 복구와 관련된 기능에 많은 이점을 제공합니다. 중복된 데이터를 성공적으로 사용하려면 조직은 중복된 데이터를 특정 및 제한된 금액으로 유지하여 과도한 리소스 사용 및 기타 문제를 방지할 수 있는 전략적 접근 방식을 채택해야 합니다.
