Michael Chen | Content Strategist | 2024년 9월 4일
데이터 중복(data duplication)이란 기업의 인프라 어딘가에 모든 데이터 조각의 하나 이상의 정확한 복제본을 보관한다는 간단한 개념입니다. 중복 대상 데이터로는 데이터베이스의 레코드, 스토리지 볼륨의 파일, VM 이미지 등이 있습니다. 데이터 중복은 일견 무해해 보일 뿐 아니라 심지어 유익해 보이기도 합니다. 여분의 데이터 사본을 굳이 싫어할 사람은 없을 것입니다. 그러나 중복의 규모가 전사적으로 확장되면 문제의 범위가 명확해집니다. 거의 모든 기기가 지속적으로 데이터를 생성하고, 백업과 아카이빙이 정기적으로 계획 및 실행되고, 파일이 여러 플랫폼에 걸쳐 공유되는 오늘날 데이터 중복은 단순히 성가신 문제에서 막대한 비용과 기술적 부담을 발생시키는 문제로 변화했습니다. 데이터 중복으로 인한 문제를 해결하기 위해서는 그것이 어떻게, 왜 발생하는지 이해하는 것부터 시작해야 합니다.
데이터 중복은 사전 계획된 백업과 같이 의도적으로, 또는 비의도적으로 특정 데이터의 동일한 버전을 한 개 또는 그 이상 작성하는 과정입니다. 중복 데이터는 데이터베이스에 저장된 파일, VM 이미지, 블록, 레코드, 또는 다른 데이터 유형으로 존재할 수 있습니다. 원인과 관계없이 데이터 중복은 저장 공간을 낭비하며 데이터 저장소의 규모가 커질수록 그 비용도 증가합니다. 또한 데이터 관리 문제의 원인이 될 수도 있습니다. 예를 들어, 파일의 모든 복사본이 동시에 업데이트되지 않을 경우 데이터 불일치로 인한 분석 오류가 발생할 수 있습니다.
데이터 이중화(data redundancy)는 데이터 중복과 연관된 개념으로서 데이터의 주요 버전에 대한 안전망 역할을 수행하는 복사본을 여럿 작성하는 것입니다. 데이터 중복과 반대되는 개념은 데이터 중복 제거(data deduplication)입니다. 이는 중복 데이터를 제거하여 자원을 확보하고 오래된 복사본을 제거하는 작업입니다.
핵심 요점
중복 데이터가 반드시 나쁜 것만은 아닙니다. 의도적 데이터 중복은 쉽게 액세스할 수 있는 백업, 포괄적인 아카이빙, 더 효과적인 재해 복구 등의 상당한 이점을 제공합니다. 그러나 과도한 비용 없이 이러한 이점을 누리기 위해서는 백업 및 정기적인 중복 제거를 위한 전략이 필요합니다. 그렇지 못한 경우 중복 데이터는 최선의 경우라 해도 불필요한 추가 저장 공간을 차지하게 되고, 최악의 경우에는 사용자들에게 혼란을 주고 데이터 분석 결과를 왜곡할 수도 있습니다.
'데이터 중복'과 '데이터 이중화'라는 용어는 종종 혼용되지만 차이가 있습니다. 모든 중복 데이터가 의도적인 이중화 작업의 결과물인 것은 아닙니다. 때로는 사람이나 기계의 부주의나 실수로 중복 데이터가 생성되기도 합니다. 그러나 엔지니어링 측면에서의 이중화 개념은 문제가 발생할 경우에 대비한 안전망을 생성하는 것입니다. 이는 의도적인 데이터 중복으로 이어집니다. 이중화 자체는 엔지니어링 관행의 핵심 원칙이지만, 지나친 이중화로 인한 문제 발생 가능성도 분명히 존재합니다. 이중화 수준이 지나친 경우 추가적인 중복 데이터 세트를 의도적으로 생성하더라도 소모하는 자원 대비 얻을 수 있는 가치는 제한적입니다.
데이터는 사람 및 자동화된 프로세스에 의해 다양한 방식으로 중복될 수 있습니다. 대부분의 사람들은 문서를 수정하는 과정에서 'salesreport_final.docx', 'salesreport_final_v2.docx'와 같이 파일명이 조금씩 달라지는, 많은 경우 최소한으로만 변경된 여러 버전의 파일을 저장해 본 경험이 있습니다. 일반적으로 이러한 파일들은 보고서의 최종본이 완성된 뒤에도 삭제되지 않습니다. 또는 기업 내에서 파일을 이메일로 여러 직원들에게 전송하고 서로 다른 두 사람이 같은 파일의 동일한 버전을 공유 드라이브의 서로 다른 위치에 저장할 수도 있습니다. 애플리케이션의 *.exe 파일 또는 미디어 파일이 여러 번 다운로드되거나 VM 인스턴스가 다양한 위치에 저장될 수도 있습니다. 데이터베이스 내에서 동일한 데이터가 두 번 입력될 수도 있습니다. 같은 파일을 여러 사람이 임포트하거나 기록을 직접 입력하는 과정에서 고객이나 직원이 같은 정보를 두 번 업로드하는 경우도 있을 수 있습니다. 서로 다른 부서에서 로컬 애플리케이션이나 파일 형식이 호환되는 서로 다른 애플리케이션에 고객 정보와 같은 동일한 기록을 기입하는 과정에서도 유사한 중복이 발생할 수 있습니다. 이는 서로 다른 백업 버전들의 사본이 존재할 수 있음을 의미하며, 각각의 백업 파일 자체도 중복될 수 있습니다.
기업이 데이터 중심적일수록 중복 문제는 더 심각해질 수 있습니다. 빅 데이터는 과도한 스토리지 비용을 초래할 수 있습니다. 자동화 기술도 중복 데이터 생성에 관여합니다. 자동화된 백업 프로세스가 데이터 이중화를 목적으로 중복 파일을 생성할 수 있습니다. 그러나 동일한 파일이 여러 번 백업되면 문제가 발생합니다. 필요 이상의 이중화는 저장 공간을 비효율적으로 사용하도록 만듭니다.
상대적으로 드문 경우지만 예상치 못한 사건으로 데이터 중복이 발생하기도 합니다. 예를 들어 백업 과정 중 정전이나 자연재해가 발생하면 백업이 재설정되어 일부 파일이 이미 기록된 후 백업 프로세스가 다시 시작될 수 있습니다. 하드웨어 장애 역시 유사한 문제를 일으켜 백업 또는 아카이빙 과정에서 계획되지 않은 중복을 야기할 수도 있습니다.
중복 데이터가 반드시 나쁜 것만은 아닙니다. IT팀은 중복 데이터가 의도적으로 생성된 것인지, 중복 데이터를 저장하는 데 얼마나 많은 자원이 소모되고 있는지, 현 상태를 유지하기 위한 비용적 부담은 어느 정도인지 등을 파악해야 합니다. 2세대 아카이브에 완전 복제된 중복 항목에 대한 포인터가 포함된, 의도적으로 생성된 3세대 아카이브는 공유 드라이브에 대용량 파워포인트 파일이 여러 개 저장된 정도의 상황과는 완전히 다릅니다.
가장 일반적인 데이터 중복 유형 및 각 유형이 귀사에 미칠 수 있는 영향은 다음과 같습니다.
중복 데이터는 하드웨어, 대역폭, 유지보수, 데이터 관리 전반에 걸친 추가적인 파급 효과를 일으키고 불필요한 비용을 대량 발생시킵니다. 경우에 따라서는 사소한 문제로 그칠 수도 있지만, 최악의 시나리오가 펼쳐지면 재앙적인 결과를 야기할 수도 있습니다. 데이터 과학 관련 작업에 악영향을 미치는 다음과 같은 요소들을 고려해 보아야 합니다.
저장 공간. 이는 가장 직접적인 데이터 중복 관련 비용입니다. 중복된 사본은 로컬 하드 드라이브, 서버, 클라우드 스토리지의 귀중한 용량을 차지하며 추가적인 비용을 발생시킵니다. 특정 부서가 보관 중인 10테라바이트의 데이터 중에서 10%가 중복된다고 가정해 보겠습니다. 이는 1테라바이트의 저장 공간을 사용할 수 없게 만듭니다. 특히 아카이브 스토리지 대신 클라우드 기반의 주 저장장치에 저장된 경우라면 상당한 비용을 발생시키는 요인이 됩니다.
데이터 중복 제거 도구. 또 다른 직접 비용인 중복 제거 도구는 스토리지 볼륨에서 중복 데이터를 정리하기 위한 도구입니다. 관련 서비스 및 도구 비용은 일반적으로 레코드당 볼륨 기준으로 책정됩니다. 따라서 중복 제거 대상이 많을수록 비용도 증가합니다.
왜곡된 데이터. 중복 레코드는 부정확한 메트릭을 생성하여 데이터 분석 및 시각화 오류를 유발할 수 있습니다. 예를 들어, 동일한 고객의 이름이 약간 다른 형식으로 영업 데이터베이스에 두 번 입력되거나, 두 명의 관리자가 동일한 구매 주문서를 중복 입력하는 경우를 생각해 볼 수 있습니다.
이상 각각의 요소들은 많은 비용이 발생하는 인력에 의한 수작업을 함께 필요로 합니다. 누군가가 반드시 스토리지 볼륨을 유지 관리해야 합니다. 누군가가 중복 제거 시스템을 평가하고 구매하고 운영해야 합니다. 왜곡된 데이터가 생성되면 레코드 제거 및 데이터베이스 정리 작업을 수행해야 합니다. 추가적인 보고서 또는 커뮤니케이션을 통해 잘못된 데이터가 더 넓게 퍼져버린 경우, 그 이후 진행된 모든 작업을 반드시 되짚어보고 잘못된 부분을 취소하고 고쳐야 합니다.
의도치 않게 중복되어 버린 파일 및 데이터베이스 레코드는 그대로 방치될 경우 전사적으로 문제를 퍼뜨릴 수도 있습니다. 데이터 중복으로 인해 발생하는 가장 흔한 문제점들은 다음과 같습니다.
오늘날의 기업들은 공유 드라이브, 사물인터넷(IoT) 기기, 외부 및 파트너사 데이터, 계층형 클라우드 스토리지, 강화된 복제 및 재해 복구 시스템을 비롯한 수많은 데이터 소스로부터 그 어느 때보다도 많은 데이터를 확보하고 있습니다. 이는 데이터 중복 발생 가능성을 높이므로 기업들은 중복 데이터 생성을 최소화하고 확산 시 제거하는 전략을 우선적으로 적용해야 합니다.
데이터 중복 방지를 위한 가장 일반적인 전략은 다음과 같습니다.
갈수록 많은 기업이 데이터 중심 기업으로 변화 중인 지금 중복 데이터 제거의 필요성과 이점도 그만큼 강화되고 있습니다. 데이터 중복성을 최소화하기 위한 조치를 선제적으로 적용하면 스토리지 인프라 최적화, 데이터 관리 효율성 향상, 규제 준수 강화 등의 다른 우선순위에 할당할 수 있는 자금 및 인력 확보 등의 이점을 얻을 수 있습니다.
데이터 중복 제거의 가장 일반적인 이점은 다음과 같습니다.
데이터 중복 문제를 최소화하는 가장 좋은 방법은 처음부터 방지하는 것입니다. Oracle HeatWave는 온라인 트랜잭션 처리, 데이터 웨어하우스 및 데이터 레이크 전반의 실시간 분석, 머신러닝(ML), 생성형 AI를 하나의 클라우드 서비스로 통합했습니다. 고객사는 다음과 같이 다양한 혜택을 누릴 수 있습니다.
종합적으로 데이터 중복 제거는 정보 사일로를 해체하고 데이터 접근성을 향상시키며, 각 팀이 자사의 통합 데이터 인사이트를 활용해 더 나은 의사 결정을 내릴 수 있는 협업 환경을 조성합니다. 마케팅팀은 고객 연락처 정보가 담긴 CRM 시스템을 사용하고 영업팀은 유사한 데이터가 저장된 별도의 리드 관리 시스템을 사용하는 것과 같은 상황을 방지할 수 있습니다. 중복 제거 프로그램은 이러한 정보를 통합하여 양 팀이 통합된 고객 뷰에 액세스하고 마케팅 캠페인 및 영업 활동과 관련해 더 효과적으로 협업할 수 있도록 만들어 줍니다.
AI의 잠재력을 활용할 방법을 찾고 있나요? 그 핵심은 데이터 인프라입니다. Oracle의 포괄적인 가이드북을 통해 CIO들이 데이터와 AI를 활용하여 전략적 의사결정을 주도하고, 운영을 최적화하고, 경쟁 우위를 확보할 수 있는 전략을 확인해 보세요.
데이터 중복의 미래 트렌드는 무엇인가요?
기술적 역량이 발전함에 따라 기업의 IT팀이 중복 데이터 양을 최소화하는 능력도 더욱 강화되고 있습니다. 기술적 발전의 몇 가지 예시는 다음과 같습니다.
데이터 중복은 어떻게 모니터링하나요?
중복 데이터를 모니터링하고 식별하기 위한 다양한 전략이 존재합니다. 데이터 프로파일링, 데이터 매칭, 데이터 카탈로그화 등의 다양한 도구가 사용됩니다. 유입되는 데이터 소스를 위한 데이터 정제 도구는 어느 정도의 식별 기능을 제공할 수 있으며, 전문적인 데이터 중복 제거 도구는 중복 데이터를 발견하고 제거할 수 있습니다.
데이터 중복과 관련된 도전 과제로는 어떤 것들이 있나요?
데이터 중복은 모든 규모의 기업에 중대한 도전 과제를 야기합니다. 가장 큰 문제는 저장 공간의 낭비입니다. 중복 사본은 서버, 하드 드라이브, 클라우드 스토리지의 소중한 용량을 차지하며 비용 증가를 유발합니다. IT 담당자도 중복을 식별하고, 기본 버전을 결정하고, 중복 사본을 삭제하는 시스템 전반에 걸친 중복 데이터 관리에 많은 시간을 쏟아야 합니다. 과도한 데이터 중복은 시스템 속도 저하를 유발하기도 합니다. 서로 다른 저장 위치에 흩어진 중복 파일들은 접근 및 검색에 더 많은 시간이 소요되기 때문입니다.
또한 업데이트가 모든 복사본에 적용되지 않는 데이터 불일치 문제도 발생할 수 있습니다. 이는 부정확한 보고, 오래된 정보에 기반한 노력 낭비, 서로 상충되는 데이터 세트를 사용하는 팀 간 혼란 등으로 이어질 수 있습니다. 중복 데이터는 정확한 데이터 보존 및 삭제 관행을 요구하는 규제 준수를 어렵게 만들고, 보안 관점에서는 데이터가 많을수록 공격 표면도 커집니다.
중복된 데이터를 보유하는 경우의 이점은 없나요?
백업 및 아카이브와 같이 의도적으로 중복 생성된 데이터는 업무 연속성 및 재해 복구와 관련해 상당한 이점을 제공합니다. 중복 데이터를 효과적으로 활용하고자 하는 기업은 중복을 특정 범위 내로 제한하여 과도한 자원 사용 및 기타 문제를 방지하는 전략적 접근 방식을 채택해야 합니다.
