데이터 중복 제거란 무엇인가요? 방법 및 이점

Michael Chen | Content Strategist | 2024년 2월 14일

데이터 중복 제거 프로세스는 데이터 및 파일의 중복 복사본을 체계적으로 제거하므로 스토리지 비용을 절감하고 버전 제어를 향상시킬 수 있습니다. 모든 디바이스가 데이터를 생성하고 전체 조직이 파일을 공유하는 시대에 데이터 중복 제거는 IT 운영의 중요한 부분입니다. 또한 데이터 보호 및 연속성 프로세스의 핵심 부분이기도 합니다. 데이터 중복 제거가 백업에 적용되면 중복된 파일과 블록을 식별하고 제거하여 각각의 고유한 정보 조각의 인스턴스 하나만 저장합니다. 이를 통해 비용을 절감할 수 있을 뿐만 아니라 네트워크를 통해 데이터를 전송할 필요가 줄어들기 때문에 백업 및 복구 시간을 향상시킬 수 있습니다.

데이터 중복 제거란 무엇인가요?

데이터 중복 제거는 데이터베이스 및 데이터 스토리지에서 동일한 파일 또는 블록을 제거하는 프로세스입니다. 이는 파일별, 블록별, 개별 바이트 레벨 또는 알고리즘에 의해 지정된 대로 그 사이의 어딘가에 발생할 수 있습니다. 결과는 종종 "데이터 중복 제거 비율"으로 측정됩니다. 중복 제거 후 조직에서는 사용 가능 공간이 더 많아져야 하지만 일부 작업 및 파일 유형이 다른 작업보다 중복되기 쉽기 때문에 사용 가능 공간은 달라질 수 있습니다. IT 부서는 정기적으로 중복 파일을 확인해야 하지만, 중복 제거의 이점은 매우 다양하며 여러 변수에 따라 달라집니다.

주요 요점

  • 데이터 중복 제거는 중복 데이터를 스캔하고 제거하는 프로세스입니다.
  • 중복 제거 도구는 파일 단위에서 파일 세그먼트 또는 블록 중복 제거에 이르는 다양한 정밀도를 제공합니다.
  • 중복 제거 프로세스의 정확도가 높을수록 필요한 컴퓨팅 성능이 높아집니다.
  • 백업 및 아카이빙의 경우 데이터 전송 전후에 중복 제거가 발생할 수 있습니다. 전자는 더 적은 대역폭을 사용하지만, 후자는 더 많은 대역폭과 더 적은 로컬 리소스를 사용합니다.

데이터 중복 제거 알아보기

데이터 중복 제거 프로세스에서 도구는 스토리지 볼륨에서 중복된 데이터를 검색하고 플래그가 지정된 인스턴스를 제거합니다. 중복을 찾기 위해 시스템은 각 데이터 조각에 연결된 고유 식별자 또는 해시를 비교합니다. 일치 항목이 발견되면 데이터의 복사본이 하나만 저장되고 중복 항목이 원래 복사본에 대한 참조로 바뀝니다.

중복 제거 시스템은 로컬 스토리지, 데이터 카탈로그 등의 관리 도구, 데이터 저장소를 검색하고, 구조적 데이터와 비구조적 데이터를 모두 검색합니다. 관련된 내용을 완전히 이해하기 위한 핵심 용어 및 정의는 다음과 같습니다.

  • 데이터 중복 제거 비율: 중복 제거 프로세스의 성공을 측정하는 데 사용되는 측정 단위입니다. 이 비율은 원래 데이터 저장소의 크기와 중복 제거 후의 크기를 비교합니다. 높은 비율은 유효 프로세스를 나타내지만 중복 제거 빈도, 데이터 유형 및 기타 요소와 같은 변수는 최종 비율을 왜곡할 수 있습니다. 예를 들어 가상화 기술은 쉽게 백업 및 복제할 수 있는 가상 머신을 만들어 여러 데이터 복사본을 제공합니다. 일부 복사본을 보존하는 것은 중복성 및 데이터 손실로부터 복구하는 데 중요합니다.
  • 데이터 보존: 데이터가 저장 영역에 보관되는 기간(일반적으로 정책에 의해 정의됨)입니다. 재무 보고서는 이메일보다 더 오래 보관해야합니다. 일반적으로 보존 기간이 길수록 백업, 전송 또는 가상 시스템 사용을 통해 데이터가 복제될 가능성이 커집니다.
  • 데이터 유형: 스토리지에 보관된 데이터의 형식입니다. 일반적인 데이터 유형은 실행 파일, 문서 및 미디어 파일입니다. 파일의 용도, 중요도, 액세스 빈도 및 기타 요소는 중복 여부와 보존 기간을 정의합니다.
  • 변경률: 파일이 업데이트되거나 변경되는 빈도를 측정하는 측정항목입니다. 변경률이 높은 파일은 자주 복제되지 않는 경우가 많습니다.
  • 위치: 데이터가 저장되는 장소입니다. 중복 파일은 의도적으로 백업과 같이 여러 위치에 존재하는 동일한 파일이나 실수로 복사 및 붙여넣기 작업을 사용한 잘라내기 및 붙여넣기 프로세스를 통해 실수로 나타나는 경우가 많습니다. 여러 위치에 저장된 가상 머신에 중복 파일이 포함되어 있는 경우도 있습니다.

데이터 중복 제거가 유용한 이유

데이터 중복 제거는 스토리지 공간, 컴퓨팅 성능, 비용 등 리소스를 절약하는 데 도움이 됩니다. 가장 기본적인 데이터 중복 제거는 스토리지 볼륨을 축소하는 것입니다. 그러나 모든 장치가 대규모의 데이터를 생성하고 파일이 부서 간에 지속적으로 공유되는 경우 중복 데이터의 영향은 광범위한 결과를 초래합니다. 예를 들어, 여러 팀이 서로 다른 중복 파일을 사용하는 경우 프로세스 속도가 느려지고, 하드웨어 리소스를 소비하고, 중복을 생성하고, 혼동을 일으킬 수 있습니다. 중복 제거는 이러한 모든 문제를 해결할 수 있기 때문에 많은 기업들이 IT 유지 관리 전략의 일환으로 정기적으로 중복 제거를 수행하고 있습니다.

데이터 중복 제거 사용 시기

데이터 중복 제거는 리소스가 많이 사용되는 데이터 관리 프로세스이므로 타이밍은 네트워크 설계 및 직원이 파일에 액세스하는 경우를 포함하여 여러 변수에 따라 달라집니다. 다음은 데이터 중복 제거가 사용되는 가장 일반적인 상황입니다.

범용 파일 서버

범용 파일 서버는 개별 직원의 파일 캐시 및 공유 부서 폴더를 포함하여 다양한 데이터에 대한 저장 영역 및 서비스를 제공합니다. 이러한 유형의 서버는 대개 대량의 사용자와 다양한 사용자 역할을 모두 가지므로 많은 중복 파일이 존재하는 경향이 있습니다. 원인으로는 로컬 하드 드라이브의 백업, 앱 설치, 파일 공유 등이 있습니다.

가상 데스크탑 인프라(VDI) 배포

가상 데스크톱 인프라 기술은 원격 액세스를 위해 가상화된 데스크톱의 중앙 집중식 호스팅 및 관리를 제공합니다. 문제는 가상 하드 드라이브가 종종 동일하며 스토리지를 차지하는 중복 파일이 포함되어 있다는 것입니다. 또한 작업 시작 시와 같이 대량의 사용자가 한 번에 가상 시스템을 부트할 때 계속되는 "VDI 부트 스톰"이 중단되지 않으면 크롤링 성능을 저하시킬 수 있습니다. 중복 제거는 요청 시 개별 응용 프로그램 리소스에 대한 인메모리 캐시를 사용하여 이를 확인하는 데 도움이 될 수 있습니다.

스토리지 시스템 및 백업

백업은 적절한 이유로 중복된 파일 버전을 생성합니다. 그러나 동일한 파일을 영구적으로 복사할 필요는 없습니다. 대신 데이터 중복 제거는 깨끗한 백업 파일을 보장합니다. 최신 백업 버전의 다른 인스턴스는 기본 파일을 가리키기만 합니다. 이를 통해 리소스 및 스토리지 공간을 최적화하는 동시에 중복성을 확보할 수 있습니다.

데이터 이전

중복 제거 도구를 사용하면 보다 효율적인 데이터 전송 프로세스를 수행할 수 있습니다. 데이터 중복 제거 도구는 처음부터 끝까지 덮어쓰는 대신 세그먼트 내의 파일을 식별합니다. 파일 전송 프로세스의 경우 도구에서 업데이트된 세그먼트를 스캔하고 필요한 경우에만 세그먼트를 이동합니다. 예를 들어, 누군가 대용량 파일의 새 버전을 수신하고 있고 새 버전에 업데이트된 코드의 몇 부분만 있는 경우 전송/덮어쓰기 프로세스는 해당 세그먼트에만 작성하여 빠르게 완료할 수 있습니다.

아카이브 시스템

아카이브 시스템은 장기적인 데이터 스토리지에 사용되므로 백업과 혼동되는 경우가 많습니다. 그러나 시스템이 재해 복구 및 준비 목적으로 백업을 생성하는 동안 조직은 아카이브 시스템을 사용하여 더 이상 활성 상태가 아닌 데이터를 보존합니다. 스토리지 볼륨을 결합하거나 새 세그먼트를 아카이브 시스템에 추가할 때 중복이 생성될 수 있습니다. 중복 제거 프로세스는 아카이브의 효율성을 극대화합니다.

데이터 중복 제거의 작동 방식

전체적인 관점에서 보면, 데이터 중복 제거 도구는 파일이나 파일 블록을 비교하여 중복을 식별하는 고유한 지문(해시)을 찾습니다. 중복이 확인되면 기록되고 제거됩니다. 다음은 프로세스의 특정 단계에 대한 자세한 설명입니다.

청킹

청킹은 파일을 세그먼트(청크)로 분할하는 중복 제거 프로세스를 가리킵니다. 이러한 세그먼트의 크기는 알고리즘적으로 계산되거나 설정된 지침을 사용하여 설정할 수 있습니다. 청킹의 이점은 더 많은 컴퓨팅 리소스가 필요하지만 더 정확한 중복 제거가 가능하다는 것입니다.

해싱

중복 제거 도구에서 데이터를 처리하면 해싱 알고리즘이 해시를 지정합니다. 그런 다음 해시가 처리된 데이터의 로그 내에 이미 존재하는지 확인합니다. 이미 있는 경우 데이터가 중복으로 분류되고 삭제되어 저장 공간을 확보합니다.

참조 테이블

중복 제거 프로세스의 결과는 제거되는 세그먼트나 파일 및 중복된 항목을 추적하는 참조 테이블에 저장됩니다. 참조 테이블은 투명성과 추적성을 보장하는 동시에 스토리지 볼륨에서 참조되는 파일의 소스에 대한 포괄적인 아카이브를 제공합니다.

데이터 중복 제거 접근 방식

조직은 예산, 대역폭 및 중복성 요구 사항에 가장 적합한 항목을 기반으로 여러 데이터 중복 제거 접근 방식을 선택할 수 있습니다. 처리 장소, 처리 시기, 처리가 얼마나 정밀한지 모두 조직에 맞는 맞춤형 솔루션을 만드는 데 사용되는 혼합 및 일치 변수입니다.

인라인 또는 사후 프로세스 중복 제거가 귀사의 요구에 가장 적합합니까? 여기 각자의 몇 가지 장단점이 있습니다.

인라인 대 사후 프로세스 중복 제거 다이어그램:

인라인 중복 제거:

  • 스토리지에 쓰기 전에 중복된 데이터를 제거합니다.
  • 데이터가 디스크에 기록되기 전에 데이터 용량 최적화 감소가 발생합니다.
  • 장점:
    • 스토리지 공간 요구량을 줄여 비용을 절감합니다.
    • 데이터 전송 크기를 줄여 성능을 향상시킵니다.
  • 단점:
    • 중복 데이터를 실시간으로 제거하기 위해 더 많은 처리 능력이 필요합니다.
    • 비효율적으로 수행되는 경우 작업이 느려질 수 있습니다.

프로세스 후 중복 제거

  • 데이터가 스토리지에 기록된 후 수행됩니다.
  • 원시 데이터가 디스크에 있는 그대로 처음 기록됩니다.
  • 데이터 용량 최적화 감소는 데이터가 디스크에 기록된 후 발생합니다.
  • 장점:
    • 더 적은 리소스가 필요합니다.
    • 중복 제거는 별도의 일괄 처리 프로세스이므로 성능에 영향을 주지 않습니다.
  • 단점:
    • 중복 데이터는 실시간으로 제거되지 않으므로 불일치가 발생할 수 있습니다.
    • 일괄 처리로 인해 중복 데이터의 식별 및 제거가 지연될 수 있습니다.

중복 제거 방법

  • 블록 레벨 중복 제거: 중복 제거 도구는 블록 지문의 차이에 대해 이러한 세그먼트를 비교하고 중복 항목을 제거하여 블록 레벨에서 작동합니다. 따라서 프로세스가 리소스를 많이 소모하고 대용량 물리 스토리지에 적용하기 어려울 수 있지만 보다 정확한 중복 제거를 수행할 수 있습니다.
  • 가변 길이 중복 제거: 가변 길이 중복 제거는 알고리즘을 사용하여 파일의 데이터 세그먼트 크기를 확인한 다음 중복을 확인합니다. 이 프로세스는 블록 레벨 중복 제거와 유사하지만 개별 블록의 고정된 크기가 없다는 점에서 정확도가 높습니다.
  • 파일 레벨 중복 제거: 블록 레벨에서 중복 제거를 수행하는 대신 파일별로 중복을 감지합니다. 이 방법은 블록 레벨 중복 제거와 동일한 정밀성으로 작동하지 않습니다. 단, 모든 크기의 스토리지에 적용할 수 있는 보다 빠르고 리소스 집약적인 프로세스라는 장점이 있습니다.

중복 제거 지점

  • 소스 중복 제거: 이 방법은 로컬 클라이언트를 중복 제거 위치로 사용합니다. 백업 전에 클라이언트에서 중복 제거를 수행하면 대역폭 및 전송 비용이 절약되지만 클라이언트의 리소스를 모두 사용합니다.
  • 대상 중복 제거: 이 방법은 백업이 전송되어 중복 제거를 수행할 때까지 기다립니다. 이 경우 리소스 사용의 장단점은 소스 중복 제거의 장단점과 반대입니다. 즉, 클라이언트에 대한 부담은 줄어들지만 네트워크 대역폭 및 대상 리소스에 대한 수요는 증가합니다.

중복 제거 시점

  • 인라인 중복 제거: 중복 제거가 인라인으로 수행되면 프로세스가 실행될 때 데이터가 실시간으로 중복됩니다. 이 방법은 상당한 스토리지 공간을 확보하지만 더 많은 로컬 컴퓨트 리소스를 사용합니다.
  • 프로세스 후 중복 제거: 프로세스 후 중복 제거는 데이터가 대상으로 전송된 후 비교 및 제거 프로세스를 실행합니다. 이 방법은 대상 위치에 더 많은 저장 공간이 필요하지만 전송하기 전에 더 적은 로컬 리소스를 사용합니다.

데이터 중복 제거의 이점

문서를 편집하면 반복적인 단어나 문구가 제거되어 콘텐츠를 보다 간결하게 만드는 것과 마찬가지로 중복 제거는 조직의 데이터를 간소화하여 스토리지 비용 절감, 대역폭 소비 감소, 백업 효율성 향상과 같은 잠재적 이점을 제공합니다.

스토리지 절감

파일 수가 적을수록 조직은 스토리지를 덜 사용합니다. 이는 데이터 중복 제거의 가장 명확한 이점 중 하나이며, 다른 시스템으로도 확장됩니다. 기업은 백업에 필요한 공간이 줄어들고 데이터 스캔 및 백업에 필요한 컴퓨팅/대역폭 리소스가 줄어듭니다.

재해 복구

데이터 중복 제거는 백업 실행 부담을 줄여주므로 더 빠르고 쉽게 재해 복구가 가능합니다. 백업이 작을수록 보다 효율적으로 생성되므로 복구 목적으로 백업을 가져오는 데 필요한 리소스가 줄어듭니다.

백업 윈도우 축소

데이터 중복 제거를 사용하면 백업 파일의 용량이 줄어들어 스토리지 공간, 컴퓨팅 및 프로세스 시간 전반에 걸쳐 백업 프로세스 동안 리소스 사용량이 줄어듭니다. 이를 통해 조직은 백업 일정을 유연하게 잡을 수 있습니다.

네트워크 효율성

전송해야 하는 파일이 적을수록 필요한 대역폭이 줄어들어 전송 시 네트워크 리소스가 줄어듭니다. 따라서 데이터 중복 제거는 아카이빙을 위한 백업 전송 및 재해 복구를 위한 백업 리콜을 포함하여 모든 전송 프로세스의 수요를 줄여 네트워크 효율성을 향상시킬 수 있습니다.

경제적 이점

데이터 볼륨의 폭발적인 증가로 인해 모든 규모의 조직에서 스토리지 지출이 급격히 증가했습니다. 중복 제거는 일상적인 작업과 백업 또는 아카이브에 필요한 스토리지 양을 줄여 비용을 절감하는 데 도움이 됩니다. 에너지, 컴퓨팅 및 대역폭 요구가 줄어들고 중복 파일을 관리하고 문제를 해결하는 데 필요한 인적 자원이 줄어들어 보조 비용 절감 효과를 얻을 수 있습니다.

데이터 중복 제거의 단점 및 우려 사항

데이터 중복 제거는 리소스 사용을 극대화하고 비용을 절감하는 효과적인 도구입니다. 그러나 이러한 이점에는 세분화된 중복 제거에 필요한 컴퓨팅 성능과 관련된 몇 가지 문제가 있습니다. 데이터 중복 제거와 관련된 가장 일반적인 단점과 우려 사항은 다음과 같습니다.

성능 오버헤드

데이터 중복 제거는 특히 블록 레벨에서 수행되는 경우 리소스가 많이 사용됩니다. IT 팀은 사용 가능한 대역폭, 조직 활동 및 요구 사항, 백업 위치, 기한 및 고유한 환경에 기반한 기타 요인을 고려하여 중복 제거 프로세스를 스케줄링하고 실행할 때 신중해야 합니다.

해시 충돌

해시 충돌은 임의로 생성된 해시 값이 겹치는 경우 인스턴스를 나타냅니다. 중복 제거 프로세스에서 블록 레벨 접근 방식을 사용하는 경우 해시가 데이터 청크에 지정되므로 데이터가 손상될 수 있는 해시 충돌 가능성이 높아집니다. 해시 충돌 방지에는 해시 테이블의 크기를 늘리거나 체인화 또는 개방형 주소 지정과 같은 충돌 해결 방법을 구현하는 작업이 포함됩니다. 체인화에는 연결된 목록 또는 다른 데이터 구조에 동일한 해시 키를 가진 여러 요소를 저장하는 작업이 포함되며, 열린 주소 지정에는 중복 요소를 저장할 해시 테이블 내에서 대체 위치를 찾는 작업이 포함됩니다. 각 방법은 장점과 단점이 있으므로 IT 팀은 해싱 알고리즘의 길이와 복잡성을 고려하고 임시해결책을 사용해야 합니다.

데이터 무결성

어떤 프로세스도 어리석은 것이 아니며, 중복 제거 프로세스 중에는 실수로 독특하고 중요한 데이터를 삭제하거나 변경할 가능성이 항상 있습니다. 무결성 문제의 원인으로는 해시 충돌, 소스 블록 손상, 디스크 장애, 수동 오류, 정전 등의 예기치 않은 이벤트로 인한 프로세스 중단, 성공적인 사이버 공격, 단순한 운영자 실수 등이 있습니다. 오늘날의 데이터 중복 제거 도구 및 프로토콜의 품질을 고려할 때 무결성 문제는 드물지만 여전히 심각한 문제가 발생할 수 있습니다.

추가된 메타데이터

중복 제거 프로세스는 변경 로그 및 처리된 모든 블록에 연결된 디지털 서명을 위한 새로운 메타데이터 계층을 생성합니다. 이를 "지문 파일"이라고 합니다. 이 메타데이터에는 스토리지 공간이 필요할 뿐만 아니라 자체 데이터 무결성 문제도 발생할 수 있습니다. 예를 들어, 손상되면 복구 프로세스가 훨씬 더 어려워집니다.

구현 비용

데이터 중복 제거는 공간 요구 사항을 줄여 장기적으로 비용을 절감하지만 사전 투자가 필요합니다. 이러한 비용에는 일반적으로 레코드 수에 따라 가격이 책정되는 중복 제거 도구 자체와 중복 제거 프로세스를 설계, 실행 및 관리하는 데 필요한 IT 직원의 시간이 포함됩니다.

데이터 중복 제거 사용 사례

데이터 중복 제거는 실제 환경에서 어떻게 작동합니까? 이론적으로는 단순한 데이터 과학 개념입니다. 중복 데이터를 제거하여 리소스 소비를 줄이고 여러 버전의 파일이 존재하는 경우 발생하는 오류를 최소화합니다. 그러나 여러 분야, 산업 및 부서마다 고유한 목표와 요구 사항이 있습니다. 다음은 몇 가지 일반적인 사용 사례입니다.

고객 관계 관리: CRM 시스템 내에서 고객 기록, 연락처 정보 및 거래는 여러 소스, 세부 수준 및 형식을 사용하여 기록될 수 있습니다. 이로 인해 한 관리자가 다른 관리자와 약간 다른 레코드를 가질 수 있는 일관성 없는 데이터가 생성됩니다. 예를 들어, 연락 담당자의 레코드가 여러 데이터 저장소에 보관되고 회사를 떠난 후 하나만 업데이트되는 경우 일부 사원은 오래된 정보를 계속 사용할 수 있습니다. 데이터 중복 제거는 정확한 고객 정보의 단일 소스를 보장하여 모든 개인 및 그룹이 최신 데이터를 사용하여 시각화를 생성하거나 분석을 실행할 수 있도록 합니다.

데이터 통합: 인수 또는 내부 개편을 통해 두 기업이 합병하는 경우, 동일한 애플리케이션의 서로 다른 인스턴스에 포함된 데이터로 인해 중복 레코드가 생성될 수 있습니다. 대기업이 고객 중 40%가 중복되는 소규모 경쟁업체를 인수한다고 가정하면, 이는 ERP 시스템에 반영됩니다. 중복 제거를 수행하면 이러한 중복성을 제거하여 스토리지 공간을 확보하는 동시에 새로 구성된 조직 내의 모든 사용자가 각 레코드의 최신 버전만 사용하도록 보장할 수 있습니다.

가상 컴퓨팅: 테스트 환경이나 특수 애플리케이션 또는 내부 시스템에 대한 가상 액세스와 같은 가상 데스크탑을 사용하는 경우, 특히 사용자 볼륨이 많은 경우 데이터 중복 제거는 효율성을 높일 수 있습니다. 가상 머신은 종종 매우 유사한 데이터를 포함하므로 많은 중복 버전의 파일이 생성됩니다. 데이터 중복 제거는 이러한 중복을 제거하여 스토리지가 가상 머신에서 생성된 데이터로 오버런되지 않도록 합니다.

은행 거래: 금융 기관 내에서 여러 부서 또는 지점이 고객 정보의 중복 레코드를 보유할 수 있습니다. 모든 중복 기록은 범죄자가 신원을 훔치고, 사기 거래를 하고, 기타 불법적인 활동을 수행할 수 있는 잠재적 진입점입니다. 또한 중복 데이터를 검사하고 처리하여 사기를 확인하려면 더 많은 리소스가 필요합니다. 데이터 중복 제거는 은행 및 신용 조합의 효율성과 보안을 개선하는 데 도움이 될 수 있습니다.

이것은 단지 사용 사례의 일부일 뿐입니다. 많은 데이터를 생성하는 모든 조직은 데이터 중복 제거를 통해 이점을 얻을 수 있습니다.

중복 제거 기술을 선택할 때 고려해야 할 사항

많은 제공업체가 데이터 중복 제거 도구를 제공하지만 귀사에 적합한 것은 무엇입니까? 다음은 팀이 관련 목록을 만들 때 고려해야 할 주요 요소입니다.

  • 성능: 중복 제거 유형마다 다른 리소스가 필요합니다. 예를 들어, 대규모 네트워크의 소스에서 실행되는 블록 레벨 중복 제거는 더 제한된 범위의 대상에서 실행되는 파일 레벨 중복 제거와 비교하여 상당한 리소스를 소모합니다.
  • 확장성: 성능을 저하시키는 프로세스는 확장하기 어렵기 때문에 확장성과 성능은 종종 밀접하게 연관되어 있습니다. 이는 중복 제거에도 적용됩니다. 리소스 사용량이 많을수록 필요에 따라 확장하기가 더 어려워집니다. 광범위한 확장성 요구 사항이 있는 조직은 중복 제거 기술을 선택할 때 이러한 장단점을 고려해야 합니다.
  • 통합: 단절된 데이터 소스는 중복 제거 프로세스를 복잡하게 만들 수 있습니다. 예를 들어 데이터베이스가 사일로에 존재하는 경우 중복 데이터의 가능성이 훨씬 높습니다. 다른 경우에는 원격 위치가 여러 개인 대형 네트워크에서 중복 제거 전에 보다 엄격한 정리 및 변환 프로토콜이 필요할 수 있습니다. 조직은 데이터 중복 제거 구현 방법을 고려할 때 데이터 통합 상태를 평가해야 합니다.
  • 비용: 중복 제거 도구는 복잡성 및 성능과 같은 요인에 따라 비용이 달라집니다. 처리된 레코드 양에 따라 가격이 증가합니다. 조직은 업계 표준 및 견적 요율을 기반으로 예산 추정을 생성한 다음 장기 절감으로 상계 방법을 평가해야 합니다.

Oracle HeatWave로 데이터 중복 제거의 필요성 제거하기

데이터 중복 제거 문제를 해결하는 가장 좋은 방법은 데이터 중복 제거를 최소화하는 것입니다. Oracle HeatWave는 하나의 클라우드 서비스에서 트랜잭션, 데이터 웨어하우스 및 데이터 레이크 전반의 실시간 분석, 머신러닝 및 생성형 AI를 결합하는 방식으로 이를 지원합니다. HeatWave 고객은 분석을 위해 트랜잭션 데이터베이스에서 별도의 분석 데이터베이스로 데이터를 복제할 필요가 없으므로 여러 가지 이점을 누릴 수 있습니다.

  • 다양한 목적을 위해 동일한 데이터를 여러 데이터 저장소에 저장할 필요가 없습니다.
  • 데이터 저장소 간에 데이터를 이동하기 위해 복잡하고, 시간이 많이 걸리고, 비용이 많이 들고, 오류가 발생하기 쉬운 추출, 변환 및 로드 프로세스가 필요하지 않습니다.
  • 애널리틱스 쿼리는 항상 최신 데이터에 액세스하므로 별도의 애널리틱스 데이터베이스에서 사용할 수 있는 시간에 구식일 수 있는 데이터를 분석하는 것보다 더 나은 결과를 얻을 수 있습니다.
  • 데이터가 데이터베이스 간에 전송되지 않으므로 전송 중 데이터가 손상될 위험이 거의 없습니다.
  • HeatWave Lakehouse를 통해 사용자는 객체 저장소에서 최대 0.5페타바이트의 데이터를 쿼리할 수 있으며, 선택적으로 이를 MySQL 데이터베이스의 데이터와 결합할 수 있습니다. 고객은 MySQL 데이터베이스의 트랜잭션 데이터, 형식이 다양한 객체 스토리지의 데이터 또는 표준 MySQL 명령의 조합을 쿼리할 수 있으며, 객체 스토리지에서 MySQL Database로 데이터를 복사하지 않아도 됩니다.

고객은 내장된 HeatWave AutoML을 사용해 별도의 머신러닝 서비스로 데이터를 복제하지 않고도 HeatWave 내에서 머신러닝 모델을 구축, 교육, 설명할 수 있습니다.

HeatWave GenAI는 인 데이터베이스 대규모 언어 모델(LLM), 자동화된 데이터베이스내 벡터 저장소, 확장형 벡터 처리, 문맥에 부합하는 자연어 대화 기능을 갖춘 통합 및 자동화된 생성형 AI를 제공합니다. 이를 통해 고객은 별도의 벡터 데이터베이스로 데이터를 이동하거나 AI 전문 지식을 갖추지 않고도 생성형 AI를 활용할 수 있습니다.

트랜잭션, 분석, 머신러닝, 생성형 AI를 위한 여러 클라우드 서비스에서 데이터 중복을 제거함으로써 고객은 데이터 인프라를 간소화하고, 더 많은 정보에 기반한 신속한 의사 결정을 내리고, 생산성을 높이고, 보안을 개선하고, 비용을 절감할 수 있습니다. 또한 고객은 공개적으로 사용 가능한 벤치마크를 통해 입증된 바와 같이 분석 워크로드를 위한 최고의 성능과 가성비를 누릴 수 있습니다.

AI는 CIO가 데이터를 분석하여 클라우드 지출을 최적화하는 데 도움을 주고, 송신을 최소화할 수 있는 코드 조정을 설계자에게 제안할 수 있습니다. 인공 지능의 힘을 활용하여 인재, 보안 및 기타 과제를 해결하는 방법을 알아보세요.

데이터 중복 제거 FAQ

데이터 중복 제거의 예시는 무엇인가요?

데이터 중복 제거의 예로는 조직 데이터의 버전 기반 백업 및 아카이브를 실행하는 경우가 있습니다. 이러한 각 아카이브에는 동일한 미작동 파일의 여러 인스턴스가 포함됩니다. 중복 제거 기능을 사용하면 중복된 파일 없이 새 버전의 아카이브를 생성하여 백업 프로세스를 간소화할 수 있습니다. 대신 새 버전에는 단일 소스에 대한 포인터가 포함되어 있으므로 추가 스토리지 공간을 사용하지 않고도 아카이브 내에 존재할 수 있습니다.

중복 제거를 수행하는 이유는 무엇입니까?

중복 레코드는 저장 공간을 불필요하게 소모합니다. 이러한 추가 스토리지 공간은 맬웨어 스캔과 같은 프로세스 중에 스토리지 볼륨, 전송 대역폭 및 컴퓨팅 리소스를 포함하여 더 많은 리소스를 소비하게 됩니다. 중복 제거는 사용된 스토리지 공간의 양을 줄여 전체 리소스 사용량을 대역폭 또는 스토리지 용량으로 줄입니다.

데이터 중복이란 무엇입니까?

데이터 복제 또는 데이터 중복성을 통해 데이터 중복이 발생할 수 있습니다. 데이터 복제는 사용자가 시스템 자체에 중복 파일을 추가하는 상황을 나타냅니다. 데이터 중복성은 일부 겹치는 파일 또는 레코드가 존재하는 복수의 데이터베이스가 병합되어 중복을 생성하는 경우를 나타냅니다.

중복 제거의 단점은 무엇입니까?

중복 제거를 통해 스토리지 공간을 확보하여 장기적인 효율성과 비용 절감 효과를 높일 수 있습니다. 그러나 실제 중복 제거 프로세스는 리소스가 많이 필요하며 컴퓨팅 성능 및 전송 대역폭을 포함하여 네트워크의 여러 부분이 느려질 수 있습니다. 즉, IT 부서는 중복 제거 일정을 계획하는 것에 대해 전략적으로 생각해야 합니다.