Scalable AI is the ability to use machine learning (ML) algorithms or generative AI services to accomplish day-to-day tasks at a pace that keeps up with business demand. It requires that algorithms and generative models have the infrastructure and data volumes they need to operate at the speed and scale required. Beyond that, scalable AI requires data from many parts of the business that’s integrated and complete enough to provide algorithms with the information needed to derive desired results.

What is data deduplication?

Data deduplication is the process of removing identical files or blocks from databases and data storage. This can occur on a file-by-file, block-by-block, or individual byte level or somewhere in between as dictated by an algorithm. Results are often measured by what’s called a “data deduplication ratio.” After deduplication, organizations should have more free space, though just how much varies because some activities and file types are more prone to duplication than others. While IT departments should regularly check for duplicates, the benefits of frequent deduplication also vary widely and depend on several variables.

Why is data deduplication useful?

Data deduplication can help save resources—storage space, compute power, and money. At its most basic, deduplication is about shrinking storage volumes. But when every device produces massive amounts of data and files are constantly shared among departments, the impact of duplicate data has far-reaching consequences; for example, it can slow processes, consume hardware resources, create redundancies, and add confusion when different teams use different redundant files. Deduplication can help take care of all this, which is why many organizations keep it on a regularly scheduled cadence as part of their IT maintenance strategies.

What is an example of deduplication?

An example of deduplication can come from running version-based backups and archives of an organization’s data. Each of these archives will contain many instances of the same untouched files. With deduplication, the backup process is streamlined by creating a new version of an archive without those duplicative files. Instead, the new version contains pointers to the single source, allowing it to exist within the archive without using up additional storage space.

What is the reason for deduplication?

Duplicate records needlessly eat up storage space. That additional storage space winds up taking more resources, including storage volume, transfer bandwidth, and compute resources, during processes such as malware scans. Deduplication reduces the volume of storage space used, shrinking overall resource use, be it bandwidth or storage capacity.

What is data duplicity?

Duplicates can emerge through both data duplicity and data redundancy. Data duplicity refers to situations when a user adds a duplicate file to the system themselves. Data redundancy refers to situations when databases with some overlapping files or records merge to create duplicates.

What are the disadvantages of deduplication?

Deduplication can free up storage space for greater long-term efficiency and cost savings. However, the actual process of deduplication is resource intensive and can slow down various parts of the network, including compute performance and transfer bandwidth. This means IT departments must think strategically about scheduling deduplication.

콘텐츠로 바로 가기
접근성 정책

메뉴

국가

데이터 중복 제거란 무엇인가요? 방법 및 이점 알아보기

Michael Chen | Content Strategist | 2024년 2월 14일

데이터 중복 제거란 무엇인가요?
데이터 중복 제거 알아보기
데이터 중복 제거가 유용한 이유는 무엇인가요?
데이터 중복 제거의 사용 시기
데이터 중복 제거의 작동 방식
데이터 중복 제거 접근 방식
데이터 중복 제거의 이점
데이터 중복 제거의 단점 및 우려 사항
데이터 중복 제거 사용 사례
중복 제거 기술을 선택할 때 고려해야 할 사항
데이터 중복 제거 FAQ

데이터 중복 제거 프로세스는 데이터와 파일의 중복된 사본을 체계적으로 제거해 스토리지 비용 절감과 버전 관리 개선에 기여합니다. 모든 기기가 데이터를 생성하고 기업이 전사적으로 파일을 공유하는 오늘날, 데이터 중복 제거는 IT 운영의 핵심 요소가 되었습니다. 데이터 보호 및 연속성 프로세스의 핵심이기도 합니다. 백업에 데이터 중복 제거를 적용하면 중복되는 파일과 블록을 식별 및 제거하고 각 고유 정보의 인스턴스를 단 하나씩만 저장합니다. 결과적으로 비용이 절감될 뿐만 아니라, 네트워크로 전송할 데이터가 적어지므로 백업 및 복구 시간도 개선됩니다.

데이터 중복 제거란 무엇인가요?

데이터 중복 제거는 데이터베이스와 스토리지에서 동일한 파일이나 블록을 제거하는 프로세스입니다. 알고리즘에 따라 파일 단위, 블록 단위, 바이트 단위 또는 그 중간에 위치한 특정 단위로 수행될 수 있습니다. 그 결과는 흔히 '데이터 중복 제거 비율(data deduplication ratio)'로 측정됩니다. 중복 제거 후에는 여유 공간이 늘어나지만, 활동 및 파일 유형에 따라 중복 발생량이 달라지므로 확보 가능한 공간의 폭은 다양합니다. IT 부서는 정기적으로 중복 데이터를 확인해야 하지만, 중복 제거를 자주 수행하는 경우의 이점은 여러 변수에 따라 크게 달라집니다.

핵심 요점

데이터 중복 제거는 중복 데이터를 스캔해 제거하는 프로세스입니다.
중복 제거 도구는 파일 단위부터 파일 세그먼트, 블록 단위까지 다양한 정밀도를 제공합니다.
중복 제거 프로세스의 정확도가 높을수록 필요한 컴퓨팅 성능도 높아집니다.
백업 및 아카이빙 관련 중복 제거는 데이터 전송 전 또는 후에 수행할 수 있습니다. 전자는 대역폭을 덜 사용하고, 후자는 대역폭을 더 쓰는 대신 로컬 자원 소모가 적습니다.

데이터 중복 제거 알아보기

데이터 중복 제거 프로세스에 사용되는 도구는 스토리지 볼륨을 스캔해 중복 데이터를 찾고 표시된 항목을 제거합니다. 중복을 찾기 위해 시스템은 각 데이터에 부착된 고유 식별자, 즉 해시를 비교합니다. 일치 항목을 발견하면 하나의 사본만 저장하고, 중복 데이터는 원본에 대한 참조로 대체합니다.

중복 제거 시스템은 로컬 스토리지, 데이터 카탈로그와 같은 관리 도구, 데이터 저장소 등에 저장된 정형 및 비정형 데이터를 모두 검색합니다. 관련 내용을 충분히 이해하려면 다음과 같은 용어와 정의를 알아 두어야 합니다.

데이터 중복 제거 비율: 중복 제거 프로세스의 성공을 측정하는 데 사용되는 메트릭입니다. 이 비율은 원본 데이터 저장소의 크기와 중복 제거 이후의 크기를 비교합니다. 비율이 높을수록 제거 작업이 효과적이었음을 시사하지만, 중복 제거 빈도, 데이터 유형 등의 변수에 따라 최종 비율이 왜곡될 수 있습니다. 예를 들어 가상화 기술은 쉽게 백업 및 복제할 수 있는 가상 머신을 만들어 여러 데이터 사본을 제공합니다. 일부 사본을 유지하는 것은 중복성 확보와 데이터 손실 복구를 위한 핵심 요소입니다.
데이터 보존: 데이터가 저장 영역에 보관되는 기간으로서 관련 정책에 의해 정의되는 것이 일반적입니다. 예를 들어 재무 보고서는 이메일보다 더 오래 보관해야 합니다. 일반적으로 보존 기간이 길수록 백업, 전송, 가상 머신 사용 중 데이터가 중복될 가능성이 커집니다.
데이터 유형: 스토리지에 보관된 데이터의 형식입니다. 일반적인 데이터 유형으로는 실행 파일, 문서, 미디어 파일 등이 있습니다. 파일의 목적, 중요도, 접근 빈도 등의 요인이 중복 여부와 보존 기간을 결정합니다.
변경률: 파일이 업데이트되거나 변경되는 빈도를 측정하는 메트릭입니다. 변경률이 높은 파일은 중복 빈도가 낮은 편입니다.
위치: 데이터가 저장되는 장소입니다. 중복 파일은 의도적으로(예 : 백업), 또는 의도치 않게(예 : 실수로 수행한 복사-붙여넣기) 같은 파일이 여러 위치에 존재하게 되는 경우 자주 발생합니다. 여러 위치에 저장된 가상 머신들에 중복 파일이 포함되어 있는 경우도 있습니다.

데이터 중복 제거가 유용한 이유는 무엇인가요?

데이터 중복 제거는 스토리지 공간, 연산력, 비용 등의 리소스 절약에 기여합니다. 데이터 중복 제거의 본질적인 목적은 저장 용량을 줄이는 것입니다. 그러나 모든 기기에서 막대한 데이터를 생성하고 부서 간 파일 공유가 지속적으로 이루어지는 오늘날 중복 데이터의 영향은 광범위합니다. 프로세스 속도를 느리게 만들고, 하드웨어 리소스를 소모하고, 중복 파일을 생성하고, 팀마다 다른 중복 파일을 사용함으로 인한 혼란을 야기합니다. 중복 제거는 이같은 문제들을 완화하는 데 도움을 주므로 많은 기업에서 IT 유지보수 전략의 일환으로 중복 제거를 정기적으로 수행하고 있습니다.

데이터 중복 제거의 사용 시기

데이터 중복 제거는 많은 리소스를 소모하는 데이터 관리 프로세스이므로 네트워크 설계, 직원의 파일 액세스 시간 등의 여러 변수에 따라 중복 제거 시점을 정해야 합니다. 데이터 중복 제거를 수행하는 일반적인 상황은 다음과 같습니다.

범용 파일 서버

범용 파일 서버는 개인 파일 캐시, 부서 단위 공유 폴더 등의 다양한 데이터를 위한 저장소와 서비스를 제공합니다. 이러한 유형의 서버는 대개 사용자가 많고 사용자 역할도 다양하므로 많은 중복 파일이 존재하는 경향이 있습니다. 구체적인 원인으로는 로컬 디스크 백업, 애플리케이션 설치, 파일 공유 등이 있습니다.

가상 데스크톱 인프라(VDI) 배포

가상 데스크톱 인프라 기술은 원격 접속을 위한 중앙화된 가상 데스크톱 호스팅 및 관리를 지원합니다. 문제는 종종 동일한 가상 하드 드라이브들이 생성되고, 해당 드라이브들에는 스토리지를 차지하는 중복 파일이 포함되어 있다는 것입니다. 또한 근무 시작 시점처럼 많은 사용자가 동시에 VM을 부팅하면 이른바 'VDI 부트 스톰'이 발생해 성능이 크게 저하될 수 있습니다. 중복 제거를 통해 개별 애플리케이션 리소스를 호출 시점에 인메모리 캐시로 제공함으로써 이를 완화할 수 있습니다.

스토리지 시스템 및 백업

백업은 대상 파일과 중복되는 파일을 여러 버전으로 생성합니다. 그러나 매 버전마다 같은 파일을 반복적으로 복사할 필요는 없습니다. 대신 중복 제거는 기반이 되는 하나의 파일만을 깨끗하게 보존하고, 새로운 백업의 다른 인스턴스들은 파일의 변경이 없는 경우 보존된 파일을 참조하도록 합니다. 이를 통해 리소스 및 스토리지 공간을 최적화하는 방식으로 중복성을 확보할 수 있습니다.

데이터 전송

중복 제거 도구를 사용하면 보다 효율적인 데이터 전송 프로세스를 수행할 수 있습니다. 중복 제거 도구는 파일을 처음부터 끝까지 덮어쓰는 대신 세그먼트 단위로 식별합니다. 파일 전송 프로세스에 사용되면 업데이트된 세그먼트를 스캔하고 필요한 경우에만 세그먼트를 이동합니다. 예를 들어 대용량 파일의 새로운 버전 중에서 일부 세그먼트만 변경됐다면, 해당 부분만 덮어써 전송을 빠르게 끝낼 수 있습니다.

아카이브 시스템

아카이브 시스템은 장기 저장이라는 공통점 때문에 백업과 혼동되곤 합니다. 그러나 백업은 재해 복구와 대비를 위한 것이고, 아카이브는 더 이상 활발히 사용하지 않는 데이터를 보존하기 위한 것입니다. 스토리지 볼륨을 병합하거나 아카이브에 새 세그먼트를 추가할 때 중복 데이터가 생길 수 있습니다. 중복 제거 프로세스는 아카이브의 효율성을 극대화합니다.

데이터 중복 제거의 작동 방식

큰 틀에서 보면 중복 제거 도구는 해시라 불리는 파일의 지문을 비교해 파일 또는 파일 블록의 중복을 식별합니다. 중복이 확인되면 기록하고 제거합니다. 중복 제거 프로세스의 각 단계에 대한 자세한 설명은 다음과 같습니다.

청킹

청킹(chunking)은 파일을 '청크'라고도 불리는 세그먼트로 분할하는 중복 제거 과정입니다. 세그먼트의 크기는 알고리즘으로 계산하거나 관련 지침을 바탕으로 설정할 수 있습니다. 청킹의 장점은 중복 제거의 정밀도가 향상된다는 점이고, 단점은 추가적인 연산 자원이 필요하다는 점임니다.

해싱

중복 제거 도구에서 데이터를 처리할 때, 해싱(hashing) 알고리즘이 데이터에 해시를 부여합니다. 이어서 부여한 해시가 이미 처리된 데이터 로그에 존재하는지 확인합니다. 이미 존재하면 중복으로 분류해 삭제함으로써 저장 공간을 확보합니다.

참조 테이블

중복 제거 프로세스의 결과는 어떤 세그먼트 또는 파일이 제거되었고 무엇이 중복되었는지 추적하기 위한 참조 테이블에 저장됩니다. 참조 테이블은 투명성과 추적성을 보장하고, 스토리지 볼륨 전반에서 특정 파일의 생성 과정에서 참조한 소스에 대한 종합 아카이브를 제공합니다.

데이터 중복 제거 접근 방식

기업은 자사의 예산, 대역폭, 중복성 요구 사항에 가장 적합한 중복 제거 방식을 선택할 수 있습니다. 어디서, 언제, 얼마나 세밀하게 처리할지 등의 변수를 조합해 기업 맞춤형 솔루션을 구성할 수 있습니다.

귀사에는 인라인 또는 사후 처리 중 어떤 중복 제거 방식이 더 적합할까요? 각 방식의 장단점은 다음과 같습니다.

중복 제거 방법

블록 단위 중복 제거: 중복 제거 도구는 블록 단위로 작업하며 블록 지문을 비교해 차이를 식별하고 중복을 제거합니다. 이 방법을 사용하면 더 정밀한 중복 제거가 가능하지만, 리소스 소모가 크고 대규모 물리 스토리지에는 적용이 어려울 수 있습니다.
가변 길이 중복 제거: 가변 길이 중복 제거는 알고리즘을 사용하여 각 파일의 데이터 세그먼트 크기를 확인한 뒤 중복을 확인합니다. 블록 레벨 중복 제거와 정확도가 유사하지만 개별 블록의 크기가 고정되어 있지 않습니다.
파일 단위 중복 제거: 중복 제거 도구가 블록 단위로 중복 제거를 수행하는 대신 파일 단위로 중복을 감지합니다. 블록 단위만큼 세밀하지는 않지만, 더 빠르고 리소스 소모가 적으며 어떤 규모의 스토리지에도 적용할 수 있습니다.

중복 제거 지점

소스 측 중복 제거: 로컬 클라이언트에서 중복 제거를 수행합니다. 백업 전에 클라이언트에서 중복 제거를 수행하면 대역폭 및 전송 비용이 절약되지만 클라이언트의 리소스 사용량이 늘어납니다.
타깃 측 중복 제거: 백업 전송 후에 중복 제거를 수행합니다. 소스 측과 반대로 클라이언트의 부담은 줄지만, 네트워크 대역폭과 타깃 리소스 부담은 커집니다.

중복 제거 시점

인라인 중복 제거: 프로세스 실행 동안 실시간으로 중복을 스캔합니다. 로컬 컴퓨팅 자원을 더 사용하지만, 대량의 스토리지 공간을 확보할 수 있습니다.
사후 처리 중복 제거: 데이터를 타깃으로 전송 후 비교하고 중복 데이터를 제거합니다. 타깃 위치의 저장 공간이 더 많이 필요하지만, 전송 전 로컬 리소스 사용량은 더 적습니다.

데이터 중복 제거의 이점

문서를 편집해 중복된 단어 또는 표현을 줄여 간결하게 만드는 것처럼, 중복 제거는 기업의 데이터를 정리해 스토리지 비용 절감, 대역폭 사용 감소, 백업 효율 증가 등의 다양한 이점을 제공합니다.

스토리지 절감

파일 수가 줄면 스토리지 사용량도 줄어듭니다. 이는 데이터 중복 제거의 가장 명확한 이점 중 하나로서 다른 시스템까지 확장됩니다. 기업에 필요한 백업 공간의 크기가 줄어들고, 데이터 스캔 및 백업에 필요한 컴퓨팅/대역폭 리소스도 줄어듭니다.

재해 복구

데이터 중복 제거는 백업 관련 부담을 줄여 더 빠르고 쉬운 재해 복구를 가능케 합니다. 백업의 크기가 작아질수록 더 효율적으로 생성되고 복구 시 필요한 리소스도 줄어듭니다.

백업 기간 단축

데이터 중복 제거를 사용하면 백업 파일의 용량이 줄어들어 백업 프로세스 동안 스토리지 공간, 컴퓨팅, 프로세스 시간 등의 리소스 사용이 줄어듭니다. 따라서 기업은 백업 일정을 더 유연하게 설정할 수 있습니다.

네트워크 효율성

전송해야 할 파일이 적을수록 필요한 대역폭이 줄어들고 네트워크 리소스 사용이 감소합니다. 중복 제거는 아카이빙을 위한 백업 전송, 재해 복구를 위한 백업 호출 등 모든 전송 프로세스의 수요를 줄여 네트워크 효율을 높입니다.

경제적 이점

데이터 볼륨의 폭발적인 증가로 인해 모든 규모의 기업의 스토리지 지출도 급격히 증가했습니다. 중복 제거는 일상 업무와 백업/아카이브에 필요한 스토리지 양을 줄여 비용 절감에 기여합니다. 또한 에너지, 컴퓨팅, 대역폭 수요가 감소하고 중복 파일을 관리하고 문제를 해결하는 데 필요한 인적 자원이 줄어들어 보조적인 비용 절감 효과도 얻을 수 있습니다.

데이터 중복 제거의 단점 및 우려 사항

데이터 중복 제거는 리소스 사용 효율을 극대화하고 비용을 절감하는 효과적인 도구입니다. 그러나 이러한 이점에는 몇 가지 도전 과제가 뒤따르며, 개중 상당수는 세밀한 중복 제거에 필요한 연산 성능과 관련이 있습니다. 데이터 중복 제거와 관련된 가장 일반적인 단점과 우려 사항은 다음과 같습니다.

성능 오버헤드

데이터 중복 제거는 리소스를 많이 소모하며, 특히 블록 수준에서 수행할 때 그러합니다. IT 팀은 사용 가능한 대역폭, 기업의 활동 및 요구 사항, 백업 위치, 기한 및 기업의 고유한 환경에 기반한 다른 요인들을 고려하여 중복 제거 프로세스의 스케줄링과 실행을 신중히 수행해야 합니다.

해시 충돌

해시 충돌은 무작위로 생성된 해시 값이 우연히 겹치는 경우입니다. 중복 제거 프로세스에서 블록 단위 접근 방식을 사용하는 경우 데이터 청크 단위로 해시가 지정되므로 데이터 손상을 초래할 수 있는 해시 충돌 가능성이 높아집니다. 해시 충돌을 방지하려면 해시 테이블 크기를 키우거나, 체이닝(chaining) 또는 오픈 어드레싱(open addressing) 등의 충돌 해결 방법을 구현해야 합니다. 체이닝은 같은 해시 키를 가진 여러 요소를 연결된 목록 또는 다른 데이터 구조에 저장하는 방식이고, 오픈 어드레싱은 해시 테이블 내부의 다른 위치를 찾아 중복 요소를 저장하는 방식입니다. 각 방식에는 장단점이 있으므로, IT 팀은 해싱 알고리즘의 길이 및 복잡도와 해결 방법 사용 사이의 균형을 고려해야 합니다.

데이터 무결성

완벽한 프로세스란 존재할 수 없으며, 중복 제거 과정에서 고유하고 중요한 데이터를 실수로 삭제하거나 변경할 가능성은 항상 존재합니다. 무결성 문제를 야기하는 원인으로는 해시 충돌, 손상된 소스 블록, 예기치 않은 사건으로 인한 프로세스 중단(예 : 디스크 장애, 수작업 오류, 정전), 사이버 공격, 운영자의 단순 실수 등이 있습니다. 오늘날의 중복 제거 도구와 프로토콜의 높아진 품질을 고려해볼 때 데이터 무결성 문제가 실제로 발생할 가능성은 낮지만, 가능성 자체는 여전히 존재하며 발생 시 심각한 문제를 야기할 수 있습니다.

메타데이터 증가

중복 제거 프로세스는 변경 로그 및 처리된 모든 블록에 추가되는 디지털 서명을 위한 새로운 메타데이터 계층을 생성합니다. 이는 '지문 파일(fingerprint file)'이라고 합니다. 이러한 메타데이터는 저장 공간을 필요로 할 뿐 아니라, 자체적인 데이터 무결성 문제를 야기할 수도 있습니다. 예를 들어 메타데이터가 손상되면 복구 과정이 훨씬 어려워집니다.

구현 비용

데이터 중복 제거는 저장 공간 요구 사항을 줄여 장기적으로는 비용을 절감하지만 사전 투자가 필요합니다. 일반적인 관련 비용으로는 레코드 수에 따라 사용료가 매겨지는 중복 제거 도구 그 자체, 그리고 중복 제거 프로세스를 설계, 실행, 관리하는 데 필요한 IT 인력의 업무 시간 등이 있습니다.

데이터 중복 제거 사용 사례

실사용 환경에서 데이터 중복 제거는 어떻게 이루어질까요? 이론적인 중복 제거는 단순한 데이터 과학 개념입니다. 중복 데이터를 제거해 리소스 소모를 줄이고, 특정 파일의 여러 버전이 동시에 존재할 경우 발생하는 오류를 최소화하는 것입니다. 하지만 섹터, 산업, 나아가 부서마다 그와 관련된 고유한 목표와 요구 사항이 있습니다. 일반적인 사용 사례는 다음과 같습니다.

고객 관계 관리: CRM 시스템에는 고객 레코드, 연락처 정보, 거래 내역 등이 서로 다른 소스, 상세도, 형식 등을 사용해 기록될 수 있습니다. 이는 데이터 불일치로 이어집니다. 예를 들어 고객 연락처 파일이 여러 저장소에 저장되어 있고 개중 하나만 지속적으로 업데이트되었다면, 해당 연락처의 담당자가 퇴사할 경우 일부 직원은 오래된 연락처 정보를 계속 사용하게 될 수 있습니다. 데이터 중복 제거는 정확한 고객 정보의 단일 소스를 보장하고, 직원 및 기업 모두 최신 데이터를 사용해 시각화 를 생성하거나 분석 을 수행하도록 돕습니다.

데이터 통합: 인수합병이나 내부 재편으로 조직들이 합쳐지는 과정에서 동일한 애플리케이션의 서로 다른 인스턴스에 저장된 데이터가 중복 레코드를 생성할 수 있습니다. 어느 대기업이 고객의 40%가 겹치는 소규모 경쟁사를 인수했고, 겹치는 고객 정보가 ERP 시스템에 반영되어 있다고 가정해 보겠습니다. 중복 제거는 이러한 중복을 없애 저장 공간을 확보하고, 새롭게 합쳐진 조직의 누구나 각 레코드의 최신 버전만 사용할 수 있도록 보장해 줍니다.

가상 컴퓨팅: 테스트 환경이나 특수 애플리케이션, 내부 시스템에 대한 가상 접속 등을 위해 가상 데스크톱을 사용할 경우 데이터 중복 제거를 통해 효율성을 높일 수 있습니다. 특히 사용자 수가 많을수록 그 효과가 두드러집니다. 가상 머신에는 매우 유사한 데이터가 많이 포함되어 있으므로 중복 파일 버전이 다수 발생합니다. 데이터 중복 제거는 이러한 중복을 제거해 가상 머신이 생성한 데이터가 스토리지를 잠식하지 않도록 돕습니다.

은행업: 금융 기관의 서로 다른 부서 또는 지점이 중복되는 고객 정보 레코드를 보유할 수 있습니다. 모든 중복 레코드는 범죄자의 신원 도용, 사기 거래, 기타 불법 활동의 잠재적 진입점이 될 가능성이 있습니다. 또한 사기적 활동을 확인하기 위해 중복 데이터를 조사, 처리하는 데는 더 많은 리소스가 필요합니다. 데이터 중복 제거는 은행과 신용조합의 효율성과 보안을 개선하는 데 도움을 줍니다.

이상은 중복 제거의 다양한 사용 사례의 일부에 불과합니다. 대량의 데이터를 생성하는 모든 기업은 중복 제거의 혜택을 누릴 수 있습니다.

중복 제거 기술을 선택할 때 고려해야 할 사항

데이터 중복 제거 도구를 제공하는 업체는 많지만, 개중 귀사에 가장 잘 맞는 것은 무엇일까요? 선택 과정에서 고려해야 할 핵심 요소는 다음과 같습니다.

성능: 중복 제거 유형에 따라 요구 리소스가 다릅니다. 예를 들어, 대규모 네트워크의 소스에서 실행되는 블록 단위 중복 제거는 보다 제한된 범위의 타깃에서 실행되는 파일 단위 중복 제거 대비 더 많은 리소스를 소모합니다.
확장성: 확장성과 성능은 비례하는 경우가 많으며 성능을 잠식하는 프로세스는 확장하기 어렵습니다. 이는 중복 제거에도 마찬가지로 적용됩니다. 리소스 집약적일수록 수요에 맞춰 확장하기가 더 어렵습니다. 확장성 수요가 광범위한 기업은 중복 제거 기술을 선택할 때 이러한 장단점을 함께 고려해야 합니다.
통합: 서로 단절된 데이터 소스들은 중복 제거를 복잡하게 만듭니다. 예를 들어 사일로화된 데이터베이스들의 중복 데이터 발생 확률은 훨씬 높습니다. 여러 원격 지점이 있는 대규모 네트워크에서는 중복 제거에 앞서 더 엄격한 데이터 정제 및 변환 프로토콜을 거쳐야 할 수 있습니다. 중복 제거 구현 방안을 검토하는 기업은 자사의 데이터 통합 상태를 반드시 평가해야 합니다.
비용: 중복 제거 도구의 비용은 복잡성, 기능 등에 따라 다릅니다. 처리하는 레코드 양에 따라 가격이 상승합니다. 기업은 업계 표준과 견적을 바탕으로 예산을 산정한 뒤, 장기적인 비용 절감 효과로 해당 예산이 얼마나 상쇄되는지 평가해야 합니다.

Oracle HeatWave로 데이터 중복 제거 필요성 없애기

데이터 중복 제거 문제를 해결하는 최선의 방법은 그 필요성을 최소화하는 것입니다. Oracle HeatWave는 하나의 클라우드 서비스에 트랜잭션, 데이터 웨어하우스 및 데이터 레이크 전반의 실시간 분석, 머신러닝, 생성형 AI 서비스들을 모두 결합해 이를 지원합니다. HeatWave 고객은 분석을 위해 트랜잭션 데이터베이스의 데이터를 별도의 분석용 데이터베이스로 복제할 필요가 없으며, 이는 여러 이점을 제공합니다.

동일한 데이터를 서로 다른 목적으로 여러 저장소에 반복 저장할 필요가 없습니다.
데이터 저장소 간에 데이터를 이동시키기 위해 복잡하고, 시간과 비용이 많이 들고, 오류가 발생하기 쉬운 ETL 프로세스를 거칠 필요가 없습니다.
분석 쿼리가 항상 최신 데이터에 액세스하므로, 별도의 분석 데이터베이스로 옮기는 과정에서 적시성을 상실할 수 있는 데이터를 분석하는 것보다 더 나은 결과를 제공합니다.
데이터베이스 간 데이터 전송이 없으므로 전송 중 데이터가 손상될 위험도 거의 없습니다.
HeatWave Lakehouse 사용자는 객체 저장소에서 최대 0.5 페타바이트의 데이터를 쿼리하고, 이를 MySQL 데이터베이스의 데이터와 선택적으로 결합할 수 있습니다. 고객은 표준 MySQL 명령어를 사용해 MySQL의 트랜잭션 데이터, 객체 저장소의 다양한 형식의 데이터, 또는 두 데이터를 결합해 쿼리할 수 있으며, 객체 저장소에서 MySQL로 데이터를 복사할 필요가 없습니다.

별도의 ML 서비스로 데이터를 복제할 필요 없이 내장된 HeatWave AutoML을 사용해 HeatWave 내에서 ML 모델을 구축, 학습, 설명할 수 있습니다.

HeatWave GenAI는 인데이터베이스 대규모 언어 모델(LLM), 자동화된 인데이터베이스 벡터 저장소, 확장형 벡터 처리, 문맥 기반 자연어 대화 기능 등을 갖추고 통합되고, 자동화되고, 보안이 강화된 생성형 AI를 제공함으로써 고객사가 AI 전문지식 없이도 데이터를 별도의 벡터 데이터베이스로 옮길 필요 없이 생성형 AI를 활용할 수 있도록 지원합니다.

HeatWave는 트랜잭션, 분석, 머신러닝, 생성형 AI 사용을 위한 여러 클라우드 서비스 간의 데이터 중복을 제거함으로써 고객사가 데이터 인프라를 단순화하고, 더 빠르고 정보에 입각한 의사결정을 내리고, 생산성을 높이고, 보안을 개선하고, 비용을 절감하도록 돕습니다.

AI는 CIO가 데이터를 분석하여 클라우드 지출을 최적화하는 데 도움을 주고, 송신을 최소화할 수 있는 코드 조정을 설계자에게 제안할 수 있습니다. 인공지능의 힘을 활용하여 인재, 보안 및 다른 도전 과제들을 해결하는 방법을 살펴보세요.

Ebook 다운로드하기

데이터 중복 제거 FAQ

중복 제거의 예시로는 어떤 것들이 있나요?

데이터 중복 제거의 예시로는 기업 데이터의 버전 기반 백업 및 아카이빙을 수행하는 경우가 있습니다. 각 아카이브에는 변경되지 않은 같은 파일의 인스턴스가 다수 포함되어 있습니다. 중복 제거를 통해 중복 파일이 없는 아카이브의 새 버전을 생성하면 백업 프로세스가 간소화됩니다. 새 아카이브 버전에는 단일한 원본 파일에 대한 포인터를 포함시킴으로써 해당 파일이 추가적인 저장 공간을 쓰지 않으면서도 아카이브 내에 존재하도록 합니다.

중복 제거를 수행하는 이유는 무엇인가요?

중복 레코드는 불필요한 저장 공간을 차지합니다. 추가적인 저장 공간은 악성코드 스캔 등의 프로세스가 저장 용량, 전송 대역폭, 연산 자원 등 더 많은 리소스를 소모하게 만듭니다. 중복 제거는 사용되는 저장 공간을 줄여 대역폭, 저장 용량 등 전반적인 리소스 사용량을 줄입니다.

데이터 듀플리시티란 무엇인가요?

중복(duplicates) 데이터는 데이터 듀플리시티(data duplicity)와 데이터 리던던시(data redundancy), 양쪽 모두로 인해 발생할 수 있습니다. 데이터 듀플리시티는 사용자가 스스로 시스템에 중복 파일을 추가하는 상황을 의미합니다. 데이터 리던던시는 저장되어 있는 파일이나 레코드 중 겹치는 것들이 있는 데이터베이스들이 서로 병합되며 중복이 생성되는 상황을 의미합니다.

중복 제거의 단점은 무엇인가요?

중복 제거를 통해 스토리지 공간을 확보하여 장기적인 효율성과 비용 절감 효과를 향상시킬 수 있습니다. 그러나 실제 중복 제거 프로세스는 리소스를 많이 소모하므로 연산 성능과 전송 대역폭을 포함한 네트워크의 많은 부분을 느리게 만들 수 있습니다. 따라서 IT 부서는 중복 제거 스케줄을 전략적으로 수립해야만 합니다.