데이터 카탈로그란 무엇이며 왜 필요한가요?

간단히 말해서 데이터 카탈로그는 조직 내에서 구성된 데이터 자산 인벤토리입니다. 메타데이터를 사용하여 조직의 데이터 관리 작업을 지원합니다. 또한 데이터 전문가가 메타데이터를 수집, 구성, 액세스 및 강화하여 데이터 검색 및 거버넌스를 지원하는 데 도움이 됩니다.

데이터 카탈로그 정의 및 비유

위의 데이터 카탈로그에 대한 간략한 정의는 메타데이터를 사용하여 조직의 데이터를 관리하는 데 도움이 됩니다. 이제 도서관을 비유로 들어 이 정의를 확장해보겠습니다.

도서관에 가서 책을 찾아야 할 때 카탈로그를 사용하여 책이 있는지 여부, 에디션 종료, 책의 위치, 설명 등 필요한 모든 것을 확인합니다. 따라서 해당 책이 필요한지 여부를 결정할 수 있고 필요하다면, 해당 책을 어떻게 찾는지도 알 수 있습니다.

이것이 오늘날 많은 객체 저장소, 데이터베이스 및 데이터웨어 하우스가 제공하는 것입니다.

그러나 이제 그 도서관과 카탈로그의 비유를 다시 생각해보십시오. 그리고 이제 그 카탈로그의 힘을 미국의 모든 도서관을 포함하도록 확장하십시오. 인터페이스가 하나뿐이고 갑자기 찾고 있는 책의 사본이 있는 국가의 모든 도서관을 찾을 수 있고 각 책에서 원하는 모든 세부 정보를 찾을 수 있다고 상상해보십시오.

이것이 바로 엔터프라이즈 데이터 카탈로그가 모든 데이터에 대해 수행하는 작업입니다. 이를 통해 한 번에 각 데이터 저장소뿐만 아니라 모든 데이터에 대한 포괄적인 단일 보기와 심층적인 가시성을 제공합니다.

아마도 왜 그런 보기가 필요한지 궁금할 것입니다.

데이터 카탈로그로 해결할 수 있는 과제

그 어느 때보다 많은 데이터로 인해 올바른 데이터를 찾는 일이 그 어느 때보다 어려워졌습니다. 동시에 그 어느 때보다 많은 규칙과 규정이 있는데 GDPR은 그 중 하나 일뿐입니다.

따라서 데이터 액세스가 문제가 될 뿐만 아니라 데이터 거버넌스도 문제가 되었습니다. 현재 보유하고 있는 데이터의 종류, 데이터를 이동하는 사람, 데이터의 용도 및 보호 방법을 이해하는 것이 중요합니다. 그러나 데이터 주위에 너무 많은 계층과 래퍼를 두는 것도 피해야 합니다. 데이터를 사용하기가 너무 어려우면 쓸모가 없기 때문입니다.

안타깝게도 올바른 데이터를 찾고 액세스하는 데는 많은 어려움이 있습니다. 여기에는 다음이 포함됩니다.

  • 데이터 검색 및 액세스에 시간과 노력 낭비
  • 데이터 늪으로 변하는 데이터 레이크
  • 일반적인 비즈니스 어휘 없음
  • 이해하기 어려운 "다크 데이터"의 구조와 다양성
  • 출처, 품질, 신뢰성을 평가하기 어려움
  • 부족하거나 누락된 지식을 확보할 방법이 없음
  • 지식과 데이터 자산을 재사용하기 어려움
  • 수동적이고 임시적인 데이터 준비 노력

데이터 카탈로그 사용자

이러한 모든 데이터 관리 문제는 데이터 엔지니어, 데이터 과학자, 데이터 관리자 및 최고 데이터 책임자와 같은 사용자를 좌절시킵니다. 이러한 모든 그룹의 사람들은 신뢰할 수 있는 데이터에 쉽게 액세스하기를 원합니다. 다음은 이들이 직면한 몇 가지 문제입니다.

데이터 엔지니어는 변경 사항이 시스템 전체에 어떤 영향을 미치는지 알고 싶어합니다. 그들은 다음과 같이 질문할 수 있습니다.

  • CRM 애플리케이션에서 스키마를 변경하면 어떤 영향을 미칩니까?
  • Peoplesoft 및 HCM 데이터 구조는 어떻게 다릅니까?

데이터 과학자는 데이터에 쉽게 액세스하기를 원하고 데이터의 품질에 대해 더 많이 알고 싶어합니다. 그들은 다음과 같은 정보를 찾고 있습니다.

  • 지리적 위치 데이터를 어디서 찾고 탐색할 수 있습니까?
  • 데이터 레이크의 데이터에 어떻게 쉽게 액세스할 수 있습니까?

데이터 스튜어드는 관리되는 데이터 프로세스에 대한 요금을 부과합니다. 그들은 개념, 이해 관계자 간의 계약 및 데이터 자체의 수명 주기 관리에 관심이 있습니다. 그들은 다음과 같은 질문을 할 것입니다.

  • 실제로 운영 데이터의 품질을 개선하고 있습니까?
  • 중요한 핵심 데이터 요소에 대한 표준을 정의했습니까?

최고 데이터 책임자는 조직에서 누가 무엇을 하고 있는지에 관심이 있습니다. 일반적으로 데이터 카탈로그를 사용하는 사람들은 아니지만 다음과 같은 질문에 대한 답변을 알고 싶어합니다.

  • 고객의 개인 정보에 접근할 수 있는 사람은 누구입니까?
  • 모든 데이터에 대해 정의된 보존 정책이 있습니까?

데이터 카탈로그를 사용하십시오.

데이터 카탈로그 사용 사례

지난 몇 년 동안 데이터 카탈로그의 개념은 현재 관리 및 액세스해야 하는 데이터의 양이 증가함에 따라 대중화되었습니다. 클라우드, 빅 데이터 분석, AI 및 머신 러닝은 데이터를 보고 관리하고 활용하는 데 필요한 방식을 변화시키기 시작했습니다. 데이터를 관리할 뿐만 아니라 데이터를 완전히 사용하고 액세스할 수 있습니다.

데이터 카탈로그를 올바른 방법으로 사용하면 데이터 사용량이 향상되며 다음과 같은 이점이 있습니다.

  • 비용 절감
  • 운영 효율성
  • 경쟁 우위
  • 고객 경험 향상
  • 사기 및 위험 이점
  • 그 밖의 많은 이점 제공

다음은 데이터 카탈로그에 대한 몇 가지 사용 사례입니다. 그러나 실제로 데이터 카탈로그는 기본적으로 더 넓은 가시성과 데이터에 대한 더 심도 있는 액세스 권한을 갖기 때문에 다양한 방식으로 사용될 수 있습니다.

셀프 서비스 분석 많은 데이터 사용자가 올바른 데이터를 찾는 데 어려움을 겪습니다. 그리고 올바른 데이터를 찾는 것 뿐만 아니라 그것이 유용한지 이해합니다. customer_info.csv라는 파일을 발견할 수 있습니다. 그리고 고객에 대한 파일이 필요할 수 있습니다. 그러나 이것이 50개의 유사한 파일 중 하나일 수 있기 때문에 올바른 파일이라는 의미는 아닙니다. 파일에 많은 필드가 있을 수 있으며 이러한 모든 데이터 요소가 무엇인지 이해하지 못할 수 있습니다. 적절한 데이터 저장소에서 관리되는 리소스인지 여부 또는 다른 데이터 아티팩트와의 관계와 같은 관련 비즈니스 컨텍스트를 보다 쉽게 볼 수 있는 방법을 원할 것입니다.

검색 시에는 가치 분포, 통계 정보와 같은 단순한 것, 또는 개인 식별 정보(PII) 또는 개인 건강 정보(PHI)와 같이 중요하고 복잡한 것에서 데이터의 모양과 특성을 이해해야 할 수 있습니다.

감사, 규정 준수 및 변경 관리 데이터에 대한 정부 규정이 계속 증가함에 따라 특정 데이터 아티팩트가 이 소스 또는 해당 소스에서 오는지 또는 최종 목표에 도달하기 전에 데이터가 어떻게 변환되는지 등 데이터의 출처를 입증해야 하는 경우가 많습니다. 테이블, 보고서 또는 파일을 볼 때 데이터 사용자는 데이터의 출처와 조직에서 다양한 방식으로 데이터가 어떻게 이동하는지 이해하기를 원합니다. 변경 관리 관점에서 데이터 파이프라인의 한 부분에서 변경된 내용이 시스템의 다른 부분에 어떤 영향을 미치는지 확인하는 것이 중요합니다. 이것이 고객이 상세한 데이터 계보를 찾는 이유입니다.

비즈니스 용어집으로 데이터 거버넌스를 지원합니다. 대부분의 조직은 모두가 동의하는 어휘와 비즈니스 개념에 사용할 수 있는 일관된 합의를 가지고 있습니다. 그러나 종종 어딘가에 있는 Excel 시트에 기록되며 조직이 운이 좋을 경우입니다. 데이터 카탈로그는 이 중요한 비즈니스 정보를 저장하고 관리할 수 있는 훨씬 더 나은 장소입니다.

데이터 카탈로그를 사용하면 비즈니스 용어 간의 링크를 설정하여 분류를 설정할 수도 있습니다. 그 외에도 용어와 테이블 및 열과 같은 물리적 자산 간의 관계를 기록할 수 있습니다. 또한 사용자는 어떤 비즈니스 개념이 어떤 기술 아티팩트와 관련이 있는지 이해할 수 있습니다. 이것은 비즈니스 개념 라인에 따라 데이터 자산을 분류하는 데 사용할 수 있으며 검색 및 탐색을 위해 기술 이름 대신 비즈니스 개념을 실제로 사용할 수 있습니다. 이는 데이터와 관련된 모든 것을 볼 수 있고 데이터 거버넌스의 좋은 출발점이 되기 때문에 사용자가 보고 있는 내용에 대한 신뢰를 높이는 데 도움이 됩니다.

데이터 카탈로그의 데이터를 완전히 활용하려면 무엇이 필요합니까?

따라서 한 걸음 물러서서 메타데이터에 완전히 익숙하지 않은 사람들에게 메타데이터를 빠르게 설명해보겠습니다. 메타데이터란? 메타데이터에는 세 가지 종류가 있습니다.

  • 기술 메타데이터: 스키마, 테이블, 열, 파일 이름, 보고서 이름 – 소스 시스템에 문서화된 모든 것
  • 비즈니스 메타데이터: 이것은 일반적으로 사용자가 조직의 자산에 대해 가지고있는 비즈니스 지식입니다. 여기에는 비즈니스 설명, 견해, 주석, 분류, 사용 적합성, 등급 등이 포함될 수 있습니다.
  • 운영 메타데이터: 이 객체가 언제 새로고침되었습니까? 어떤 ETL 작업이 생성되었습니까? 사용자가 테이블에 몇 번 액세스했으며 어떤 테이블에 액세스했습니까?

지난 몇 년 동안 우리는 이 귀중한 메타데이터를 어떻게 사용할 수 있는지에 대한 작은 혁명을 보았습니다. 한때 메타데이터는 대부분 감사, 계보 및 보고에만 사용되었습니다. 그러나 오늘날 서버리스 처리, 그래프 데이터베이스, 특히 새롭거나 더 접근하기 쉬운 AI 및 머신 러닝 기술과 같은 기술 혁신은 경계를 넓히고 이전에는 이런 규모로 불가능했던 메타데이터를 사용하여 작업을 가능하게 합니다.

오늘날 메타데이터를 사용하여 데이터 관리를 강화할 수 있습니다. 셀프 서비스 데이터 준비부터 역할 및 데이터 콘텐츠 기반 액세스 제어, 자동화된 데이터 온보딩, 모니터링 및 이상 징후 알림. 리소스 자동 프로비저닝 및 자동 확장 등 이 모든 것은 이제 메타데이터의 도움으로 강화될 수 있습니다.

또한 데이터 카탈로그는 메타데이터를 사용하는 데이터 관리로 그 어느 때보다 더 많은 것을 달성할 수 있도록 도와줍니다.

데이터 카탈로그는 무엇을 제공해야 합니까?

좋은 데이터 카탈로그는 다음을 제공해야 합니다.

검색 및 탐색 데이터 카탈로그에는 사용자가 데이터 사이언스, 분석 또는 데이터 엔지니어링 관련 데이터 세트를 빠르게 찾을 수 있도록 유연한 검색 및 필터링 옵션이 있어야 합니다. 또는 데이터 자산의 기술적 계층을 기반으로 메타데이터를 찾습니다. 사용자가 기술 정보, 사용자 정의 태그 또는 비즈니스 용어를 입력할 수 있도록 하면 검색 기능도 향상됩니다.

다양한 소스에서 메타데이터를 수집합니다. 데이터 카탈로그가 객체 스토리지, 자율 운영 데이터베이스, 온프레미스 시스템 등을 포함한 연결된 다양한 데이터 자산에서 기술 메타데이터를 수집할 수 있는지 확인하십시오.

메타데이터 큐레이션 주제 전문가가 엔터프라이즈 비즈니스 용어집, 태그, 연관 사항, 사용자 정의 주석, 분류, 등급 등의 형태로 비즈니스 지식을 제공할 수 있는 방법을 제공합니다.

자동화 및 데이터 인텔리전스 앞서 언급한 데이터 규모에서 AI와 머신 러닝은 대부분 필수입니다. 자동화할 수 있는 모든 수동 작업은 수집된 메타데이터에 대한 AI 및 머신 러닝 기술로 자동화되어야 합니다. 또한 AI 및 머신 러닝은 데이터 카탈로그 사용자와 최신 데이터 플랫폼의 다른 서비스 사용자에게 데이터 권장 사항을 제공하는 등 데이터를 통해 진정으로 기능을 강화할 수 있습니다.

엔터프라이즈급 기능 데이터는 중요하며 이를 적절히 사용하려면 ID 및 액세스 관리와 같은 엔터프라이즈급 기능과 REST API를 통한 주요 기능이 필요합니다. 이는 또한 고객과 파트너가 메타데이터(예: 사용자 지정 수확)를 제공하고 REST를 통해 자체 애플리케이션에서 데이터 카탈로그 기능을 노출할 수 있음을 의미합니다.

이 모든 것 외에도 데이터 카탈로그는 사실상의 시스템 카탈로그가 되어야 하며 객체 저장소, Hadoop, 데이터베이스, 데이터웨어 하우스와 같은 모든 지속성 계층에서 추상화를 제공하고 모든 데이터 저장소에서 작동하는 서비스를 쿼리합니다.

이것이 바로 데이터 카탈로그 사용이 더 이상 좋지 않은 이유이기도 합니다. 이제는 필수입니다.

오라클 클라우드 인프라스트럭쳐(OCI) 데이터 카탈로그를 사용해야 하는 이유는 무엇입니까?

모든 조직에는 강력한 데이터 카탈로그가 있어야 합니다. 그런데 왜 오라클 클라우드 인프라스트럭쳐(OCI) 데이터 카탈로그를 원하십니까?

오라클 클라우드 인프라스트럭쳐(OCI) 데이터 카탈로그는 모든 오라클 클라우드 인프라스트럭쳐(OCI) 구독에 포함되어 있으며 고객이 데이터 자산을 구성하고 관리하는 데 도움이 됩니다. 데이터 전문가가 데이터를 구성하고 관리할 뿐만 아니라 기술, 비즈니스 및 운영 메타데이터를 수집, 액세스, 강화 및 활성화하여 오라클 클라우드 등의 신뢰 데이터 자산에 대한 셀프 서비스 데이터 검색 및 거버넌스를 지원하는 단일 협업 솔루션입니다.

실제 수준에서 다음과 같은 작업이 수행됩니다.

  • Oracle Cloud Infrastructure Object Storage, Oracle Autonomous Database, 오라클 데이터베이스와 같은 오라클 클라우드 인프라스트럭쳐(OCI)의 데이터 자산에 대한 기술 메타데이터를 수확합니다.
  • 다각적인 검색 및 필터를 통해 다양한 소스의 적절한 데이터를 검색 및 탐색
  • 비즈니스 용어집을 관리하여 기업의 비즈니스 어휘 확보
  • 사용자 정의 태그 및 주석 형식으로 부족 지식을 확보하여 사용 가능한 데이터 이해 강화
  • 태그와 비즈니스 용어를 연결하여 데이터 자산의 전체론적 관점 확보
  • REST API 및 SDK를 사용하여 다른 앱을 통합
  • IAM 그룹 기반 정책으로 안전한 액세스

결론

조직은 데이터 중심이 되기 위해 노력하고 있습니다. 그들은 거버넌스를 희생하지 않으면서 더 빠르고 더 나은 분석을 원합니다. 이것이 데이터 관리를 더욱 중요하고 어렵게 만드는 요인입니다. 데이터 카탈로그를 사용하면 데이터를 보다 쉽게 관리할 수 있으며 많은 요구 사항을 보다 쉽게 충족할 수 있습니다. 오라클 클라우드 인프라스트럭쳐(OCI) 데이터 카탈로그를 통해 Oracle은 모든 사람이 항상 원했던 방식으로 데이터를 검색하고 사용할 수 있도록 지원하는 조치를 취했습니다.