O que é um catálogo de dados e por que você precisa de um?

Simplificando, um catálogo de dados é um inventário organizado de ativos de dados na organização. Ele usa metadados para ajudar as organizações a gerenciarem seus dados. Também ajuda os profissionais de dados a coletar, organizar, acessar e enriquecer metadados para oferecer suporte à descoberta e governança de dados.

Definição e analogia do catálogo de dados

Fornecemos uma breve definição de um catálogo de dados acima, como algo que usa metadados para ajudar as organizações a gerenciarem seus dados. Mas vamos expandir isso com a analogia de uma biblioteca.

Quando vai a uma biblioteca e precisa encontrar um livro, você usa o catálogo para descobrir se o livro está lá, em que edição está, onde está localizado, uma descrição, tudo o que é necessários para decidir se o quer, e se sim, como encontrá-lo.

Isso é o que muitos armazenamentos de objetos, bancos de dados e data warehouses oferecem hoje.

Mas agora, pense na analogia dessa biblioteca e do catálogo. E agora expanda o poder desse catálogo para cobrir todas as bibliotecas do país. Imagine que você tem apenas uma interface e, de repente, pode encontrar todas as bibliotecas do país que têm a cópia do livro que você está procurando e pode encontrar todos os detalhes que deseja em cada um desses livros.

Isso é o que um catálogo de dados corporativos faz com todos os seus dados. Ele oferece uma visão única e abrangente, além de uma visibilidade mais profunda de todos os seus dados, não apenas de cada armazenamento de dados por vez.

Talvez você possa se perguntar, por que precisa de uma vista como essa?

Desafios que um catálogo de dados pode enfrentar

Com mais dados do que nunca, ser capaz de encontrar os dados certos se tornou mais difícil do que nunca. Ao mesmo tempo, também existem mais regras e regulamentos do que nunca, com o GDPR sendo apenas um deles.

Portanto, não apenas o acesso aos dados está se tornando um desafio, mas a governança de dados também. É fundamental entender o tipo de dados que você tem agora, quem os está movendo, para que estão sendo usados e como precisam ser protegidos. Mas você também deve evitar colocar muitas camadas e embalagens em torno de seus dados, porque os dados são inúteis se forem muito difíceis de serem usados.

Infelizmente, existem muitos desafios em encontrar e acessar os dados certos. Eles incluem:

  • Tempo e esforço desperdiçados em encontrar e acessar dados
  • Data lakes se transformando em pântanos de dados
  • Nenhum vocabulário comum de negócios
  • Estrutura difícil de entender e variedade de "dados obscuros"
  • Difícil de avaliar a proveniência, a qualidade, a confiabilidade
  • Nenhuma maneira de capturar o conhecimento tribal ou ausente
  • Difícil de reutilizar ativos de conhecimento e dados
  • Esforços de preparação de dados manuais e ad-hoc

Usuários do catálogo de dados

Todos esses problemas de gerenciamento de dados frustram os usuários, como engenheiros de dados, cientistas de dados, administradores de dados e diretores de dados. Todos esses grupos de pessoas desejam acesso fácil a dados confiáveis. Aqui estão apenas alguns dos desafios que eles enfrentam:

Os engenheiros de dados desejam saber como as alterações afetarão o sistema como um todo. Eles podem perguntar:

  • Qual será o impacto de uma mudança de esquema em nosso aplicativo de CRM?
  • Quão diferentes são as estruturas de dados PeopleSoft e HCM?

Os cientistas de dados desejam acesso fácil aos dados e querem saber mais sobre a qualidade dos dados. Eles estão procurando informações como:

  • Onde posso encontrar e explorar alguns dados de geolocalização?
  • Como posso acessar facilmente os dados no data lake?

Os administradores de dados são encarregados de um processo de dados gerenciado. Eles se preocupam com conceitos, acordos entre as partes interessadas e com o gerenciamento do ciclo de vida dos dados em si. Eles farão perguntas como:

  • Estamos realmente melhorando a qualidade de nossos dados operacionais?
  • Definimos padrões para elementos-chave de dados importantes?

Os diretores de dados se preocupam com quem está fazendo o que na organização. Normalmente não são eles que usam um catálogo de dados, mas ainda querem saber as respostas a perguntas como:

  • Quem pode acessar as informações pessoais dos clientes?
  • Temos políticas de retenção definidas para todos os dados?

Entre no catálogo de dados.

Casos de uso do catálogo de dados

Nos últimos anos, o conceito de catálogo de dados tornou-se popular devido às quantidades cada vez maiores de dados que agora precisam ser gerenciados e acessados. Nuvem, análise de big data, IA e machine learning começaram a mudar a maneira como precisamos ver, gerenciar e aproveitar nossos dados, e não apenas gerenciá-los, mas ser capazes de usá-los e acessá-los totalmente.

Usar um catálogo de dados da maneira certa significa melhor uso de dados, o que contribui para:

  • Contenção de custos
  • Eficiência operacional
  • Vantagens competitivas
  • Melhor experiência do cliente
  • Fraude e vantagem de risco
  • E muito mais

Aqui estão apenas alguns dos casos de uso para um catálogo de dados. Mas, realmente, um catálogo de dados pode ser usado de muitas maneiras porque, fundamentalmente, se trata de ter uma visibilidade mais ampla e acesso mais profundo aos seus dados.

Análise avançada de autoatendimento. Muitos usuários de dados têm dificuldade em encontrar os dados certos. E não apenas encontrar os dados certos, mas também entender se eles são úteis. Você pode descobrir um arquivo chamado customer_info.csv. E você pode precisar de um arquivo sobre clientes. Mas isso não significa que seja o certo, porque pode ser um dos 50 arquivos semelhantes. O arquivo pode ter muitos campos e você pode não entender o que são todos esses elementos de dados. Você desejará uma forma mais fácil de ver o contexto de negócios, como se é um recurso gerenciado, do armazenamento de dados correto ou qual é o relacionamento com outros artefatos de dados.

A descoberta também pode envolver a compreensão da forma e das características dos dados, de algo tão simples como distribuição de valor, informações estatísticas ou algo tão importante e complexo como Informações de identificação pessoal (PII) ou Informações de saúde pessoal (PHI).

Gerenciamento de auditoria, conformidade e mudanças. Com cada vez mais regulamentos governamentais em torno dos dados, muitas vezes você precisa demonstrar a procedência dos dados, se determinados artefatos de dados vêm desta ou daquela fonte, ou como estão sendo transformados antes de alcançar o destino final. Ao olhar para uma tabela, relatório ou arquivo, seus usuários de dados geralmente querem entender de onde os dados vêm e como estão se movendo pela organização de várias maneiras. Do ponto de vista do gerenciamento de mudanças, é importante visualizar como as mudanças em uma parte do pipeline de dados afetam outras partes do sistema. É por isso que os clientes buscam a linhagem de dados detalhada.

Apoiar a governança de dados com glossários de negócios. A maioria das organizações tem um vocabulário com o qual todos concordam e um entendimento consistente que pode ser usado para conceitos de negócios. Mas, frequentemente, está registrado em planilhas do Excel espalhadas por algum lugar, e isso se a organização tiver sorte. Um catálogo de dados é um lugar muito melhor onde você pode armazenar e gerenciar essas informações vitais de negócios.

Um catálogo de dados também permite que você estabeleça links entre os termos de negócios para estabelecer uma taxonomia. Além disso, ele pode registrar relacionamentos entre termos e ativos físicos, como tabelas e colunas. Ele também permite que os usuários entendam quais conceitos de negócios são relevantes para quais artefatos técnicos. Isso pode ser usado para classificar ativos de dados ao longo de linhas de conceito de negócios e, em seguida, usar conceitos de negócios em vez de nomes técnicos para pesquisa e descoberta. Isso ajuda a aumentar a confiança do usuário no que está olhando, porque eles podem ver tudo o que está relacionado aos seus dados e geralmente é um bom ponto de partida para a governança de dados.

O que é necessário para fazer uso total dos dados em um catálogo de dados?

Portanto, vamos dar um passo atrás e explicar rapidamente os metadados para aqueles que podem não estar totalmente familiarizados com eles. O que são metadados? Existem três tipos de metadados:

  • Metadados técnicos: esquemas, tabelas, colunas, nomes de arquivos, nomes de relatórios, tudo o que está documentado no sistema de origem
  • Metadados de negócios: normalmente, esse é o conhecimento de negócios que os usuários têm sobre os ativos da organização. Isso pode incluir descrições de empresas, comentários, anotações, classificações, adequação ao uso, classificações e muito mais.
  • Metadados operacionais: quando este objeto foi atualizado? Qual trabalho ETL o criou? Quantas vezes uma tabela foi acessada por usuários, e qual?

Nos últimos anos, vimos uma minirrevolução em como podemos usar esses metadados valiosos. Antigamente, os metadados eram usados principalmente para auditoria, linhagem e relatórios apenas. Mas hoje, inovações tecnológicas, como processamento sem servidor, bancos de dados de gráficos e, especialmente, técnicas novas ou mais acessíveis de IA e aprendizado de máquina estão ultrapassando os limites e tornando as coisas possíveis com metadados que simplesmente não eram possíveis nesta escala antes.

Atualmente, os metadados podem ser usados para aumentar o gerenciamento de dados. Tudo, desde a preparação de dados de autoatendimento até o controle de acesso à base de conteúdo de dados e funções. Integração automatizada de dados, monitoramento e alerta de anomalias. Recursos de provisionamento e escalonamento automático, etc. Tudo isso agora pode ser aumentado com a ajuda de metadados.

E o catálogo de dados usa metadados para ajudar você a obter mais do que nunca com o gerenciamento de dados.

O que um catálogo de dados deve oferecer?

Um bom catálogo de dados deve oferecer:

Pesquisa e descoberta. Um catálogo de dados deve ter opções flexíveis de pesquisa e filtragem para permitir que os usuários encontrem rapidamente conjuntos relevantes de dados para ciência de dados, análise ou engenharia de dados. Ou navegue pelos metadados com base em uma hierarquia técnica de ativos de dados. Permitir que os usuários insiram informações técnicas, marcas definidas pelo usuário ou termos comerciais também melhora os recursos de pesquisa.

Colete metadados de várias fontes. Certifique-se de que seu catálogo de dados possa coletar metadados técnicos de uma variedade de ativos de dados conectados, incluindo armazenamento de objetos, bancos de dados autônomos, sistemas locais e muito mais.

Curadoria de metadados. Fornece uma forma para que os especialistas no assunto contribuam com conhecimento de negócios na forma de um glossário de negócios corporativos, marcas, associações, anotações definidas pelo usuário, classificações, avaliações e muito mais.

Automação e inteligência de dados. Nas escalas de dados que mencionamos, a IA e o aprendizado de máquina costumam ser essenciais. Toda e qualquer tarefa manual que possa ser automatizada deve ser automatizada técnicas de IA e aprendizado de máquina nos metadados coletados. Além disso, a IA e o aprendizado de máquina podem começar a realmente aumentar os recursos com dados, como fornecer recomendações de dados para usuários do catálogo de dados e usuários de outros serviços em uma plataforma de dados moderna.

Recursos de classe empresarial. Seus dados são importantes e você precisa de recursos de classe empresarial para usá-los adequadamente, como gerenciamento de identidade e acesso, e recursos principais por meio de APIs REST. Isso também significa que os clientes e parceiros podem contribuir com metadados (como coletores personalizados) e também expor recursos de catálogo de dados em seus próprios aplicativos por meio de REST.

Além de tudo isso, seu catálogo de dados deve se tornar seu catálogo de sistema de fato, fornecendo abstração em todas as suas camadas de persistência, como armazenamento de objetos, Hadoop, bancos de dados, data warehouse e para serviços de consulta que funcionam em todos os seus data stores.

Também é por isso não é apenas bom ter um catálogo de dados. É uma necessidade.

Por que o catálogo de dados da Oracle Cloud Infrastructure?

Cada organização deve ter um catálogo de dados robusto. Mas por que você quer o catálogo de dados da Oracle Cloud Infrastructure?

O catálogo de dados da Oracle Cloud Infrastructure está incluído em todas as assinaturas da Oracle Cloud Infrastructure e ajuda os clientes a organizarem e controlarem seus ativos de dados. É uma solução única e colaborativa para profissionais de dados não apenas organizar e controlar os dados, mas também coletar, acessar, enriquecer e ativar metadados técnicos, comerciais e operacionais para oferecer suporte à descoberta e governança de dados de autoatendimento para ativos de dados de confiança na Oracle Cloud e muito mais.

De um ponto de vista prático ele irá:

  • Coletar metadados técnicos sobre ativos de dados na Oracle Cloud Infrastructure, como o Oracle Cloud Infrastructure Object Storage, o Oracle Autonomous Database, o Oracle Database.
  • Pesquisar e explorar dados adequados de uma variedade de fontes diferentes por meio de pesquisas e filtros multifacetados
  • Gerenciar glossário comercial para capturar o vocabulário de negócios da empresa
  • Enriquecer a compreensão dos dados disponíveis, capturando o conhecimento tribal na forma de tags e anotações definidas pelo usuário
  • Obter uma visão holística de ativos de dados associando tags e termos de negócios
  • Integrar recursos em outros aplicativos usando APIs REST e SDKs
  • Proteger o acesso com políticas baseadas em grupo IAM

Conclusão

As organizações estão se esforçando para serem orientadas por dados. Eles querem análises melhores e mais rápidas, sem sacrificar a governança. E é isso que está tornando o gerenciamento de dados ainda mais importante e desafiador. Um catálogo de dados ajuda a tornar o gerenciamento de dados mais fácil de gerenciar e facilita atender às diversas demandas. Por meio do catálogo de dados da Oracle Cloud Infrastructure, a Oracle tomou medidas para ajudar todos a descobrir e usar os dados da maneira que sempre quiseram.