Perguntas mais frequentes sobre o Data Lake Service

Geral

O que é OCI Data Lake?

O OCI Data Lake é um serviço de data lake totalmente gerenciado para obter melhor governança de dados. Ele fornece gerenciamento centralizado aos usuários para armazenamento e segurança de dados no data lake. O serviço permite que os usuários insiram/analisem facilmente os dados. Os usuários e as aplicações podem compartilhar dados perfeitamente dentro da organização e aplicar controle de acesso refinado a objetos no data lake. Os mecanismos integrados que consomem dados no data lake respeitam essas regras de controle de acesso predefinidas.

Por que o OCI Data Lake?

O OCI Data Lake permite que os clientes armazenem e controlem dados estruturados, semiestruturados e não estruturados. É um painel único para todas as necessidades de gerenciamento de dados. Com ele, os usuários podem construir um data lake com segurança refinada em apenas alguns minutos. O OCI Data Lake está bem integrado a outros serviços da OCI, facilitando a ingestão, o processamento e a análise de dados no data lake.

Quais outros serviços estão integrados ao OCI Data Lake?

O OCI Data Lake é integrado à OCI Data Integration para ingestão fácil e no-code de dados no data lake. Quando um OCI Data Lake é criado, as entidades no data lake são coletadas automaticamente no OCI Data Catalog para que os administradores de dados descubram os dados. O OCI Data Lake funciona perfeitamente com o OCI Data Flow, Oracle Big Data e OCI Data Science Notebooks para processamento de dados e execução de cargas de trabalho de análise. Os usuários podem consultar dados no data lake usando o Autonomous Data Warehouse.

Quais são as opções de armazenamento no OCI Data Lake?

Existem duas opções: armazenar os dados em um modelo de arquivo, criando montagens externas ou gerenciadas, ou armazenar os dados em um modelo relacional, criando tabelas no data lake.

Qual é a diferença entre montagens externas e gerenciadas?

Uma montagem externa é uma referência a um local do Oracle Cloud Infrastructure (OCI) Object Storage. O local do OCI Object Storage para montagens externas não é gerenciado pelo data lake. As montagens externas são usadas para fornecer controle de acesso detalhado aos dados já existentes em um local do OCI Object Storage.

Uma montagem gerenciada é uma referência a um local do OCI Object Storage que é gerenciado pelo serviço data lake. As montagens gerenciadas fornecem segurança aprimorada para os arquivos de dados de modo que somente usuários permitidos do data lake possam acessar os dados armazenados na montagem gerenciada. Os dados na montagem gerenciada são armazenados no data lake.

Qual é a diferença entre tabelas externas e gerenciadas?

Uma tabela externa define uma estrutura de dados que são armazenados em um local do OCI Object Storage gerenciado por você ou em uma montagem dentro do data lake. A montagem pode ser externa ou gerenciada. Quando você exclui uma tabela externa, somente sua definição é excluída. Os dados referenciados pela tabela externa não são excluídos.

Uma tabela gerenciada define uma estrutura de dados que são armazenados no data lake e só podem ser acessados por usuários do OCI Data Lake. Ao excluir uma tabela gerenciada, a definição e os dados dela serão excluídos.

Armazenamento

Quais são as opções de armazenamento no OCI Data Lake?

Existem duas opções: armazenar os dados em um modelo de arquivo, criando montagens externas ou gerenciadas, ou armazenar os dados em um modelo relacional, criando tabelas no data lake.

Qual é a diferença entre montagens externas e gerenciadas?

Uma montagem externa é uma referência a um local do Oracle Cloud Infrastructure (OCI) Object Storage. O local do OCI Object Storage para montagens externas não é gerenciado pelo data lake. As montagens externas são usadas para fornecer controle de acesso detalhado aos dados já existentes em um local do OCI Object Storage.


Uma montagem gerenciada é uma referência a um local do OCI Object Storage que é gerenciado pelo serviço data lake. As montagens gerenciadas fornecem segurança aprimorada para os arquivos de dados de modo que somente usuários permitidos do data lake possam acessar os dados armazenados na montagem gerenciada. Os dados na montagem gerenciada são armazenados no data lake.

Qual é a diferença entre tabelas externas e gerenciadas?

Uma tabela externa define uma estrutura de dados que são armazenados em um local do OCI Object Storage gerenciado por você ou em uma montagem dentro do data lake. A montagem pode ser externa ou gerenciada. Quando você exclui uma tabela externa, somente sua definição é excluída. Os dados referenciados pela tabela externa não são excluídos.

Uma tabela gerenciada define uma estrutura de dados que são armazenados no data lake e só podem ser acessados por usuários do OCI Data Lake. Ao excluir uma tabela gerenciada, a definição e os dados dela serão excluídos.


Ingestão

Como posso construir meu data lake usando o serviço OCI Data Lake?

Os engenheiros de dados podem escrever processos ETL usando o serviço OCI Data Integration sem código. Os engenheiros de dados também podem usar SDKs e APIs para ingerir dados no data lake ou criar uma aplicação Spark no OCI Data Flow para ingestão de dados.

Posso criar o data lake usando o Terraform?

Sim, o OCI Data Lake oferece suporte ao Terraform para criar recursos do OCI Data Lake.

O OCI Data Lake ingere dados de streaming?

Os trabalhos de streaming do OCI Data Flow podem gravar dados no data lake.


Descoberta de dados

Como os administradores de dados descobrirão dados no data lake?

Os administradores de dados podem descobrir dados no data lake usando o OCI Data Catalog, que é anexado/provisionado durante o processo de criação do data lake. O catálogo é atualizado em intervalos regulares, proporcionando aos administradores de dados a visão mais atualizada do data lake.

Posso usar meu catálogo de dados existente ou o Hive Metastore com o OCI Data Lake?

Não, quando um data lake é provisionado, um catálogo é criado e gerenciado pelo serviço.

Segurança

O que é controle de acesso unificado?

O OCI Data Lake fornece controle de acesso unificado, que permite aos administradores definir políticas de controle de acesso para todos os objetos do data lake. No console, os administradores têm uma exibição consolidada para ver quem tem acesso aos objetos do data lake.

Como o OCI Data Lake protege meus dados no data lake?

O OCI Data Lake tem duas camadas de segurança. O próprio data lake só poderá ser acessado se o usuário tiver recebido acesso por meio da política do Oracle IAM. Todos os objetos no data lake são regidos por políticas definidas nele.

Posso criar funções e conceder permissões a funções no OCI Data Lake?

Sim, os administradores do data lake podem criar atribuições e conceder permissões a atribuições, usuários, controladores de recursos, grupos e grupos dinâmicos.

Governança

Posso proteger meus dados em montagens externas/gerenciadas?

Sim, os usuários podem atribuir permissões de leitura/gravação/administrador a funções/usuários/controladores de recursos/grupos/grupos dinâmicos.

Posso escrever políticas de acesso para proteger arquivos em uma montagem?

Não, o OCI Data Lake não oferece suporte ao controle de acesso em arquivos.

Posso restringir o acesso a determinadas colunas com dados confidenciais?

Sim, o OCI Data Lake permite que os administradores criem políticas de controle de acesso no nível da coluna.

Posso restringir o acesso a algumas linhas em uma tabela do OCI Data Lake?

Sim, o OCI Data Lake permite que os administradores criem políticas de controle de acesso de nível de linha com base em valores de colunas.

Acesso aos dados

Como posso processar ou analisar dados no OCI Data Lake?

Os engenheiros de dados podem processar dados na aplicação Spark usando o OCI Data Flow ou no Big Data Service. Cientistas de dados e analistas de dados podem fazer análises exploratórias ou criar modelos de ML em dados no data lake usando o OCI Data Science Notebook.

É necessário escrever uma nova aplicação Spark caso eu mova os dados para o OCI Data Lake?

Não, o OCI Data Lake oferece suporte a APIs Spark para facilitar a leitura/gravação de dados em vários formatos de arquivo.

Como o OCI Data Lake ajuda um analista ou cientista de dados a acessar dados no OCI Data Lake?

Os analistas de dados podem aproveitar o Spark SQL para DDLs, DMLs ou consultar dados.

Posso visualizar dados no OCI Data Lake?

Sim, o OCI Data Lake é integrado ao endpoint SQL do OCI Data Flow, que expõe um driver JDBC/ODBC que permite que os dados no data lake sejam visualizados usando ferramentas de business intelligence com suporte aos drivers JDBC/ODBC. Os usuários também podem aproveitar o driver para estabelecer conexão com o data lake usando uma ferramenta SQL que oferece suporte ao driver JDBC/ODBC.