Endeca Arquitetura e Componentes da Solução

Por Carina Mendes
Postado em Fevereiro 2015

Objetivo:

Apresentar os componentes que atuam na plataforma Endeca, suas funcionalidades e fluxo do processo de Data Discovery.

Origem dos Dados Não Estruturados:

- Análise de Redes Sociais

As redes sociais são estruturas de redes infinitas compostas por pessoas e organizações conectadas por diversos tipos de relações, que compartilham valores e objetivos comuns.

Análise de Redes Sociais visa identificar o conteúdo comum destas relações,  que propõe uma série de conceitos e métricas para uma determinada linha de pesquisa, como por exemplo:

- Data Discovery

A descoberta de informações baseia-se no processo de pesquisa avançada, permitindo navegação analítica de dados estruturados, semi-estruturados e não estruturados. Mapeando relacionamentos indefinidos e desconhecidos.

- Analogia de Data Discovery  x  Business Intelligence

Talvez você já tenha ouvido falar que as ferramentas de BI auxiliam nas respostas de perguntas para uma determinada área de assunto.

No Data Discovery as ferramentas auxiliam a elaborar perguntas relevantes ao assunto de interesse para organização.

Apesar das diferenças, podemos considerar tanto o BI tradicional quanto o Data Discovery pilares que trabalham em paralelo para o apoio à tomada de decisão. Auxiliando a inteligência de negócios, pois o Data Discovery pode ser utilizado para definir com melhor precisão os relatórios do BI tradicional.

- Métodos:

Enquanto no BI, temos etapas para criação de métricas, Kpi, relatórios e painéis, no Data Discovery o método resume -se na exploração dos dados.

Também encontramos uma diferença entre os insumos utilizados, uma vez que o BI utilizamos as correlações entre metadados e informação, o Data Discovery utiliza apenas a informação, onde é permitido maior flexibilidade para encontrar correlações inusitadas e obter análises multi-variáveis.

- Processos:

De uma forma bem resumida, podemos dizer que os processos de BI estão contidos em:

  • realizar o levantamento de requisitos;
  • elaborar o modelo de dados;
  • realizar integração e tratamento de dados;
  • modelar o repositório de metadados;
  • desenvolver os relatórios;
  • e por fim realizar a construção dos painéis de apresentação.

Como podem observar é um fluxo com início e fim.

Já nos processos do Data Discovery, o fluxo é contínuo onde temos:

e pode ser aprimorado a cada ciclo:

  • seleção  e coleta de dados;
  • exploração dos dados capturados;
  • reconhecimento dos padrões;
  • refinar hipóteses;
  • criar novas perguntas;
  • definir a pergunta certa a ser respondida.

Um potencial do Data Discovery é que a informação pode amadurecer a cada ciclo, expandindo o conhecimento adquirido.

- Objetivo:

Apesar das diferenças, tanto o processo de Data Discovery quanto o de Business Intelligence, cada um com sua função, podem ser considerados legados para apoio à tomada de decisão nas empresas. 


Oracle Endeca Information Discovery:

- Um pouco de História:

Endeca era uma empresa privada de pesquisas para e-Comerce,  foi fundada em 1999.

A palavra Endeca é originária de uma tradução do alemão Entdecken, que significa "Descobrir".

Em outubro de 2011 foi adquirida pela Oracle Corporation, tornando-se a Oracle Endeca Information Discovery e se tornou um produto para Solução de BI Ágil e reconhecido como pioneira em pesquisa analítica.

- Características:

O Endeca Information Discovery – EID possui características específicas como:

  • Pesquisa Avançada.
  • Navegação Facetada (Analítica).
  • Disposição dos dados em mapas, gráficos, tagcloud e tabelas dinâmicas.
  • Análise de Sentimentos.

Componentes da Arquitetura Oracle EID: 

- Coletor

Um componente desenvolvido em Java, para funções de web crawler, que executa tarefas de busca e captura de dados de origens por meio de indexação de sites HTTP e HTTPS. Reúne os dados in memory e  os armazena no Endeca Server.

Endeca Server

Um servidor de banco de dados para núcleo de pesquisa. Armazena dados complexos e variados sistemas que gerenciam os dados de forma facetada e flexível, reduzindo a necessidade de modelagem inicial nos dados. Uma engenharia adotada para abordar rapidamente perguntas e gerar informações a cada novo insight.

- Endeca Integrator

Um componente que disponibiliza certos produtos para carregar dados do sistema de origem e armazená-los em um domínio de dados do EID Server.

*Clover Design: Um client desenvolvido pela Eclipse, para processos de ETL. Fornece interface gráfica para carregar, agrupar e atualizar dados rapidamente. Os grafos criados possuem componentes para leitura da origem de dados e enviá-los para os Datas Domains do Endeca Server.

*Lexalytics: Um motor para análise de sentimentos e interpretação de texto. Contribui no processo de transformação de dados dados não estruturados em dados estruturados. Funciona como um glossário para identificação e pontuação de termos coletados em escalas de sentimentos de -1 à 1.

- Endeca Studio

Uma plataforma web para descoberta de informações de forma intuitiva. Permite analisar e explorar dados complexos e variados de forma dinâmica e ágil.

Disponibilizando as informações em componentes gráficos (portlet) para rápida identificação de conteúdo relevante ao negócio.

*Provisioning: Um serviço que permite o uploud de dados semi-estruturados através do Endeca Studio. Permite o carregamento de arquivos nos formatos Json e Excel, amarzenados diretamente em Data Domains do Endeca Server para criação de Análises no Endeca Studio.

*Aplicações:São painéis onde são disponibilizadas os portlets (gráficos, mapas, tabelas dinâmicas, tagcloud, filtros e etc.) permitindo a realização do processo de Data Discovery.

Fluxo do Processo Oracle EID:

Através do fluxograma a seguir, demonstrarei as etapas e particularidades do processo de Data Discovery realizado com a suíte Oracle Endeca.

O usuário possui identidades e acessos segregados, onde a pesquisa e descoberta de informações de um usuário não se comunica com as informações dos demais usuários. As configurações de acesso aos ambientes do Endeca são definidas através da criação de perfis e roles de acesso na camada de segurança localizada dentro da gestão do Endeca Studio.

Fluxo1:

O usuário acessa uma Interface web e define os termos de pesquisas a serem coletados. nas

Fluxo 2:

O Motor de Busca, que é um agente Java que trabalha por meio de execução de tarefas automatizadas, num conceito conhecido como web crawlling (rastreador web), ele captura de dados de origens por meio de indexação de sites HTTP e HTTPS.

Fluxo 3:

O Motor de Busca se conecta em contas de API's pré configuradas para obter acesso aos dados não estruturados. As API's (Application Programming Interface) são fornecidas pelo provedor de mídia social (Ex.: Twitter ou Facebook), ele disponibiliza para o público desenvolvedor uma série de funcionalidades e informações que podem ser utilizadas e incorporadas ao nosso produto.

Fluxo 4:

Nas Mídias Sociais, como os relacionamentos entre os usuários não possuem padrões nem hierarquias, não há estrutura para as os dados coletados, por isso são chamados de Dados Não estruturados.

Fluxo 5:

Os dados coletados são armazenados em um banco de dados Orcale, em uma única tabela sem modelos ou chaves identificadoras para os dados. Esse formato de armazenamento é o que difere o Endeca dos métodos convencionais de bancos que contém tabelas de relacionamentos transacionais e relacionais. Uma engenharia adotada para abordar rapidamente perguntas e gerar informações a cada novo insight.

Fluxo 6:

O processo de ETL - Extract Transform Load do Endeca é realizado através de uma ferramenta local chamada Clover Design que fornece interface gráfica para carregar, agrupar e atualizar dados rapidamente.

Fluxo 7:

Durante o processo de ETL, os dados são submetidos á um processo de análise de sentimentos, realizado pelo Lexalytics que compara as palavras e termos coletados  Dicionários e pontua os dados com as notas de sentimentos em escalas de -1 a 1. Conceituando dados não estruturados.

Fluxo 8:

Após o processo e análise de sentimentos, agrupamentos e estruturação dos dados,  os grafos criados no Clover  enviam os dados para os Datas Domains.

Fluxo 9:

O Endeca Studio se conecta via string com o source do Data Domain e assim consegue ler os dados coletados. O ambiente é acessado via web browser respeitando a segurança implementada para o usuário. O Studio pode se conectar com diferentes Data Domais e também apresentar análises variadas para cada source.

Fluxo 10:

A partir de então é possível criar os painéis com relatórios de análises. Esses painéis no Endeca Studio são chamados de Aplicações de Data Discovery Information.

Fluxo 11:

Através do Endeca Studio  utiliza-se o Service Provisioning que permite carregar planilhas de Excel ou arquivos Json para criação de análises de dados semi-estruturados.

Fluxo 12:

Os dados carregados pelo Provisioning são armazenados em um novo Data Domain criado automaticamente que por sua vez serão lidos pelo Endeca Studio e disponibilizados nas Aplicações de Data Discovery Information.

Disposição da Informação no Oracle EID Studio:

Temos agora o exemplo de uma Aplicação no Endeca Studio, esta é a sua interface de análise, como podem ver as informações são dispostas de uma forma bem dinâmica e intuitiva, facilitando a exploração dos dados, descoberta de métricas, indicadores, relações e agrupamentos.

É possível definir a partir de uma amostragem de dados disponibilizada pelas API's, quais os assuntos mais comentados em um determinado período, ou quais os sites que estão publicando mais informações referente à um determinado termo. Ainda é possível também determinar o sentimento dos posts (do Twitter ou Facebook por exemplo), se a maioria fala bem ou mal de determinados assuntos. Ou então, é possível mapear geograficamente, em qual região há mais concentração de posts e publicações.

Como vimos na parte conceitual desta apresentação, o processo de Data Discovery, é contínuo e evolui na medida em que o usuário interage com as análises, descobrindo e refinando novas hipóteses e assim por diante.

 

Carina Mendes - Business Intelligence Consultant.
Formação Acadêmica em Gestão Financeira e Estatística, Atuação técnica no desenvolvimento de projetos em Oracle BIEE 10g/11g e Oracle Endeca Information Discovery 3.1. Linguagens e ferramentas: Oracle SQL, ODI, AdminTool, Shell, Html e CSS.

Este artigo foi revisto pela equipe de produtos Oracle e está em conformidade com as normas e práticas para o uso de produtos Oracle.