Revisado por Marcelo Pivovar - Solution Architect
Este artigo irá fundamentar um dos principais conceitos desta década, a Ciência de Dados. Entender seus princípios e objetivos, fundamentos e conceitos. Perceber a sua importância e as novas oportunidades criadas através da sua aplicação. Como a Ciência de Dados pode criar e reinventar formas de fazer negócios. Ao final, iremos entender como o paradigma Cloud favorece ao desenvolvimento e funcionamento da Ciência de Dados.
Ciência de Dados envolve a utilização de métodos científicos para a extração de conhecimentos dos dados visando a solução de problemas de negócio. Os dados criam perspectivas que fornecem estrutura e princípios. Com isto é possivel a criação de um quadro para análise sistemática dos problemas, sugerindo diretivas tático/estratégica ao negócio fundamentos apenas em evidências fornecidas pelos dados.
Em linhas gerais, a ciência de dados abrange três principais diretivas: TI, estatística e domínio de negócios. São necessárias habilidades em áreas consideradas distintas como: aquisição e processamento de dados, estatística, inteligência artificial e pleno conhecimento das diretivas dos modelos de negócio da empresa.
Esta ciência exige conhecimentos aprofudandos na área de banco de dados (tanto relacional, quando NoSQL), processamento de dados com a ferramenta mais utilizada e comentada no momento: Hadoop e domínio dos modelos existentes de previsão. Tudo isto, em um cenário possível de grande quantidade de dados, vindos de fonte de dados distintas, gerando informações estruturadas e não-estruturadas. Este assunto envolve um outro conceito extremamente utilizado na atualidade: o Big Data. Falaremos sobre isto no próximo artigo, junto as explicações sobre este processo e este universo.
Sobre o processo de extração de conhecimento da ciência de dados, é possível abstraí-lo em três grandes classes:
Nesta classe os dados são descritos e compreendidos. Os valores podem ser registrados de forma quantitativa ou até visual. O objetivo é perceber os tipos das variáveis, comportamento e as perspectivas criadas pelos valores. O processo de entendimento do cenário e diretivas para o resultado começam nesta fase.
O objetivo é fazer afirmações sobre o universo através de um fragmento amostral. Nesta fase uma amostra dos dados é utilizada para percepção de comportamento e propriedade. Posteriormente as observações concluídas serão inferidas a base completa, possibilitando a percepção das diretivas de comportamento da base de dados.
Estudos na área de inferência estatística são essenciais para a corretude das afirmações. Utilizando dos Testes de Hipótese e Estimação de Parâmetros.
Esta classe utiliza-se de Inteligência Artificial. São utilizados algoritmos de aprendizado sobre a massa completa de dados para identificar padrões e fazer previsões sobre o futuro. Os algoritmos de Inteligência Artificial aplicam funções matemáticas específicas para aprender com as informações atuais e fazer suas previsões para os novos cenários.
Existem três grandes estilos de aprendizados dos algoritmos: supervised learning, unsupervised learning e reinforcement learning. Cada qual com suas particularidades e coerentes a determinadas situações.
As três classes abrangem uma abstração completa da ciência de dados. Seguindo estes passos, torna-se possível o entendimento da base de dados, extração do conhecimento e suas propriedades e percepção do cenário futuro.
O ponto mais importante da ciência de dados e do processo de exploração de dados é a percepção do âmbito do negócio. O requisito para o sucesso deste processo envolve a real percepção das oportunidades que os dados criam, e o pleno entendimento da necessidade do negócio. É necessária uma mudança de comportamento, e inserção da ciência nas diretivas estratégicas da empresa.
Um tópico que relaciona-se com Ciência de Dados de forma perfeita é Cloud, pois propicia grande facilidade para o desenvolvimento das soluções nos níveis de infraestrutura, plataforma, banco de dados e software. Oferece grande autonomia aos profissionais, destinando-os aos problemas e soluções ao negócio, ao invés das configurações complexas do ambiente. Cloud propicia rapidez, economia e escalabilidade. Além disto, existem muitos Softwares, contratados como serviços em cloud que são capazes de realizar o processo de ciência de dados descritos neste artigo como: Oracle Advanced Analytics, que cria modelos diretamente no Oracle Database, e o Oracle Data Visualization, que cria uma camada de visualização extremamente robusta e simplificada.
Jean Maia é bacharel em Ciência da Computação e Oracle DBA. Possui conhecimentos em Alta Disponibilidade, Backup/Recovery, Replicação e Tuning. Além de experiências com outras soluções Oracle como: Oracle Soa Suite, ODI e Oracle NoSQL. Siga Jean em seu blog: http://jeanmaiadba.blogspot.com.br
Joel Pérez é um DBA (Oracle ACE Director, Maximum Availability OCM, OCM Cloud Admin. & OCM12c/11g) Especialista com mais de 16 anos de experiência real no mundo da tecnologia Oracle, especializada na concepção e implementação de soluções: Nuvem, alta disponibilidade, recuperação de desastres, Upgrades, replicação e toda a área relacionada com bancos de dados Oracle. Joel serve como "Chief Technologist & MAA, TEM Architect" para www.Enmotech.com Yunhe ENMO (Beijing) Technology Co. Ltd. Beijing, China. OCM Perfil Joel Perez: http://education.oracle.com/education/otn/JoelPerez.htm
Este artigo foi revisto pela equipe de produtos Oracle e está em conformidade com as normas e práticas para o uso de produtos Oracle.