Qual é a diferença entre dados estruturados e não estruturados - e por que você deve se importar? Para muitas empresas e organizações, essas distinções podem parecer que pertencem apenas ao departamento de TI que lida com big data.
Embora exista alguma verdade nisso, vale a pena que todos entendam a diferença, porque quando você compreender a definição de dados estruturados e não estruturados (juntamente com onde esses dados vivem e como processá-los), verá como isso pode ser usado para melhorar qualquer processo orientado por dados.
Vendas, marketing, operações, recursos humanos - todos esses grupos produzem dados. Mesmo a menor das pequenas empresas, como uma loja física com estoque físico e uma base de clientes local, produz dados estruturados e não estruturados de coisas como e-mail, transações de cartão de crédito, compras de estoque e mídia social. Aproveitar os dados que sua empresa produz é compreender as duas e como elas funcionam juntas.
Dados estruturados são dados que usam um formato predefinido e esperado. Isso pode vir de muitas fontes diferentes, mas o fator comum é que os campos são fixos, assim como a maneira como são armazenados (portanto, estruturados). Esse modelo de dados predeterminado permite fácil entrada, consulta e análise.
Por exemplo, considere dados transacionais de uma compra on-line. Nesses dados, cada registro terá um carimbo de data e hora, valor da compra, informações de conta associadas (ou conta do hóspede), itens comprados, informações de pagamento e número de confirmação. Como cada campo tem uma finalidade definida, é fácil consultar manualmente (o equivalente a pressionar CTRL+F em uma planilha do Excel) esses dados. Também é fácil para algoritmos de aprendizado de máquina identificar padrões - e em muitos casos, identificar anomalias fora desses padrões.
Os dados estruturados são detalhados para os elementos estabelecidos e esperados. Os carimbos de data/hora chegarão em um formato definido; não transmitirão (ou não) um carimbo de data/hora descrito em palavras porque isso está fora da estrutura. Um formato predefinido permite fácil escalabilidade e processamento, mesmo que seja tratado em um nível manual.
Os dados estruturados podem ser usados para qualquer coisa, desde que a origem defina a estrutura. Alguns dos usos mais comuns nos negócios incluem formulários de CRM, transações on-line, dados de ações, dados de monitoramento de rede corporativa e formulários de site.
Assim como os dados estruturados vêm com definição, os dados não estruturados não têm definição. Em vez de campos predefinidos em um formato objetivo, os dados não estruturados podem vir em todas as formas e tamanhos. Embora normalmente o texto (como um campo de texto aberto em um formulário), os dados não estruturados podem vir em muitos formulários para serem armazenados como objetos: imagens, áudio, vídeo, arquivos de documento e outros formatos de arquivo. O thread comum com todos os dados não estruturados é uma falta de definição.
Os dados não estruturados são mais comumente disponíveis (mais sobre isso abaixo) e os campos podem não ter o mesmo caractere ou limites de espaço que os dados estruturados. Dada a ampla variedade de formatos que compõem dados não estruturados, não é surpreendente que esse tipo normalmente compõe cerca de 80% dos dados de uma organização.
Os arquivos de mídia são um exemplo de dados não estruturados. Algo como um podcast não tem estrutura para seu conteúdo. A pesquisa do arquivo MP3 do podcast não é fácil por padrão; metadados, como nome do arquivo, timestamp e tags designadas manualmente, podem ajudar na pesquisa, mas o próprio arquivo de áudio não tem contexto sem outras análises ou relacionamentos.
Isso também se aplica a arquivos de vídeo. Os ativos de vídeo estão em toda parte nos dias de hoje, desde clipes curtos nas redes sociais até arquivos maiores que mostram webinars completos ou discussões. Assim como nos arquivos do podcast MP3, o conteúdo desses dados não tem especificidade fora dos metadados. Você simplesmente não pode procurar um arquivo de vídeo específico com base em seu conteúdo real no banco de dados.
No mundo dos negócios orientado a dados de hoje, o uso de dados estruturados e não estruturados é uma boa maneira de desenvolver insights. Vamos voltar ao exemplo das publicações de mídia social de uma empresa, especificamente publicações com alguma forma de anexo de mídia. Como uma organização pode desenvolver insights sobre o engajamento de marketing?
Primeiro, use dados estruturados para classificar publicações de mídia social por maior envolvimento e, em seguida, filtre hashtags que não estão relacionadas ao marketing (por exemplo, removendo qualquer publicação de alto envolvimento com uma hashtag relacionada ao atendimento ao cliente). A partir daí, os dados não estruturados relacionados podem ser examinados - a mídia social real postar conteúdo - olhando para mensagens, tipo de mídia, tom e outros elementos que podem dar uma visão sobre por que a postagem gerou engajamento.
Isso pode parecer que muito trabalho manual está envolvido, e isso foi verdade há vários anos. No entanto, os avanços no machine learning e na inteligência artificial estão permitindo níveis de automação. Por exemplo, se os arquivos de áudio forem executados por meio do processamento de linguagem natural para criar saída de fala para texto, o texto poderá ser analisado para padrões de palavra-chave ou mensagens positivas/negativas. Esses insights são acelerados graças a ferramentas de ponta, que estão se tornando cada vez mais importantes devido ao fato de que o big data está ficando maior e que a maioria desses big data não está estruturada.
Hoje, os dados são gerados de várias fontes diferentes. Vejamos uma empresa de médio porte com uma configuração padrão de ecommerce. Nesse caso, os dados provavelmente provêm das seguintes áreas:
E pode haver muitas outras fontes de dados. Na verdade, a quantidade de dados extraídos por qualquer empresa nos dias de hoje é impressionante. Você não precisa ser uma grande corporação para fazer parte da revolução de big data. Mas a forma como você lida com esses dados é fundamental para poder utilizá-los. A melhor solução em muitos casos é um data lake.
Data lakes são repositórios que recebem dados estruturados e não estruturados. A capacidade de consolidar várias entradas de dados em uma única origem torna os data lakes parte essencial de qualquer infraestrutura de big data. Quando os dados vão para um data lake, qualquer estrutura inerente é removida para que sejam dados brutos, tornando-os facilmente escaláveis e flexíveis. Quando os dados são lidos e processados, é fornecida a estrutura e o esquema conforme a necessidade, balanceando o volume e a eficiência.
Powered by Oracle Cloud, os serviços do Oracle Big Data aceleram o gerenciamento e o processamento de dados brutos. Do armazenamento em blocos aos data lakes, a Oracle oferece soluções flexíveis que tratam de dados estruturados e não estruturados.