Oracle Big Data

¿Qué es big data?
¿Qué es big data?
 

Definición de big data

 

¿Qué es big data? (2:32)

¿Qué es, exactamente, big data?

Para entender qué significa realmente "big data", resulta útil conocer ciertos antecedentes históricos. A continuación, ofrecemos la definición de Gartner, de aproximadamente 2001 (y que continúa siendo la definición de referencia): Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como "las tres V".

Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales que antes no hubiera sido posible solucionar.

Las "tres V" de big data

Volumen

La cantidad de datos importa. Con big data, deberá procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.

Velocidad

La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.

Variedad

La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren de un preprocesamiento adicional para poder obtener significado y habilitar los metadatos.

El valor —y la realidad— de big data

En los últimos años, han surgido otras "dos V": valor y veracidad.

Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?

Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.

Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.

Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, tomen decisiones informadas y predigan comportamientos.

Pero ¿cómo hemos llegado hasta aquí?

Descargue el informe gratuito

Historia de big data

Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes conjuntos de datos se remontan a las décadas de 1960 y 1970, donde se sitúan los albores de este universo con los primeros centros de datos y el desarrollo de las bases de datos relacionales.

Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.

El desarrollo de marcos de código abierto tales como Hadoop (y, más recientemente, Spark) sería esencial para el crecimiento del big data, pues estos hacían que el big data resultase más fácil de usar y más barato de almacenar. En los años siguientes, el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son los únicos que lo hacen.

Con la llegada del Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y rendimiento de los productos. El surgimiento del aprendizaje automático ha producido aún más datos.

Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto de datos.

Ventajas de big data y de la analítica de datos:

  • El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad de información.
  • La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo que implica un enfoque completamente distinto a la hora de abordar problemas.
 

Descubra más recursos de big data


Casos de uso de big data

El big data puede ayudarle a abordar una serie de actividades empresariales, desde la experiencia de cliente hasta la analítica. A continuación, recopilamos algunas de ellas (puede encontrar más casos de uso en Soluciones Oracle Big Data).

Desarrollo de productos
Empresas como Netflix y Procter & Gamble usan big data para prever la demanda de los clientes. Construyen modelos predictivos para nuevos productos y servicios clasificando atributos clave de productos anteriores y actuales, y modelando la relación entre dichos atributos y el éxito comercial de las ofertas. Además, P&G utiliza los datos y la analítica de grupos de interés, redes sociales, mercados de prueba y avances de salida en tiendas para planificar, producir y lanzar nuevos productos.

Mantenimiento predictivo
Los factores capaces de predecir fallos mecánicos pueden estar profundamente ocultos entre datos estructurados (año del equipo, marca o modelo de una máquina) o entre datos no estructurados que cubren millones de entradas de registros, datos de sensores, mensajes de error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales antes de que estos se produzcan, las organizaciones pueden implantar el mantenimiento de una forma más rentable y optimizar el tiempo de servicio de componentes y equipos.

Experiencia del cliente
La carrera para conseguir clientes ha comenzado. Disponer de una vista clara de la experiencia del cliente es más posible que nunca. El big data le permite recopilar datos de redes sociales, visitas a páginas web, registros de llamadas y otras fuentes de datos para mejorar la experiencia de interacción, así como maximizar el valor ofrecido. Empiece a formular ofertas personalizadas, reducir las tasas de abandono de los clientes y gestionar las incidencias de manera proactiva.

Fraude y conformidad
En lo que a seguridad se refiere, no se enfrenta a simples piratas informáticos deshonestos, sino a equipos completos de expertos. Los contextos de seguridad y requisitos de conformidad están en constante evolución. El big data le ayuda a identificar patrones en los datos que pueden ser indicativos de fraude, al tiempo que concentra grandes volúmenes de información para agilizar la generación de informes normativos.

Aprendizaje automático
El aprendizaje automático es actualmente un tema de gran actualidad. Los datos —concretamente big data— son uno de los motivos de que así sea. Ahora, en lugar de programarse, las máquinas pueden aprender. Esto es posible gracias a la disponibilidad de big data para crear modelos de aprendizaje automático.

Eficiencia operativa
Puede que la eficiencia operativa no sea el aspecto más destacado en los titulares, pero es el área en que big data tiene un mayor impacto. El big data le permite analizar y evaluar la producción, la opinión de los clientes, las devoluciones y otros factores para reducir las situaciones de falta de stock y anticipar la demanda futura. El big data también puede utilizarse para mejorar la toma de decisiones en función de la demanda de mercado en cada momento.

Impulso de la innovación
El big data puede ayudarle a innovar mediante el estudio de las interdependencias entre seres humanos, instituciones, entidades y procesos, y, posteriormente, mediante la determinación de nuevas formas de usar dicha información. Utilice las perspectivas que le ofrecen los datos para mejorar sus decisiones financieras y consideraciones de planificación. Estudie las tendencias y lo que desean los clientes para ofrecer nuevos productos y servicios. Implante políticas de precios dinámicas. Las posibilidades son infinitas.


Desafíos de big data

Si bien es cierto que el big data promete mucho, también se enfrenta a desafíos.

En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos duplica su tamaño cada dos años aproximadamente. Las organizaciones continúan esforzándose por mantener el ritmo de crecimiento de sus datos y por encontrar formas de almacenarlos eficazmente.

Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder utilizarse, y esto depende de su conservación. Disponer de datos limpios —es decir, datos relevantes para el cliente y organizados de tal modo que permitan un análisis significativo— requiere una gran cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80 por ciento de su tiempo a seleccionar y preparar los datos antes de que estos puedan utilizarse.

Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache Hadoop era la tecnología más conocida utilizada para gestionar big data. Más tarde, en 2014, entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación de ambos marcos. Mantenerse al día en cuanto a tecnología de big data supone un desafío constante.

Descubra más recursos de big data

 

Cómo funciona big data

El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres acciones clave:

Integrar

El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, tales como ETL (extract, transform, load [extraer, transformar, cargar]), generalmente no están a la altura en dicha tarea. Analizar conjuntos de big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas estrategias y tecnologías.

Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén formateados y disponibles de tal forma que los analistas empresariales puedan empezar a utilizarlos.

 

Gestionar

El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, on premise o ambas. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento. La nube está aumentando progresivamente su popularidad porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.

Analizar

La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas. Construya modelos de datos con aprendizaje automático e inteligencia artificial. Ponga sus datos a trabajar.

Mejores prácticas de big data

Para ayudarle en su transición a big data, hemos recopilado una serie de mejores prácticas que debe tener en cuenta. A continuación, detallamos nuestras pautas para crear con éxito una base de big data.

   
Alinear big data con objetivos empresariales específicos

La disponibilidad de conjuntos de datos más amplios le permite realizar nuevos hallazgos. A tal efecto, es importante basar las nuevas inversiones en habilidades, organización o infraestructura con un marcado contexto empresarial para garantizar la constancia en la financiación e inversión en proyectos. Para determinar si se encuentra en el camino correcto, pregúntese en qué medida el big data respalda y habilita sus principales prioridades empresariales y de TI. Algunos ejemplos incluyen entender cómo filtrar los registros web para comprender el comportamiento del comercio electrónico, extraer el sentimiento de las redes sociales y de las interacciones de atención al cliente, así como entender los métodos de correlación estadística y su relevancia para los datos de clientes, productos, fabricación e ingeniería.

Facilite la escasez de habilidades con estándares y administración

Uno de los mayores obstáculos del big data es la escasez de habilidades. Puede mitigar el riesgo asegurándose de incorporar a su programa de administración de TI tecnologías, consideraciones y decisiones relativas a big data. Normalizar su enfoque le permitirá gestionar los costes y aprovechar los recursos. Las organizaciones que implanten soluciones y estrategias de big data deben evaluar sus necesidades de habilidades de forma temprana y frecuente, e identificar de manera proactiva las posibles carencias de habilidades. Esto puede lograrse mediante la impartición de formación o la formación cruzada entre recursos existentes, la contratación de nuevos recursos y el uso de empresas de consultoría.

Optimizar la transferencia de conocimientos con un centro de excelencia

Utilice un enfoque basado en un centro de excelencia para compartir conocimientos, supervisar el control y gestionar las comunicaciones de proyectos. Tanto si el big data es una inversión nueva o en expansión, los costes directos e indirectos pueden distribuirse en toda la empresa. Utilizar este enfoque puede contribuir a incrementar las capacidades de big data y la madurez del conjunto de la arquitectura de información de una forma más sistemática y estructurada.

La principal ventaja reside en alinear los datos estructurados y no estructurados

Analizar el big data de forma aislada sin duda aporta valor. Sin embargo, puede obtener una perspectiva empresarial aún más valiosa relacionando e integrando el big data de baja densidad con los datos estructurados que ya usa actualmente.

Tanto si está recopilando big data de clientes, de productos, de equipos o ambientales, el objetivo es añadir puntos de datos más relevantes a sus resúmenes maestros y analíticos, lo que le permitirá obtener mejores conclusiones. Por ejemplo, existe una diferencia en distinguir la percepción de todos los clientes de la de solo sus mejores clientes. Por eso, muchos consideran que big data constituye una extensión integral de sus capacidades existentes de inteligencia empresarial, de su plataforma de almacenamiento de datos y de su arquitectura de información.

Tenga en cuenta que los modelos y procesos analíticos de big data pueden ser tanto humanos como automáticos. Las capacidades de análisis de big data incluyen estadísticas, análisis especiales, semántica, detección interactiva y visualización. Mediante el uso de modelos analíticos, puede relacionar distintos tipos y fuentes de datos para realizar asociaciones y hallazgos significativos.

Planificar el laboratorio de hallazgos en pro del rendimiento

El concepto "hallazgo" implica que los datos no siempre se obtienen directamente. En ocasiones, ni siquiera sabemos qué estamos buscando. Eso es de esperar. La dirección y los equipos de TI deben respaldar esta “falta de dirección” o “falta de claridad en los requisitos.”

Al mismo tiempo, es importante que analistas y científicos de datos colaboren estrechamente con la empresa para entender las principales necesidades y carencias de conocimientos de la empresa. Para incorporar el estudio interactivo de los datos y la experimentación de algoritmos estadísticos, necesita contar con áreas de trabajo de alto rendimiento. Asegúrese de que los entornos de pruebas (sandbox) tienen la potencia necesaria y están correctamente gobernados.

Alineación con el modelo operativo en la nube

Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos de experimentación reiterativa y ejecución de tareas de producción. Una solución de big data incluye todos los ámbitos de los datos, incluidas transacciones, datos principales, datos de referencia y datos resumidos. Los entornos de pruebas (sandboxes) analíticos deben crearse on-demand. La gestión de recursos es fundamental para garantizar el control de todo el flujo de datos, incluido el procesamiento previo y posterior, la integración, el resumen dentro de la base de datos y la creación de modelos analíticos. Disponer de una estrategia bien definida de aprovisionamiento y seguridad en la nube pública y privada es fundamental para respaldar estos requisitos cambiantes.