Aprendizaje automático y analítica: una guía experta

Michael Chen | Escritor sénior | 22 de octubre de 2024

El aprendizaje automático y la analítica se han convertido en herramientas indispensables para las empresas que buscan extraer insights valiosos de sus datos. Al usar potentes algoritmos y modelos estadísticos, las organizaciones pueden descubrir patrones ocultos, tomar decisiones más basadas en datos y obtener una ventaja competitiva en el mercado en rápida evolución de hoy.

Si bien los equipos pueden analizar datos sin aprendizaje automático, los resultados pueden no estar a la altura de las expectativas. El hecho es que ML aumenta significativamente las capacidades de las plataformas de analítica.

¿Qué es el machine learning?

El aprendizaje automático es un subconjunto de la inteligencia artificial que usa algoritmos entrenados en grandes conjuntos de datos para reconocer tendencias, identificar patrones y relaciones, y luego usar esa información para hacer predicciones o informar decisiones sin ser explícitamente programado y con mínima intervención humana.

La tecnología de aprendizaje automático tiene aplicaciones en muchas industrias, incluyendo salud, finanzas, marketing y ciberseguridad. Los resultados mejoran a través de un proceso de aprendizaje iterativo que se enfoca en aumentar la precisión, agregar personalización y reducir errores en el modelo.

¿Qué es la analítica?

La analítica es el proceso de derivar insights de los datos y usarlos para sacar conclusiones o tomar decisiones. Implica recopilar, limpiar y organizar datos para identificar tendencias, correlaciones y patrones. Al usar varias técnicas estadísticas y matemáticas, la analítica ayuda a las organizaciones a tomar decisiones mejor fundamentadas, mejorar el rendimiento y optimizar las operaciones.

La analítica está relacionada con el campo de la estadística, que proporciona los conceptos subyacentes que ayudan a las empresas a entender sus datos y usarlos para impulsar el crecimiento y el éxito. En los negocios, el término analítica a menudo se refiere al uso de software para clasificar datos, encontrar relaciones únicas y presentar hallazgos de manera accesible a través de visualizaciones.

Conclusiones clave

  • El aprendizaje automático y la analítica son tecnologías simbióticas.
  • El aprendizaje automático puede acelerar y ampliar las capacidades de la analítica, incluyendo identificar patrones e insights que a menudo se pasan por alto por otros medios.
  • La analítica genera valor organizacional procesando datos dentro de un contexto apropiado para producir insights accionables.
  • Para proyectos tanto de aprendizaje automático como de analítica, considera monitoreo continuo para revisar sesgos ocultos e imprecisiones.

Explicación de aprendizaje automático y analítica

Los esfuerzos de analítica se benefician significativamente de la aplicación de aprendizaje automático y otras técnicas de IA. Las herramientas de analítica que no dependen de aprendizaje automático usan algoritmos estáticos que pueden pasar por alto patrones poco evidentes pero importantes en los datos. El aprendizaje automático puede encontrar esos patrones y, si es necesario, examinar conjuntos de datos más grandes y variados de lo que las herramientas de analítica heredadas pueden manejar.

¿La analítica incluye aprendizaje automático?

La analítica no necesariamente requiere aprendizaje automático. Durante años, las empresas usaron herramientas basadas en análisis estadístico para analizar tendencias en los datos, predecir resultados futuros y evaluar la efectividad de las estrategias. Sin el beneficio de ML, buscaban responder preguntas como: ¿qué tan bien funcionó nuestra estrategia de descuentos de temporada? ¿Qué productos o servicios son más populares con este segmento de clientes? ¿Cuáles son los más rentables? Si bien los métodos tradicionales podían producir respuestas, sin ML el proceso está limitado en alcance y en el número de puntos de datos disponibles.

Para encontrar respuestas, el procesamiento analítico en línea, u OLAP, se ha usado durante décadas para tomar un segmento de datos transaccionales y analizarlo usando análisis estadístico clásico. Cuando los datos son estructurados, como en una base de datos relacional, OLAP es altamente efectivo. Sin embargo, cuando los datos son tanto estructurados como no estructurados e incluyen información no numérica sobre el negocio, el análisis estadístico no puede proporcionar el mismo nivel de insight. Entre otros beneficios, el ML permite a los analistas identificar patrones no lineales más complejos, incluso en fuentes de datos no estructuradas.

A medida que las organizaciones ponen más datos no estructurados en sus data warehouses, el ML será cada vez más importante para analizarlos todos.

¿Por qué son importantes el aprendizaje automático y la analítica para los negocios?

Juntos, el aprendizaje automático y la analítica extraen insights valiosos y predicciones de una amplia gama de datos. Eso puede proporcionar una ventaja competitiva a los negocios porque hoy, los datos provienen de todas partes y, en algunos casos, todo el tiempo: métricas operativas internas, inventarios de proveedores y vendedores, resultados de campañas de marketing, datos de aplicaciones de clientes, datos relacionados de fuentes públicas, datos financieros, datos generados por dispositivos del Internet de las Cosas: el ecosistema tecnológico moderno genera datos de casi todas las interacciones y los envía a un data warehouse o repositorio basado en la nube, como un data lake.

Esa es mucha información, y presenta muchas oportunidades para que los negocios encuentren insights sobre operaciones, marketing, cadena de suministro y mucho más, pero solo si pueden analizar grandes volúmenes de datos diversos. Introducción al aprendizaje automático. Con el aprendizaje automático, todo el proceso de business analytics se vuelve más manejable y amplio en alcance por razones que incluyen lo siguiente:

  • La automatización a través de machine learning puede hacer que los procesos de transformación de datos, como la limpieza de datos y el reconocimiento de problemas de calidad de datos, sean más eficientes.
  • El aprendizaje automático dentro de las herramientas de analítica puede generar insights de tipo “momento ajá” basados en consultas simples de usuarios de negocio.
  • Las herramientas de analítica basadas en machine learning también pueden identificar patrones ocultos en datos complejos, generando nuevas ideas y discusiones que pueden crear nuevas oportunidades.

Agregando a la emoción actual en torno a la analítica potenciada por ML está la escalabilidad y flexibilidad que ofrecen los data warehouses y herramientas de analítica basados en la nube. Grandes cantidades de datos y algoritmos complejos de aprendizaje automático demandan mucho poder de cómputo para un análisis eficiente. Y dado que este es un espacio en rápida evolución, los desarrolladores y científicos de datos que buscan construir e implementar nuevos modelos se benefician de herramientas y servicios en línea diseñados específicamente para aprendizaje automático y analítica. La nube permite a las organizaciones usar las últimas innovaciones en análisis de datos mientras brinda acceso fácil a cualquiera en la organización con las credenciales adecuadas para usar el sistema.

Uso del aprendizaje automático en la analítica empresarial

Una vez que una organización recopila entradas de varias fuentes en un repositorio, los sistemas de aprendizaje automático pueden comenzar a procesar grandes volúmenes de datos en apoyo de iniciativas estratégicas. Estas iniciativas pueden formar parte de operaciones, marketing, logística e incluso participación pública en redes sociales.

Aquí hay algunos usos populares de aprendizaje automático en analítica empresarial.

  • Segmentación de clientes: el aprendizaje automático es útil en ambos lados de la ecuación de segmentación de clientes. Para determinar qué perfiles de compradores pertenecen a qué segmentos de clientes, el aprendizaje automático puede analizar historiales de compras y datos de interacción para generar categorizaciones. En el otro lado, el aprendizaje automático puede determinar rápidamente la eficacia de campañas en segmentos específicos, dando al equipo de marketing margen para ajustar mensajes u otros factores de campaña.
  • Detección de fraude: el aprendizaje automático puede identificar patrones potencialmente fraudulentos considerando la geografía, frecuencia de compra, tipos de compra, monto gastado y otros detalles de transacciones individuales y comparándolos con perfiles de clientes. Usando capacidades de detección de anomalías, el sistema puede marcar rápidamente actividad fuera de lo común y enviar transacciones potencialmente ilegítimas para una investigación más profunda.
  • Gestión de la cadena de suministro: las cadenas de suministro pueden involucrar una variedad de partners, mayoristas y proveedores logísticos de todo el mundo. Cuando interrumpen el flujo de bienes necesarios, los eventos locales pueden convertirse rápidamente en preocupación de fabricantes y minoristas a miles de kilómetros de distancia. El aprendizaje automático puede recopilar y analizar datos de proveedores y empresas logísticas para identificar interrupciones potenciales y reales. Además, los sistemas de ML correlacionan datos con cronogramas de manufactura para determinar problemas temporales así como detectar tendencias que pueden llevar a optimización de costos y procesos, como identificar proveedores propensos a fallas de piezas o entregas tardías.
  • Análisis de sentimiento: el análisis de sentimiento toma texto de mensajes, transcripciones y reseñas; determina el tono general; y luego analiza más a fondo los datos para insights de marketing y ventas. El aprendizaje automático es necesario para procesar grandes volúmenes de datos textuales de fuentes diversas lo suficientemente rápido como para ajustar si, por ejemplo, a un producto le falta con frecuencia una pieza clave o un representante de servicio es problemático.
  • Análisis predictivo: la analítica predictiva sin ayuda de aprendizaje automático ha sido un pilar del análisis empresarial desde que se llevan registros. Gráficas simples de ventas del año anterior comparadas con las ventas del año actual son el punto de partida, y los estadísticos han avanzado mucho en la ciencia de predecir el futuro a partir del pasado. El aprendizaje automático se basa en esa herencia al procesar más datos de manera más precisa y usando metodologías más complejas. El ML también ayuda en el análisis de escenarios hipotéticos que guían el pensamiento de los líderes de negocio.
  • Optimización de precios: ¿a qué precio se maximiza la ganancia? Demasiado caro, y no muchas personas comprarán. Demasiado barato y los márgenes sufren. Más allá de los hábitos de consumo, factores como precios de la competencia, estacionalidad, clima y escasez de inventario forman un algoritmo de precios complejo y dinámico. El aprendizaje automático y la analítica de datos pueden clasificar todos estos datos para crear escenarios de precios óptimos.

Entendiendo la analítica

Siempre es útil revisar las acciones que has tomado para determinar si lograste el mejor resultado posible. Reflexionar sobre el rendimiento pasado generalmente lleva a mejoras la próxima vez. La analítica siempre debe tener este tipo de objetivos: ¿qué puedes lograr al encontrar insights accionables en los datos?

El análisis estadístico de datos numéricos es un punto de partida valioso. Pero eso potencialmente deja muchos datos sin analizar o, como mínimo, produce resultados lentos mientras abre la puerta al error humano. El ML puede ayudar a ampliar el análisis para encontrar insights que no se detectan fácilmente de otra manera.

Tipos de analítica

Las empresas tienen una amplia gama de tipos y técnicas de analítica para elegir, y la mejor opción para un proyecto a menudo depende de lo que el equipo quiere obtener de sus datos. Las siguientes son cuatro categorías de analítica.

  • Análisis descriptivo. Los sistemas de analítica descriptiva toman datos históricos y determinan patrones y métricas para derivar insights necesarios para crear un análisis situacional. Por ejemplo, un modelo financiero podría recibir datos de ventas, marketing, RR. HH. y gastos para crear un análisis trimestral para una organización. Los paneles de control suelen ser la forma de visualizar la analítica descriptiva.
  • Analítica de diagnóstico. Los sistemas de analítica diagnóstica toman datos históricos para encontrar la causa raíz de una situación, tendencia o relación. Por ejemplo, si una organización ve un aumento en las quejas sobre la calidad de un producto específico, puede emplear una herramienta analítica diagnóstica que considere datos desde la cadena de suministro hasta la entrega del producto para determinar si la causa raíz está en un material particular, un paso de fabricación u otra causa.
  • Analítica predictiva. Los sistemas de analítica predictiva crean un pronóstico del rendimiento futuro basado en datos actuales e históricos relevantes. La predicción puede relacionarse con cualquier cosa: modelos climáticos, niveles óptimos de inventario, comportamiento del cliente en una campaña de marketing. Cuantos más datos, mejor para crear un perfil situacional que permita obtener insights predictivos.
  • Análisis prescriptivo. La analítica prescriptiva es similar a la analítica predictiva, pero va más allá sugiriendo soluciones a los problemas encontrados. Por ejemplo, un sistema de analítica predictiva podría pronosticar ventas estancadas para el próximo trimestre. La analítica prescriptiva puede combinar datos históricos y análisis de mercado para producir acciones prescriptivas que superen proyecciones de ventas más débiles.

Pasos en el proceso de analítica

En general, el proceso requiere recopilar y limpiar datos, elegir una técnica, interpretar resultados y comunicar insights a las partes interesadas. La colaboración entre analistas de datos, expertos en el dominio y responsables de decisiones puede ser útil para garantizar que los insights generados sean relevantes e impactantes.

  1. Identificar el problema. Toda analítica debe abordar un problema de negocio. ¿Estás tratando de analizar datos de marketing? ¿Descubrir qué impulsa la rotación de empleados? ¿Encontrar el eslabón débil en tu cadena de suministro? Identificar el problema crea un punto de partida para los proyectos de analítica.
  2. Recopilar y limpiar los datos. Ahora que los objetivos del proyecto están establecidos, identifica las fuentes de datos que necesita la plataforma de analítica. Las opciones incluyen usar un sistema iPaaS que vincule fuentes de datos o conectarse a un repositorio como un data lake o un data warehouse. Para garantizar compatibilidad y precisión, los datos también necesitan el formato adecuado para su procesamiento. La limpieza generalmente implica eliminar entradas duplicadas y desnormalizar datos antes del análisis. Para fuentes de datos repetibles, el aprendizaje automático puede ayudar a automatizar parte del proceso de limpieza y transformación para mejorar la eficiencia.
  3. Explorar y visualizar los datos. Usando herramientas de analítica, puedes crear visualizaciones de datos y generar insights iniciales. Este proceso crea hallazgos generales que establecen los parámetros de cualquier hipótesis basada en datos que servirá como base de los modelos de datos, incluyendo qué conjuntos de datos proporcionan más valor.
  4. Modelar los datos. Con una comprensión básica del objetivo y de las fuentes de datos disponibles, los ingenieros de datos construyen modelos para estructurar y organizar los datos, cerrando la brecha entre los datos sin procesar y los datos listos para almacenamiento y recuperación por aplicaciones de analítica.
  5. Evaluar el modelo. Aquí es donde analizas. Con el modelo de datos listo, los equipos pueden comenzar el proceso de análisis para lograr los objetivos iniciales del proyecto. El análisis de datos puede involucrar diferentes formas de análisis estadístico, incluyendo el uso de lenguajes de programación y herramientas de analítica.
  6. Despliegue y supervisión. Ahora es momento de actuar. Con los informes y visualizaciones listos, los usuarios pueden presentar hallazgos a las partes interesadas para comenzar discusiones sobre decisiones críticas. Con la analítica, las recomendaciones se basan en la evidencia encontrada en los datos y se presentan claramente con visualizaciones, a menudo con insights más profundos que las técnicas de evaluación tradicionales o manuales.
  7. Técnicas clave en la analítica

    La práctica de la analítica se basa en varias técnicas establecidas en el campo de la estadística, luego llevadas a escala a través de las capacidades del aprendizaje automático. Algunas de las técnicas más comunes usadas en la analítica son las siguientes:

    • Análisis de regresión. El análisis de regresión es una de las técnicas principales en el modelado de datos y estadístico. Con el análisis de regresión, el modelo de aprendizaje automático analiza los datos para ver qué variables influyen en un resultado y en qué medida. El análisis de regresión abarca una familia de técnicas, incluyendo regresión lineal, regresión no lineal y regresión logística.
    • Agrupación en clústeres. La agrupación en clusters es un tipo de análisis que se utiliza con modelos de aprendizaje automático sin supervisión. Con el clustering, un modelo de aprendizaje automático explora un conjunto de datos para encontrar grupos más pequeños de datos relacionados, luego deriva conexiones y patrones de esos grupos más pequeños para generar un mayor entendimiento.
    • Análisis de series de tiempo. En estadística y modelado de datos, el análisis de series temporales observa puntos de datos recopilados dentro de un rango de tiempo específico para detectar patrones, cambios e impacto de variables con el fin de crear un modelo de predicción. Uno de los ejemplos más comunes de análisis de series temporales son los datos meteorológicos a lo largo de un año para predecir patrones estacionales.
    • Minería de reglas de asociación. Algunos de los insights de datos más significativos pueden provenir de identificar patrones y encontrar relaciones interesantes dentro de grandes conjuntos de datos, una de las ideas principales de la analítica de gráficos. La minería de reglas de asociación es un tipo de aprendizaje automático que encuentra conexiones ocultas y puntos en común en las relaciones de variables. Por ejemplo, una cadena de comida rápida podría usar la minería de reglas de asociación para encontrar artículos que comúnmente se pidan juntos, luego ofrecerlos como paquetes con descuento para atraer clientes.
    • Minería de texto. La minería de texto es una forma de aprendizaje automático no supervisado que toma texto entrante de fuentes como correos electrónicos, comentarios en sitios web o publicaciones en redes sociales, luego usa procesamiento de lenguaje natural para derivar patrones significativos. Estos patrones luego pueden asociarse con otras variables, como métricas de interacción o datos de ventas, para impulsar el entendimiento de intención y sentimiento.

Entendiendo el aprendizaje automático

En esencia, el aprendizaje automático trata de encontrar conexiones y patrones dentro de los datos. El ML hace esto usando técnicas tan sencillas como árboles de decisión y tan complejas como redes neuronales, con sus capas más profundas capaces de proporcionar relaciones no lineales en los datos. Sin embargo, sin importar el método, el aprendizaje automático ayuda a las organizaciones a mejorar procesos engorrosos y profundizar en sus datos para impulsar una mayor productividad y mejores decisiones.

Tipos de aprendizaje automático (ML)

Existe una amplia gama de modelos de aprendizaje automático según los recursos, objetivos y limitaciones de un proyecto. Entender los diferentes tipos de técnicas de aprendizaje automático permite a los equipos hacer la elección correcta para su proyecto. Los tipos comunes de aprendizaje automático incluyen lo siguiente:

  • Supervisado. En el aprendizaje supervisado, los algoritmos de ML se entrenan con conjuntos de datos etiquetados con el objetivo de identificar patrones conocidos para refinar iterativamente la precisión de los resultados. Este proceso se caracteriza como supervisado porque la cantidad de parámetros conocidos involucrados permite una medición clara de la mejora del modelo.
  • No supervisado. El aprendizaje no supervisado permite que los modelos de aprendizaje automático procesen conjuntos de datos no etiquetados sin metas o métricas en mente. En cambio, un enfoque no supervisado proporciona un espacio de exploración para el aprendizaje orgánico mediante la detección de patrones, detección de relaciones u otras formas de generar insights. Cuando tiene éxito, los modelos entrenados a través de aprendizaje no supervisado podrán imitar adecuadamente el entorno presentado por el conjunto de datos y, por lo tanto, formar predicciones precisas.
  • Semisupervisado. El aprendizaje semisupervisado combina técnicas supervisadas y no supervisadas para acelerar el proceso de aprendizaje automático. Con el aprendizaje semisupervisado, un modelo obtiene una ventaja inicial usando una pequeña cantidad de datos etiquetados. Después de terminar con ese conjunto de datos, el modelo comienza a explorar un conjunto de datos más grande sin etiquetar para aplicar lo aprendido en el primer paso antes de refinar sus predicciones de manera orgánica y no supervisada.
  • Aprendizaje por refuerzo. El aprendizaje por refuerzo se refiere al proceso de permitir que un modelo explore un conjunto de datos con el propósito de lograr un resultado específico. Cada decisión en el camino genera retroalimentación en términos de refuerzo positivo o negativo, lo que luego informa al modelo mientras sigue ajustando para anticipar una respuesta adecuada a las situaciones.

Pasos en el proceso de aprendizaje automático

Independientemente de tus objetivos y parámetros para tu modelo de aprendizaje automático, estos proyectos a menudo siguen un proceso estándar. Entender este proceso antes de comenzar un proyecto proporciona una hoja de ruta para la asignación de recursos y la planificación del presupuesto a lo largo de todo el ciclo de vida del aprendizaje automático.

Aquí están los pasos comunes para desarrollar modelos de aprendizaje automático.

  1. Identificar el problema. ¿Cuál es el propósito de tu modelo de aprendizaje automático? Más importante aún, ¿otros ya han producido modelos para esa tarea y, de ser así, uno es suficiente para tus objetivos? Cada proyecto necesita poder resolver un problema, y la calidad de esa solución debe definir los parámetros del proyecto desde el punto de partida hasta las métricas que dictan el éxito.
  2. Recopilar y limpiar los datos. Para impulsar cualquier proyecto de aprendizaje automático, necesitas datos. Eso significa identificar fuentes de datos de entrenamiento similares a los datos que el modelo entrenado encontrará en el uso general y luego recopilar y transformar esos datos en un formato unificado y compatible, libre de duplicados y errores. Descuidar este paso podría crear sesgos que distorsionen o incluso descarrilen un proyecto. Tomarse el tiempo para gestionar cuidadosamente el conjunto de datos de un proyecto es una inversión para garantizar el éxito.
  3. Ingeniería de características. No todo en un conjunto de datos es necesario para entrenar un modelo de aprendizaje automático. Un paso inicial crucial para el aprendizaje automático es identificar parámetros importantes para el proyecto y luego curar conjuntos de datos que presenten diversidad en torno a esos parámetros. La ingeniería de características requiere iteración dirigida por expertos, lo que finalmente impulsa transformaciones al agregar, eliminar o combinar datos para un mayor contexto que mejore la precisión del modelo.
  4. Seleccionar y entrenar el modelo. Los objetivos de tu proyecto determinarán una lista corta de técnicas de aprendizaje automático. Las limitaciones prácticas, como recursos de cómputo, cronograma del proyecto, disponibilidad de fuentes de datos de calidad y la experiencia de los miembros del equipo pueden reducir las opciones y finalmente dictar el mejor ajuste para un proyecto. Una vez seleccionado, el modelo se entrena de manera iterativa con un conjunto de datos de entrenamiento curado, refinando resultados hasta lograr precisión consistente.
  5. Evaluar el modelo. Un modelo entrenado con éxito ofrece resultados repetibles, explicables y precisos. Evalúa tu modelo entrenado usando datos del mundo real para medir qué tan bien funciona fuera de su conjunto de datos de entrenamiento. La evaluación le dice a los equipos qué tan cerca está el proyecto de cumplir sus objetivos originales.
  6. Despliegue y supervisión. Si un modelo maneja con éxito datos de prueba del mundo real de manera consistente, está listo para un entorno de producción. Aunque la implementación debe ocurrir solo después de cumplir ciertos puntos de referencia, eso no marca el final de la evolución del modelo. Los equipos deben monitorear continuamente los resultados de un modelo para asegurarse de que mantenga precisión, consistencia y otros resultados deseados, y si los resultados se desvían, descubrir por qué.
  7. Técnicas clave en el aprendizaje automático

    Muchas técnicas de aprendizaje automático están en uso, pero no todas necesariamente se aplican a los objetivos o limitaciones de un proyecto. El truco para un aprendizaje automático exitoso es saber qué técnica seleccionar en función de los parámetros individuales de tu proyecto.

    Las técnicas populares usadas en el aprendizaje automático incluyen las siguientes:

    • Árboles de decisión: los árboles de decisión usan aprendizaje supervisado para entender las diversas opciones a considerar a medida que los elementos avanzan a través de un flujo de trabajo. Por ejemplo, cuando llega una nueva factura, se deben tomar ciertas decisiones antes de pagarla. Los árboles de decisión pueden ayudar en el análisis de regresión y el clustering para determinar, por ejemplo, si una factura es válida, con una factura completa frente a posiblemente fraudulenta o faltante de los datos requeridos para el pago.
    • Bosques aleatorios. Un solo árbol de decisión proporciona solo una vista limitada de una situación. Los bosques aleatorios se refieren a la técnica de combinar múltiples árboles de decisión —de ahí, un bosque— para crear un resultado acumulativo con una perspectiva más amplia. Los bosques aleatorios superan muchas de las limitaciones de los árboles de decisión y ofrecen mayor flexibilidad tanto en función como en alcance. En la detección de fraude, por ejemplo, la decisión sobre si una transacción es legítima o no puede depender de muchos factores, como de dónde se originó la transacción, si la combinación de artículos es típica para un cliente y si el tamaño de la compra es inusual. Los árboles de decisión dentro de un bosque pueden manejar cada parámetro de evaluación.
    • Máquinas de soporte vectorial. A veces los datos caen naturalmente en clústeres, sean obvios o no. Las máquinas de soporte vectorial (SVM) son un tipo de aprendizaje supervisado que busca formas de maximizar la diferencia o distancia entre dos clústeres de datos. A veces hay una línea divisoria lineal obvia entre agrupaciones de datos, a veces la función divisoria es no lineal. Si no hay un clúster obvio en vistas bidimensionales, las SVM pueden usar análisis de mayor dimensión para encontrar formas de agrupar datos.
    • Redes neuronales: las redes neuronales organizan nodos de cómputo de una manera similar a las redes de neuronas en nuestro cerebro. Cada capa dentro de una red neuronal aplica funciones únicas para determinar cómo deben clasificarse los datos de entrada y si se pueden hacer predicciones a partir de los datos de entrada.
    • Aumento de gradiente: cada predicción de un modelo de aprendizaje automático viene con un nivel de confianza. Por ejemplo, supongamos que una transacción parece fraude con 0,8 de confianza, donde 1,0 es certeza total. Esa es una predicción bastante segura. Cuando un modelo hace su evaluación, algunos cálculos en el camino contribuirán significativamente a la predicción, mientras que otros no aportarán mucho. En muchos modelos, los contribuyentes bajos se descartan porque aparecen por sí mismos como ruido. El aumento de gradiente busca combinar algunos de estos contribuyentes bajos de una manera que les permita contribuir más significativamente a la predicción, reduciendo así las tasas de error y aumentando las calificaciones de confianza.

Desafíos en la analítica y el aprendizaje automático

El aprendizaje automático y la analítica dependen de muchas de las mismas técnicas. Debido a eso, ambos esfuerzos enfrentan desafíos similares, ya sea tomados por separado o como un proyecto combinado de “analítica potenciada por aprendizaje automático”. A continuación, algunos desafíos comunes que enfrentan los equipos de proyectos.

  • Calidad de los datos: el aprendizaje automático requiere muchos datos. Pero cuando esos datos están llenos de formatos inconsistentes, duplicados y otros problemas, puede distorsionar el proceso de entrenamiento del modelo. La calidad de los datos es uno de los principales desafíos para crear un modelo efectivo, pero ten en cuenta que cuando se trata de ML, “calidad” significa que los datos estén formateados adecuadamente y reflejen lo que el modelo verá en escenarios reales. Si los datos de entrenamiento son demasiado limpios y no representan la variabilidad del mundo real que el modelo experimentará en producción, puede sobreajustarse a los datos de entrenamiento —es decir, ser incapaz de manejar la variabilidad y complejidad presentes en los conjuntos de datos reales. Las organizaciones deben emplear estrategias para mantener la calidad de los datos, incluyendo examinar fuentes de datos, aplicar técnicas de transformación adecuadas y realizar deduplicación regular. Pero deben encontrar un equilibrio, limpiando los datos lo suficiente para eliminar ruido y errores mientras aún retienen variedad.
  • Selección y optimización de algoritmos: cada proyecto viene con necesidades específicas y, dependiendo de los objetivos del proyecto, diferentes técnicas y algoritmos serán el mejor ajuste. A veces esas elecciones parecen obvias, como si supieras que la naturaleza estructurada de los árboles de decisión funcionará para el alcance y la naturaleza del problema en cuestión. En otros casos, la selección del modelo no es tan clara. Documenta las características de tus datos, como tamaño, tipo y complejidad, luego considera el problema que buscas resolver. ¿Cuánta potencia de procesamiento se requiere para entrenar y usar el modelo, y puede escalar para manejar tus datos? Es mejor empezar de manera más simple y aumentar la complejidad. Herramientas como AutoML pueden ayudar a automatizar las pruebas y la selección del mejor algoritmo para tu proyecto.
  • Sobreajuste y subajuste: si los datos de entrenamiento no le dan al modelo un equilibrio adecuado de amplitud y calidad, puede ocurrir sobreajuste o subajuste. El sobreajuste sucede cuando los datos de entrenamiento contienen solo ciertos géneros de datos. Si quieres una aplicación que pueda identificar títulos de canciones y cantantes, pero solo le das música country durante el entrenamiento, se perderá cuando se trate de rock o R&B. El subajuste se refiere a lo contrario: el modelo no ha sido entrenado lo suficiente y falla incluso en consultas obvias o entradas impecables.
  • Interpretabilidad y explicabilidad: la interpretabilidad y la explicabilidad son propiedades similares pero distintas de un modelo de IA. Cuando la salida de un modelo de IA es explicable, entendemos lo que nos dice y, a un nivel alto, de dónde vino la respuesta. Si la IA generativa escribe un resumen de cuatro párrafos de una reunión de junta, puedes leer las actas de la reunión y entender cómo el sistema eligió escribir lo que hizo. O si un modelo predice que un producto aumentará sus ventas en 3% este año, puedes ver los reportes de ventas y entender de dónde salió ese número. Eso es explicabilidad.

    Interpretabilidad significa entender qué hizo el modelo para llegar a los detalles de su respuesta. ¿Por qué el sistema GenAI eligió las palabras que eligió en el orden en que las eligió al resumir esa reunión de la junta directiva? ¿Qué cálculos usó para llegar a ese pronóstico de aumento de 3 % en ventas? Cuando la IA cita sus fuentes, mejora la explicabilidad. Pero a medida que los modelos se vuelven más complejos, son cada vez menos interpretables.

Mejores prácticas en analítica y aprendizaje automático

La analítica y el aprendizaje automático comparten prácticas comunes en cuanto a factores como fuentes de datos, algoritmos y métricas de evaluación. Las siguientes cubren prácticas comunes para ambos.

  1. Definir el problema y las métricas de éxito: ¿cuál es el propósito de tu proyecto de analítica? Esa simple pregunta es la base de todo lo que ocurre después. Saber qué problema intentas resolver, y decisiones como la selección de algoritmos y fuentes de datos se desprenden de ahí. Eso establece el punto de partida, pero la meta también necesita definición. ¿Cómo medirás el éxito? Esas dos preguntas proporcionan el marco general para un proyecto, y desde ahí los equipos pueden empezar a llenar los detalles.
  2. Usar conjuntos de datos diversos y de alta calidad: los resultados de un proyecto son tan buenos como los datos de origen. Conjuntos de datos de baja calidad con problemas como duplicación y fuentes irrealmente uniformes crean problemas: en el mejor de los casos, distorsionan los resultados; en el peor, llevan a conclusiones erróneas que le cuestan a la empresa tiempo, dinero y clientes. Para la analítica y la IA, los conjuntos de datos deben ser actuales y reflejar condiciones del mundo real, además de aportar una gama de perspectivas relevantes pero diversas.
  3. Elija los algoritmos y la arquitectura de modelos adecuados: las técnicas de aprendizaje automático se han desarrollado para fines específicos. Los sistemas de detección de anomalías son diferentes de los de clustering jerárquico o de identificación de objetos. Algunos métodos de ML requieren más potencia de procesamiento y pueden ser malas elecciones para aplicaciones más simples. De manera similar, los modelos de analítica también tienen sus mejores usos. Vale la pena probar algunos algoritmos diferentes en tus datos y comparar su desempeño.
  4. Regularizar y optimizar modelos: en ML, el sobreajuste ocurre cuando el conjunto de entrenamiento del modelo carece de la diversidad que estará presente en el uso en producción. Si un modelo está altamente entrenado en un conjunto de datos limitado, puede no ser capaz de interpretar entradas diferentes a las de su conjunto de entrenamiento. La regularización busca eliminar el sobreajuste y hacer que el modelo sea más aplicable de forma general. La optimización ajusta un modelo de manera iterativa para garantizar alta precisión.
  5. Comunicar resultados con claridad: las prácticas enumeradas arriba involucran elementos técnicos de los proyectos. Sin embargo, una de las claves más importantes para el éxito a menudo se pasa por alto: comunicar resultados. Los equipos pueden estar enfocados en afinar modelos o auditar fuentes de datos y olvidar que los actores clave necesitan saber cómo va el proyecto. Eso requiere comunicación clara con métricas accionables y una evaluación concisa de “¿cómo va todo?”.

Casos de uso y aplicaciones de analítica y aprendizaje automático

¿Cómo se aplican la analítica y el aprendizaje automático en el mundo real? Mientras existan datos, las organizaciones en cualquier industria pueden integrar analítica y aprendizaje automático. De hecho, diferentes departamentos, como ingeniería, operaciones, marketing y ventas, pueden usarlos de distintas maneras. Las siguientes cubren solo algunos de los casos de uso que muestran los beneficios de la analítica y el aprendizaje automático (PDF) en una variedad de industrias y funciones.

  • Marketing: los departamentos de marketing obtienen datos de todo tipo de vías: seguimiento de interacción en correos electrónicos y publicaciones en redes sociales, historiales de compras, uso de aplicaciones, comportamiento de navegación y más. ¿Qué hacer con ese torrente de información? Los sistemas de aprendizaje automático pueden compilarlo para buscar patrones específicos y construir un perfil impulsado por analítica de clientes individuales y segmentos para usuarios de negocio. A partir de ahí, las decisiones basadas en datos pueden activar estrategias adicionales como ofertas microsegmentadas o interacción estacional por demografía.
  • Finanzas: cuando los datos de toda una organización se consolidan, los departamentos de finanzas pueden usar aprendizaje automático para compilar esos volúmenes masivos y descifrarlos con analítica. Los insights resultantes pueden dar una mirada más cercana a factores críticos, como flujo de caja, tendencias de nómina y patrones de compra de activos. La analítica puede derivar nuevos niveles de insights a través de la detección de tendencias y predicciones basadas en modelos, al mismo tiempo que brinda asistencia con la detección de fraude.
  • Salud: entre registros médicos electrónicos, dispositivos conectados y métricas operativas de las instalaciones, el aprendizaje automático y la analítica pueden trabajar juntos para ayudar a las organizaciones de salud a optimizar operaciones y ofrecer mejor atención individual. Para las operaciones, el personal puede escalar hacia arriba o hacia abajo según ciclos de uso comprobados activados por factores como la estación y el clima. Para los individuos, los insights basados en datos pueden dar señales sobre cuándo reservar ciertos exámenes o tratamientos prometedores.
  • Robótica: casi todo uso de la robótica genera datos, desde el ciclo de fabricación hasta el producto final en uso. Para este último, los datos pueden provenir de fuentes como sensores de temperatura, uso de CPU y juntas y motores mecánicos. La analítica puede tomar esa enorme cantidad de datos y buscar optimizar todas las facetas de la producción, como el abastecimiento de fabricación y el mantenimiento de motores, reduciendo en última instancia los costos de mantenimiento.
  • Economía: el aprendizaje automático puede beneficiar la investigación y el análisis económico de muchas formas. En su forma más simple, puede procesar enormes cantidades de datos y construir visualizaciones. Sin embargo, los analistas económicos también emplean el aprendizaje automático para investigar puntos de datos relacionados, como el sentimiento basado en texto, brindando un mayor contexto al cómo y por qué de un hallazgo particular.

Oracle: usa la analítica y el aprendizaje automático para ayudar a mejorar tu negocio

Lo suficientemente potente para científicos de datos pero lo bastante intuitivo para usuarios de negocio, los sistemas de Oracle Analytics ofrecen funciones potentes integradas con aprendizaje automático. Los productos Oracle Analytics pueden permitirte explorar datos con procesamiento de lenguaje natural, construir visualizaciones en una interfaz sin código y disfrutar de insights impulsados por IA con un solo clic. Oracle ayuda a poner la información en contexto mientras democratiza el acceso a datos y la accesibilidad de IA/ML, incluyendo capacidades sin código y de tipo AutoML.

El aprendizaje automático y la analítica ofrecen un inmenso potencial para transformar negocios y promover la innovación. Al aprovechar el poder de los datos y técnicas avanzadas, las organizaciones pueden obtener insights valiosos, tomar decisiones basadas en datos y potencialmente lograr una ventaja competitiva. A medida que la tecnología continúa evolucionando, las aplicaciones del aprendizaje automático a la analítica solo se expandirán, ofreciendo oportunidades emocionantes para negocios de todos los tamaños.

Datos e IA: una guía para el éxito del CIO

Dado lo fundamental que son los datos para el éxito empresarial, los CIO necesitan una estrategia para ML y analítica.

Preguntas frecuentes sobre aprendizaje automático y analítica

¿Cuál es la diferencia entre ML y analítica?

El aprendizaje automático es el proceso de evaluar grandes conjuntos de datos para identificar patrones y construir un modelo predictivo, ya sea para pequeñas tareas de automatización o para procesos más grandes y complejos que requieren pensamiento crítico. La analítica se refiere a la ciencia del análisis sistémico de datos y estadísticas. La analítica puede beneficiarse al integrar el aprendizaje automático para generar modelos de datos, pero los dos conceptos existen por separado a menos que se usen juntos de manera intencional. En el panorama empresarial actual, la combinación de ML y analítica puede posicionar a una organización para el éxito.

¿Cuáles son los tipos de análisis con aprendizaje automático?

En general, cualquier tipo de analítica puede usar aprendizaje automático siempre que la plataforma de analítica lo soporte y esté conectada adecuadamente a un repositorio de datos. Funcionalmente, casi cualquier proyecto de analítica puede beneficiarse de usar aprendizaje automático para acelerar el proceso de procesamiento de datos.

¿Cómo se pueden usar el aprendizaje automático y la analítica para hacer predicciones de negocio?

La analítica puede ayudar a las organizaciones a hacer predicciones de negocio al procesar datos históricos, identificando patrones de cosas como ciclos de ventas, tendencias de mercado, comportamiento del cliente o incluso procesos de manufactura. Con insights predictivos sobre cualquiera de estos, las organizaciones pueden tomar decisiones para aprovechar mejor los hallazgos y obtener mejores resultados de negocio.

¿Cómo pueden las organizaciones asegurarse de que sus proyectos de aprendizaje automático y analítica sean exitosos?

Para proyectos de aprendizaje automático y analítica, considera las siguientes prácticas, que pueden ayudar a posicionarlos para el éxito, incluyendo las siguientes:

  • Para ambos: usar fuentes de datos de alta calidad.
  • Para analítica: contar con ingenieros de datos que aseguren que el modelado y los datos cumplan con los estándares antes de usarse.
  • Para analítica: seleccionar técnicas que equilibren mejor los objetivos del proyecto y los recursos prácticos.
  • Para aprendizaje automático: resolver problemas como sobreajuste y subajuste.
  • Para aprendizaje automático: monitorear continuamente un modelo después de la implementación para ver si son necesarias más revisiones y ajustes.