No se han encontrado resultados

Su búsqueda no coincide con ningún resultado.

Le sugerimos que pruebe lo siguiente para encontrar lo que busca:

  • Compruebe la ortografía de la búsqueda por palabras clave.
  • Utilice sinónimos de la palabra clave que escribió; por ejemplo, pruebe con “aplicación” en lugar de “software”.
  • Pruebe una de las búsquedas populares que se muestran a continuación.
  • Realice una nueva búsqueda.
Preguntas más populares

Ciencia de datos

A continuación puede ver una definición sencilla de la ciencia de datos:

La ciencia de datos combina múltiples campos que incluyen estadísticas, métodos científicos y análisis de datos para extraer valor de los datos.

Quienes practican la ciencia de datos se llaman científicos de datos y combinan diversas habilidades, para analizar datos recopilados de la web, de teléfonos inteligentes, de clientes, sensores y otras fuentes.

Datos: Un recurso sin explotar para el aprendizaje automático

La ciencia de datos es uno de los campos más apasionantes que existen en la actualidad. ¿Por qué es tan importante?

Porque las empresas están sentadas sobre un tesoro de datos. Ya que la tecnología moderna ha permitido la creación y almacenamiento de cantidades cada vez mayores de información, los volúmenes de datos se han incrementado. Se estima que el 90 % de los datos en el mundo se creó en los últimos dos años. Por ejemplo, los usuarios de Facebook suben 10 millones de fotos por hora.

Pero a menudo estos datos están almacenados aún en bases de datos y lagos de datos, en su mayoría intactos.

La gran cantidad de datos recopilados y almacenados por estas tecnologías puede generar beneficios transformadores para las organizaciones y sociedades de todo el mundo, pero solo si sabemos interpretarlos. Ahí es donde entra en acción la ciencia de datos.

La ciencia de datos revela tendencias y genera información que las empresas pueden utilizar para tomar mejores decisiones y crear productos y servicios más innovadores. Quizás lo más importante es que permite que los modelos de aprendizaje automático aprendan de las grandes cantidades de datos que se les suministran, en lugar de depender principalmente de los analistas empresariales para ver qué pueden descubrir a partir de los datos.

Los datos son los cimientos de la innovación, pero su valor proviene de la información que los científicos de datos pueden extraer de ellos y luego utilizar.

¿Cuál es la diferencia entre ciencia de datos, inteligencia artificial y aprendizaje automático?

¿Cuál es la diferencia entre ciencia de datos, inteligencia artificial y aprendizaje automático?

Para comprender mejor la ciencia de datos —y cómo se puede aprovechar— es igualmente importante conocer otros términos relacionados con este campo, como inteligencia artificial (IA) y aprendizaje automático. A menudo, encontrará que estos términos se usan indistintamente, pero hay matices.

A continuación encontrará un desglose sencillo:

  • IA significa hacer que un ordenador imite el comportamiento humano de alguna manera.
  • La ciencia de datos es un subconjunto de la IA que aborda principalmente las áreas interconectadas de estadísticas, métodos científicos y análisis de datos, todas las cuales se utilizan para extraer significado y conocimientos de los datos.
  • El aprendizaje automático es otro subconjunto de la IA y está fundado en las técnicas que permiten a los ordenadores averiguar cosas a partir de los datos y ofrecer aplicaciones de IA.

Y por si acaso, incluiremos otra definición:

  • Aprendizaje profundo, que es un subconjunto del aprendizaje automático que permite a los ordenadores resolver problemas más complejos

Cómo está transformando la ciencia de datos a las empresas

La ciencia de datos y el crecimiento de los datos

Las organizaciones utilizan la ciencia de datos para convertir los datos en una ventaja competitiva al perfeccionar los productos y servicios. Algunos casos de uso de la ciencia de datos y del aprendizaje automático son:

  • Determinar la rotación de clientes analizando los datos recopilados en los call centers, para que el departamento de marketing pueda tomar medidas para retenerlos.
  • Mejorar la eficiencia analizando los patrones de tráfico, las condiciones climáticas y otros factores, para que las empresas de logística puedan mejorar los tiempos de entrega y reducir costes.
  • Mejorar los diagnósticos de los pacientes analizando los datos de pruebas médicas y los síntomas descritos, para que los médicos puedan diagnosticar las enfermedades antes y tratarlas de manera más eficaz.
  • Optimizar la cadena de suministro prediciendo cuándo se averiará el equipo.
  • Detectar el fraude en los servicios financieros al reconocer comportamientos sospechosos y acciones anómalas.
  • Mejorar las ventas creando recomendaciones para los clientes basadas en compras anteriores.

Muchas empresas han dado prioridad a la ciencia de datos y están realizando grandes inversiones en ella. En la última encuesta de Gartner a más de 3.000 directores de tecnología y sistemas, los encuestados clasificaron la analítica y la inteligencia empresarial como las tecnologías de diferenciación más importantes para sus organizaciones. Los directores de tecnología (CIO) encuestados consideran que estas tecnologías son las más estratégicas para sus empresas y están invirtiendo en consecuencia.

Cómo se lleva a cabo la ciencia de datos

Cómo se lleva a cabo la ciencia de datos

El proceso de analizar y utilizar los datos es iterativo en lugar de lineal, pero este es el modo en que el ciclo de vida de la ciencia de datos fluye normalmente en un proyecto de modelado de datos:

  • Planificación: se define un proyecto y sus posibles resultados.
  • Construcción de un modelo de datos: los científicos de datos a menudo usan diversas bibliotecas de código abierto o herramientas incluidas en la base de datos para construir modelos de aprendizaje automático. Con frecuencia, los usuarios querrán que las API ayuden con la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de funciones. Necesitarán herramientas adecuadas, así como acceso a los datos correctos y otros recursos, como el poder de computación.
  • Evaluación de un modelo: los científicos de datos deben lograr un alto porcentaje de precisión de sus modelos para tener confianza en que se pueden implementar. La evaluación del modelo generalmente generará un conjunto completo de métricas de evaluación y visualizaciones para medir el rendimiento del modelo frente a nuevos datos, y también clasificarlos a lo largo del tiempo a fin de lograr un comportamiento óptimo en producción. La evaluación del modelo va más allá del rendimiento y tiene en cuenta el comportamiento base esperado.
  • Explicación de los modelos: ser capaz de explicar la mecánica interna de los resultados de los modelos de aprendizaje automático en términos humanos no siempre ha sido posible, pero es cada vez más importante. Los científicos de datos quieren explicaciones automatizadas de la ponderación relativa y la importancia de los factores que intervienen en la generación de una predicción, así como detalles explicativos específicos sobre las predicciones del modelo.
  • Implementación de un modelo: tomar un modelo de aprendizaje automático entrenado e implementarlo en los sistemas correctos es a menudo un proceso difícil y laborioso. Esto se puede hacer más fácil si los modelos se ponen en funcionamiento como API escalables y seguras o si se utilizan modelos de aprendizaje automático incluidos en la base de datos.
  • Supervisión de modelos: desafortunadamente, implementar un modelo no es el final. Los modelos siempre deben supervisarse después de la implementación para garantizar que funcionen correctamente. Los datos con los que se entrenó el modelo pueden dejar de ser relevantes para futuras predicciones después de un período de tiempo. Por ejemplo, en la detección de fraudes, los delincuentes siempre encuentran nuevas formas de piratear cuentas.

Herramientas para la ciencia de datos

Herramientas para la ciencia de datos

Crear, evaluar, implementar y supervisar modelos de aprendizaje automático puede ser un proceso complejo. Por eso, ha aumentado la cantidad de herramientas de ciencia de datos. Los científicos de datos utilizan muchos tipos de herramientas, pero una de las más comunes son las libretas de código abierto, que son aplicaciones web para escribir y ejecutar código, visualizar datos y ver resultados, todo en el mismo entorno.

Algunas de las libretas más populares son Jupyter, RStudio y Zeppelin. Las libretas son muy útiles para realizar análisis, pero presentan ciertas limitaciones cuando los científicos de datos necesitan trabajar en equipo. Las plataformas de ciencia de datos se crearon para resolver este problema.

Para determinar qué herramienta de ciencia de datos es adecuada para usted, es importante hacerse las siguientes preguntas: ¿Qué tipo de lenguajes utilizan sus científicos de datos? ¿Qué tipo de métodos de trabajo prefieren? ¿Qué tipo de fuentes de datos están usando?

Por ejemplo, algunos usuarios prefieren tener un servicio independiente de la fuente de datos que utilice bibliotecas de código abierto. Otros prefieren la velocidad de los algoritmos de aprendizaje automático incluidos en la base de datos.

¿Quién supervisa el proceso de ciencia de datos?

¿Quién supervisa el proceso de ciencia de datos?

En la mayoría de las organizaciones, tres tipos de administradores suelen supervisar los proyectos de ciencia de datos:

  • Responsables empresariales: estos gerentes trabajan con el equipo de ciencia de datos para definir el problema y desarrollar una estrategia para el análisis. Pueden ser los responsables de una línea de negocio, como marketing, finanzas o ventas y contar con un equipo de ciencia de datos que dirigen. Trabajan codo a codo con los responsables de TI y ciencia de datos para garantizar que los proyectos se entreguen.
  • Directores de TI: los directores sénior de TI son responsables de la infraestructura y la arquitectura que sustentarán las operaciones de ciencia de datos. Supervisan continuamente las operaciones y la utilización de recursos para garantizar que los equipos de ciencia de datos operen de manera eficiente y segura. También pueden ser responsables de la creación y actualización de los entornos de TI para los equipos de ciencia de datos.
  • Directores de ciencia de datos: supervisan el equipo de ciencia de datos y su trabajo diario. Son creadores de equipos que pueden equilibrar el desarrollo del equipo con la planificación y la supervisión del proyecto.

Pero el actor más importante en este proceso es el científico de datos.

¿Qué es un científico de datos?

¿Qué es un científico de datos?

Como especialidad, la ciencia de datos aún es nueva. Surgió de los campos del análisis estadístico y de la minería de datos. Data Science Journal debutó en 2002, a través de la publicación del Consejo Internacional para la Ciencia: Comité de Información para Ciencia y Tecnología. En 2008 surgió el nombre de científico de datos y este campo prosperó rápidamente. Desde entonces, ha habido escasez de científicos de datos, a pesar de que cada vez más colegios y universidades ofrecen titulaciones en ciencia de datos.

Las tareas de un científico de datos pueden incluir el desarrollo de estrategias para analizar datos, la preparación de datos para su análisis, explorar, analizar y visualizar datos, construir modelos con datos mediante el uso de lenguajes de programación como Python y R y desplegar modelos en aplicaciones.

El científico de datos no trabaja solo. De hecho, la ciencia de datos más efectiva se ejecuta en equipos. Además de un científico de datos, este equipo puede incluir un analista empresarial que define el problema, un ingeniero de datos que prepara los datos y el método para acceder a ellos, un arquitecto de TI que supervisa los procesos subyacentes y la infraestructura y un desarrollador de aplicaciones que implementa los modelos o los resultados del análisis en aplicaciones y productos.

Desafíos de la implementación de proyectos de ciencia de datos

¿Qué es un científico de datos?

A pesar de las expectativas generadas por la ciencia de datos y las grandes inversiones en equipos de ciencia de datos, muchas empresas no están materializando todo el valor de sus datos. En su carrera por contratar talento y crear programas de ciencia de datos, algunas empresas han experimentado flujos de trabajo de equipo ineficientes en los que distintas personas utilizan diferentes herramientas y procesos que no funcionan correctamente de forma conjunta. Sin una gestión centralizada y más disciplinada, los ejecutivos podrían no obtener un retorno completo de sus inversiones.

Este ambiente caótico presenta muchos desafíos.

Los científicos de datos no pueden trabajar de forma eficiente. Debido a que el acceso a los datos lo debe otorgar un administrador de TI, los científicos de datos a menudo deben esperar demasiado tiempo a recibir los datos y los recursos que necesitan para analizarlos. Una vez que se obtiene acceso, el equipo de ciencia de datos podría analizar los datos a través de varias herramientas posiblemente incompatibles. Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la que se usará está escrita en un lenguaje distinto. Este es el motivo por el que la implementación de modelos en aplicaciones útiles puede llevar desde semanas hasta incluso meses.

Los desarrolladores de aplicaciones no pueden acceder al aprendizaje automático utilizable. A veces, los modelos de aprendizaje automático que los desarrolladores reciben no están listos para implementarlos en aplicaciones. Además, ya que los puntos de acceso pueden ser inflexibles, los modelos no se pueden implementar en todos los casos y la escalabilidad queda a responsabilidad del desarrollador de la aplicación.

Los administradores de TI dedican demasiado tiempo al soporte. Debido a la proliferación de herramientas de código abierto, TI puede tener una lista cada vez mayor de herramientas a las que proporcionar soporte. Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener distintos flujos de trabajo, lo que significa que TI debe reconstruir y actualizar continuamente los entornos.

Los responsables empresariales están muy alejados de la ciencia de datos. Los flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los sistemas de toma de decisiones empresariales, lo que dificulta que los responsables empresariales colaboren de manera inteligente con los científicos de datos. Si no cuentan con una integración mejor, a los responsables empresariales les resulta difícil comprender por qué lleva tanto tiempo pasar del prototipo a producción, y es menos probable que respalden la inversión en proyectos que consideran demasiado lentos.

La plataforma de ciencia de datos ofrece nuevas capacidades

La aparición de la plataforma de ciencia de datos

Muchas empresas se dieron cuenta de que si no contan con una plataforma integrada, el trabajo de la ciencia de datos era ineficiente, inseguro y difícil de ampliar. Esto provocó el desarrollo de plataformas de ciencia de datos. Estas plataformas son centros de software alrededor de los cuales se lleva a cabo todo el trabajo de ciencia de datos. Una buena plataforma alivia muchos de los desafíos de la implementación de la ciencia de datos y ayuda a las empresas a convertir sus datos en información de forma más rápida y eficiente.

Con una plataforma centralizada (la plataforma de aprendizaje automático), los científicos de datos pueden trabajar en un entorno de colaboración a través de sus herramientas favoritas de código abierto y todo su trabajo se sincroniza mediante un sistema de control de versiones.

Los beneficios de una plataforma de ciencia de datos

Los beneficios de una plataforma de ciencia de datos

Una plataforma de ciencia de datos disminuye la redundancia e impulsa la innovación al permitir que los equipos compartan código, resultados e informes. Los cuellos de botella en el flujo de trabajo se eliminan al simplificar la gestión e incorporar mejores prácticas.

En general, las mejores plataformas de ciencia de datos tienen como objetivo:

  • Hacer más productivos a los científicos de datos al ayudarles a acelerar y entregar modelos con más rápidez y menos errores.
  • Facilitar que los científicos de datos trabajen con grandes volúmenes y variedades de datos.
  • Ofrecer inteligencia artificial fiable de nivel empresarial, libre de sesgos, auditable y reproducible.

Las plataformas de ciencia de datos están diseñadas para la colaboración de una variedad de usuarios, incluidos los científicos de datos expertos, científicos de datos de ciudadanos, ingenieros de datos e ingenieros o especialistas en aprendizaje automático. Por ejemplo, una plataforma de ciencia de datos podría permitir a los científicos de datos implementar modelos como API, lo que facilita su integración en diferentes aplicaciones. Los científicos de datos pueden acceder a herramientas, datos e infraestructura sin tener que esperar por la TI.

La demanda de plataformas de ciencia de datos ha explotado en el mercado. De hecho, se espera que la plataforma del mercado crezca a una tasa anual compuesta de más del 39 % en los próximos años y se proyecta que alcance los 385 mil millones de dólares para 2025.

¿Qué necesita un científico de datos en una plataforma?

¿Qué necesita un científico de datos en una plataforma?

Si está listo para explorar las capacidades de las plataformas de ciencia de datos, hay ciertas capacidades clave que debe considerar:

  • Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La plataforma debe potenciar a las personas para que trabajen conjuntamente en un modelo, desde su concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de autoservicio a los datos y a los recursos.
  • Priorice la integración y la flexibilidad. Asegúrese de que la plataforma incluya soporte para las últimas herramientas de código abierto, proveedores comunes de control de versiones como GitHub, GitLab y Bitbucket y una estrecha integración con otros recursos.
  • Incluya capacidades de nivel empresarial. Asegúrese de que la plataforma pueda escalar con su negocio a medida que crece su equipo. La plataforma debe contar con un alto grado de disponibilidad, tener controles de acceso robustos y admitir una gran cantidad de usuarios simultáneos.
  • Ofrezca más autoservicio para la ciencia de datos. Busque una plataforma que elimine la carga de TI e ingeniería y facilite a los científicos de datos la creación instantánea de entornos, el seguimiento de todo su trabajo y la implementación sencilla de modelos en producción.
  • Garantice una implementación de modelos más sencilla. La implementación y puesta en funcionamiento del modelo es uno de los pasos más importantes del ciclo de vida del aprendizaje automático, pero a menudo se ignora. Asegúrese de que el servicio que elija facilite la puesta en funcionamiento de modelos, ya sea proporcionando API o asegurando que los usuarios creen modelos de una manera que permita una fácil integración.

Cuando una plataforma de ciencia de datos es el paso correcto

Su organización podría estar lista para una plataforma de ciencia de datos si ha observado que:

  • La productividad y la colaboración muestran signos de presión.
  • Los modelos de aprendizaje automático no se pueden auditar ni reproducir.
  • Los modelos nunca llegan a producción.

Una plataforma de ciencia de datos puede ofrecer un valor real a su negocio. La plataforma de ciencia de datos de Oracle incluye una amplia gama de servicios que brindan una experiencia integral de principio a fin, diseñada para acelerar la implementación del modelo y mejorar los resultados de la ciencia de datos.

Biblioteca de aprendizaje de ciencia de datos

¿Qué es la inteligencia artificial?
Obtenga más información sobre la inteligencia artificial

La inteligencia artificial (IA) permite que la tecnología y las máquinas procesen datos para aprender, evolucionar y ejecutar tareas humanas.

Obtenga más información sobre el machine learning
Obtenga más información sobre el machine learning

El machine learning, un subconjunto de la inteligencia artificial (IA), se centra en diseñar sistemas que aprenden a través de datos con el objetivo de automatizar y acelerar el tiempo de decisión y el tiempo de rentabilidad.

Noticias y opiniones
Noticias y opiniones

El machine learning, la inteligencia artificial y la ciencia de datos están cambiando la manera en que las empresas abordan problemas complejos para alterar la trayectoria de sus respectivas industrias. Lea los últimos artículos para comprender cómo la industria y sus compañeros abordan estas tecnologías.