No se han encontrado resultados

Su búsqueda no coincide con ningún resultado.

Le sugerimos que pruebe lo siguiente para encontrar lo que busca:

  • Verifique la ortografía de su búsqueda de palabras clave.
  • Utilice sinónimos para la palabra clave que escribió; por ejemplo, intente con “aplicación” en lugar de “software”.
  • Comience una nueva búsqueda.
Comunicarse con nosotros Iniciar sesión en Oracle Cloud

¿Qué es la ciencia de datos?

Definición de ciencia de datos

La ciencia de datos combina múltiples campos, entre los que se incluyen estadísticas, métodos científicos, inteligencia artificial (IA) y análisis de datos, para extraer valor de los datos. Los profesionales que utilizan la ciencia de datos se conocen como científicos de datos y aplican una combinación de diversas competencias para analizar los datos recopilados en la web, los teléfonos inteligentes, los clientes, los sensores y otras fuentes para generar conocimientos prácticos.

La ciencia de datos incluye las tareas de preparación de datos para la realización de análisis, como la limpieza, la agregación y la manipulación de los datos para análisis de datos avanzados. Las aplicaciones analíticas y los científicos de datos pueden revisar los resultados para descubrir patrones y proporciona a los líderes empresariales conocimientos bien fundamentados.

Ciencia de datos: Un recurso por descubrir para el aprendizaje automático

La Data science es uno de los campos más apasionantes que existen en la actualidad. ¿Por qué es tan importante?

Porque las empresas están sentadas sobre un tesoro de datos. Ya que la tecnología moderna ha permitido la creación y almacenamiento de cantidades cada vez mayores de información, los volúmenes de datos se han incrementado. Se estima que el 90% de los datos en el mundo se crearon en los últimos dos años. Por ejemplo, los usuarios de Facebook suben 10 millones de fotos por hora.

Pero a menudo estos datos se almacenan en bases de datos y lagos de datos, en su mayoría intactos.

La gran cantidad de datos recopilados y almacenados por estas tecnologías puede generar beneficios transformadores para las organizaciones y sociedades de todo el mundo, pero solo si sabemos interpretarlos. Ahí es donde entra en acción la ciencia de datos.

La ciencia de datos revela tendencias y genera información que las empresas pueden utilizar para tomar mejores decisiones y crear productos y servicios más innovadores. Quizás lo más importante es que permite que los modelos de aprendizaje automático extraigan conocimientos de las grandes cantidades de datos que se les suministran, evitando así depender principalmente de los analistas empresariales para ver qué pueden descubrir a partir de los datos.

Los datos son los cimientos de la innovación, pero su valor proviene de la información que los científicos de datos pueden extraer de ellos y luego utilizar.

¿Cuál es la diferencia entre data science, inteligencia artificial y aprendizaje automático?

Para comprender mejor la ciencia de datos y cómo se puede aprovechar, es igualmente importante conocer otros términos relacionados con este ámbito, como inteligencia artificial (IA) y el aprendizaje automático. A menudo, encontrará que estos términos se usan indistintamente, pero hay matices.

A continuación encontrará un desglose sencillo:

  • IA significa hacer que un ordenador imite el comportamiento humano de alguna manera.
  • La ciencia de datos es un subapartado de la IA que aborda principalmente las áreas interconectadas de estadísticas, métodos científicos y análisis de datos, todas las cuales se utilizan para extraer significado y conocimientos a partir de los datos.
  • El aprendizaje automático es otro subapartado de la IA y se fundamenta en técnicas que permiten a las computadoras averiguar cosas a partir de los datos y ofrecer aplicaciones de IA.
    Y por si acaso, incluiremos otra definición.
  • El aprendizaje profundo es un subapartado del aprendizaje atuomático que permite a los equipos informáticos resolver problemas más complejos.

Cómo está transformando data science a las empresas

Las organizaciones utilizan data science para convertir los datos en una ventaja competitiva al perfeccionar los productos y servicios. Algunos casos de uso de data science y machine learning son:

  • Determinar la rotación de clientes analizando los datos recopilados en los call centers, para que el departamento de marketing pueda tomar medidas para retenerlos.
  • Mejorar la eficiencia analizando los patrones de tráfico, las condiciones climáticas y otros factores, para que las empresas de logística puedan mejorar los tiempos de entrega y reducir costos.
  • Mejorar los diagnósticos de los pacientes analizando los datos de pruebas médicas y los síntomas descritos, para que los médicos puedan diagnosticar las enfermedades antes y tratarlas de manera más eficaz.
  • Optimizar la cadena de suministro prediciendo cuándo se averiará el equipo.
  • Detectar el fraude en los servicios financieros al reconocer comportamientos sospechosos y acciones anómalas.
  • Mejorar las ventas creando recomendaciones para los clientes basadas en compras anteriores.

Muchas empresas han dado prioridad a data science y están realizando grandes inversiones en ella. En la última encuesta de Gartner a más de 3.000 directores de tecnología y sistemas, los encuestados clasificaron la analítica y la inteligencia empresarial como las tecnologías de diferenciación más importantes para sus organizaciones. Los directores de tecnología (CIO) encuestados consideran que estas tecnologías son las más estratégicas para sus empresas y están invirtiendo en consecuencia.

Cómo se lleva a cabo la data science

El proceso de analizar y utilizar los datos es iterativo en lugar de lineal, pero este es el modo en que el ciclo de vida de data science fluye normalmente en un proyecto de modelado de datos:

Planificación: define un proyecto y sus posibles resultados.

Crear un modelo de datos:  los científico de datos a menudo usan diversas bibliotecas de código abierto o herramientas incluidas en la base de datos para construir modelos de aprendizaje automático. Con frecuencia, los usuarios querrán que las API ayuden con la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de funciones. Necesitarán herramientas adecuadas, así como acceso a los datos correctos y otros recursos, como el poder de computación.

Evaluación de un modelo: los científico de datos deben lograr que sus modelos ofrezcan un elevado porcentaje de precisión para tener confianza en que se pueden implementar. La evaluación del modelo generalmente generará un conjunto completo de métricas de evaluación y visualizaciones para medir el rendimiento del modelo frente a nuevos datos, y también clasificarlos a lo largo del tiempo a fin de lograr un comportamiento óptimo en producción. La evaluación del modelo va más allá del rendimiento y tiene en cuenta el comportamiento base esperado.

Explicación de modelos: ser capaz de explicar la mecánica interna de los resultados de los modelos de aprendizaje automático en términos humanos no siempre ha sido posible, pero es cada vez más importante. Los científico de datoss quieren explicaciones automatizadas de la ponderación relativa y la importancia de los factores que intervienen en la generación de una predicción, así como detalles explicativos específicos sobre las predicciones del modelo.

Depliegue de una modelo: tomar un modelo de aprendizaje automático entrenado e implementarlo en los sistemas correctos es a menudo un proceso difícil y laborioso. Esto se puede hacer más fácil si los modelos se ponen en funcionamiento como API escalables y seguras o si se utilizan modelos de machine learning incluidos en la base de datos.

Supervisión de modelos Desafortunadamente, desplegar un modelo no el último paso. Los modelos siempre deben supervisarse después de la implementación para garantizar que funcionen correctamente. Los datos con los que se entrenó el modelo pueden dejar de ser relevantes para futuras predicciones después de un período de tiempo. Por ejemplo, en la detección de fraudes, los delincuentes siempre encuentran nuevas formas de piratear cuentas.

Herramientas para data science

Crear, evaluar, implementar y supervisar modelos de machine learning puede ser un proceso complejo. Por eso, ha aumentado la cantidad de herramientas de data science. Los científicos de datos utilizan muchos tipos de herramientas, pero una de las más comunes son las libretas de código abierto, que son aplicaciones web para escribir y ejecutar códigos, visualizar datos y visualizar resultados, todo en el mismo entorno.

Algunas de las libretas más populares son Jupyter, RStudio y Zeppelin. Las libretas son muy útiles para realizar análisis, pero presentan ciertas limitaciones cuando los científico de datoss necesitan trabajar en equipo. Las plataformas de data science se crearon para resolver este problema.

Para determinar qué herramienta de ciencia de datos se adapta menor a tus circunstancias, es importante que te hagas las siguientes preguntas: ¿Qué tipo de idiomas utilizan tus científicos de datos? ¿Qué tipo de métodos de trabajo prefieren? ¿Qué tipo de fuentes de datos están usando?

Por ejemplo, algunos usuarios prefieren tener un servicio independiente de la fuente de datos que utilice bibliotecas de código abierto. Otros prefieren la velocidad de los algoritmos de machine learning incluidos en la base de datos.


¿Quién supervisa el proceso de data science?

En la mayoría de las organizaciones, tres tipos de administradores suelen supervisar los proyectos de data science:

Gerentes de negocio: estos gerentes trabajan con el equipo de ciencia de datos para identificar el problema y desarrollar una estrategia para el análisis. Pueden ser los responsables de una línea de negocio, como marketing, finanzas o ventas y contar con un equipo de data science que dirigen. Trabajan codo a codo con los responsables de TI y data science para garantizar que los proyectos se entreguen.

Gerentes de TI: los gerentes sénior de TI son responsables de la infraestructura y la arquitectura que darán soporte a las operaciones de ciencia de datos. Supervisan continuamente las operaciones y la utilización de recursos para garantizar que los equipos de data science operen de manera eficiente y segura. También pueden ser responsables de la creación y actualización de los entornos de TI para los equipos de data science.

Gerentes de ciencia de datos: estos gerentes se encargan de supervisar el equipo de ciencia de datos y su trabajo diario. Son creadores de equipos que pueden equilibrar el desarrollo del equipo con la planificación y la supervisión del proyecto.

Pero el actor más importante en este proceso es el científico de datos.

¿Qué es un científico de datos?

Como especialidad, la ciencia de datos aun es nueva. Surgió de los campos del análisis estadístico y de la minería de datos. The Data Science Journal se lanzó inicialmente en 2002 y su publicación corrió a cargo del International Council for Science: Committee on Data for Science and Technology. En 2008 surgió el nombre de científico de datos y este campo prosperó rápidamente. Desde entonces, ha habido una escasez de científicos de datos, a pesar de que cada vez más colegios y universidades han comenzado a ofrecer grados en ciencia de datos.

Las tareas de un científico de datos pueden incluir el desarrollo de estrategias para analizar datos, la preparación de datos para su análisis, explorar, analizar y visualizar datos, construir modelos con datos mediante el uso de lenguajes de programación como Python y R y desplegar modelos en aplicaciones.

El científico de datos no trabaja solo. De hecho, la data science más efectiva se ejecuta en equipos. Además de un científico de datos, este equipo puede incluir un analista empresarial que define el problema, un ingeniero de datos que prepara los datos y su método de acceso, un arquitecto de TI que supervisa los procesos subyacentes y la infraestructura, y un desarrollador de aplicaciones que implementa los modelos o las salidas del análisis en aplicaciones y productos.

Desafíos de la implementación de proyectos de data science

A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos de ciencia de datos, muchas empresas no son conscientes del valor total de sus datos. En su carrera por contratar talentos y crear programas de ciencia de datos, algunas empresas han experimentado flujos de trabajo de equipo ineficientes, con varias personas que utilizan diferentes herramientas y procesos que no funcionan correctamente de forma conjunta. Sin una gestión centralizada y más disciplinada, los ejecutivos podrían no obtener un retorno completo de sus inversiones.

Este ambiente caótico presenta muchos desafíos.

Los científico de datoss no pueden trabajar de forma eficiente. Debido a que el acceso a los datos lo debe otorgar un administrador de TI los científicos de datos a menudo deben esperar demasiado los datos y los recursos que necesitan para analizarlos. Una vez que se obtiene acceso, el equipo de ciencia de datos podría analizar los datos a través de varias herramientas posiblemente incompatibles. Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la que se usará está escrita en un lenguaje distinto. Este es el motivo por el que la implementación de modelos en aplicaciones útiles puede llevar desde semanas hasta incluso meses.

Los desarrolladores de aplicaciones no pueden acceder al machine learning utilizable. A veces, los modelos de machine learning que los desarrolladores reciben no están listos para implementarlos en aplicaciones. Además, ya que los puntos de acceso pueden ser inflexibles, los modelos no se pueden implementar en todos los casos, y la escalabilidad queda a responsabilidad del desarrollador de la aplicación.

Los administradores de TI dedican demasiado tiempo al soporte. Debido a la proliferación de herramientas de código abierto, TI puede tener una lista cada vez mayor de herramientas a las que proporcionar soporte. Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener distintos flujos de trabajo, lo que significa que TI debe reconstruir y actualizar continuamente los entornos.

Los responsables empresariales están muy alejados de la ciencia de datos. Los flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los sistemas de toma de decisiones empresariales, lo que dificulta que los responsables de negocio colaboren de manera inteligente con los científicos de datos. Si no cuentan con una integración mejor, a los responsables empresariales les resulta difícil comprender por qué toma tanto tiempo pasar del prototipo a la producción, y es menos probable que respalden la inversión de proyectos que consideran demasiado lentos.

La plataforma de data science ofrece nuevas capacidades

Muchas empresas se dieron cuenta de que, sin una plataforma integrada, el trabajo de data science era ineficiente, inseguro y difícil de ampliar. Esto provocó el desarrollo de plataformas de data science. Estas plataformas son centros de software, alrededor de los cuales se lleva a cabo todo el trabajo de ciencia de datos. Una buena plataforma alivia muchos de los desafíos de la implementación de la data science y ayuda a las empresas a convertir sus datos en información de forma más rápida y eficiente.

Con una plataforma centralizada (la plataforma de machine learning), los científico de datoss pueden trabajar en un entorno de colaboración a través de sus herramientas favoritas de código abierto y todo su trabajo se sincroniza mediante un sistema de control de versiones.

Los beneficios de una plataforma de data science

Una plataforma de data science disminuye la redundancia e impulsa la innovación al permitir que los equipos compartan código, resultados e informes. Se eliminan los cuellos de botella del flujo de trabajo, ya que se simplifica la gestión y utilizan las mejores prácticas.

En general, las mejores plataformas de data science tienen como objetivo:

  • Hacer más productivos a los científico de datoss al ayudarles a acelerar y entregar modelos con más rápidez y menos errores.
  • Facilitar que los científico de datoss trabajen con grandes volúmenes y variedades de datos.
  • Ofrecer inteligencia artificial fiable de nivel empresarial, libre de sesgos, auditable y reproducible.

Las plataformas de data science están diseñadas para la colaboración de una variedad de usuarios, incluidos los científico de datoss expertos, científico de datoss de ciudadanos, ingenieros de datos e ingenieros o especialistas en machine learning. Por ejemplo, una plataforma de ciencia de datos podría permitir a los científicos de datos implementar modelos como API, lo que facilita su integración en diferentes aplicaciones. Los científico de datoss pueden acceder a herramientas, datos e infraestructura sin tener que esperar por la TI.

La demanda de plataformas de data science ha explotado en el mercado. De hecho, se espera que la plataforma del mercado crezca a una tasa anual compuesta de más del 39% en los próximos años y se proyecta que alcance los 385 mil millones de dólares para el 2025.

¿Qué necesita un científico de datos en una plataforma?

Si está listo para explorar las capacidades de las plataformas de ciencia de datos, hay ciertas capacidades clave a considerar:

Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La plataforma debe fomentar que las personas trabajen en conjunto en un modelo, desde su concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de autoservicio a los datos y a los recursos.

Priorice la integración y la flexibilidad. Asegúrese de que la plataforma incluya soporte para las últimas herramientas de código abierto, proveedores comunes de control de versiones como GitHub, GitLab y Bitbucket y una estrecha integración con otros recursos.

Incluya capacidades de nivel empresarial. Asegúrate de que la plataforma pueda escalar con tu negocio a medida que crece tu equipo. La plataforma debe contar con un alto grado de disponibilidad, tener controles de acceso robustos y admitir una gran cantidad de usuarios simultáneos.

Ofrezca más autoservicio para la data science. Busque una plataforma que elimine la carga de TI e ingeniería y facilite a los científico de datoss la creación instantánea de entornos, el seguimiento de todo su trabajo y la implementación sencilla de modelos en producción.

Garantice una implementación de modelos más sencilla. La implementación y puesta en funcionamiento del modelo es uno de los pasos más importantes del ciclo de vida del machine learning, pero a menudo se ignora. Asegúrese de que el servicio que elija facilite la puesta en funcionamiento de modelos, ya sea proporcionando API o asegurando que los usuarios creen modelos de una manera que permita una fácil integración.

Cuando una plataforma de data science es el paso correcto

Su organización podría estar lista para una plataforma de data science si ha observado que:

  • La productividad y la colaboración muestran signos de presión.
  • Los modelos de machine learning no se pueden auditar ni reproducir.
  • Los modelos nunca llegan a producción

Una plataforma de data science puede ofrecer un valor real a su negocio. La plataforma de ciencia de datos de Oracle incluye una amplia gama de servicios que brindan una experiencia integral de principio a fin, diseñada para acelerar la implementación del modelo y mejorar los resultados de la ciencia de datos.