По Вашему запросу ничего не найдено.
Рекомендуем сделать следующее:
Вот простое определение Data Science.
Data Science — это область на стыке статистики, научных методов и аналитической обработки данных, которая помогает извлекать ценные сведения из данных.
Специалисты по Data Science отличаются наличием ряда навыков, необходимых, чтобы анализировать данные, полученные из различных источников (сети, смартфон, клиенты, датчики и т. д.).
Data Science является на сегодняшний день одним из наиболее интересных направлений. Но почему это так важно?
Потому что компании сидят на сокровищнице, которой являются данные. Современные технологии сделали возможным создание и хранение беспрецедентных объемов информации. Как следствие, объемы данных стремительно выросли. По оценкам специалистов, 90 % всех данных в мире созданы за последние два года. К примеру, пользователи Facebook загружают 10 миллионов фотографий каждый час.
Но эти данные зачастую просто лежат в базах и озерах данных и практически не используются.
Компании имеют возможность использовать данные, собранные и хранящиеся с помощью этих технологий, для разработки инновационных решений — но только если они могут их интерпретировать. Им на помощь приходит Data Science.
Data Science определяет тенденции и извлекает идеи, которые предприятия могут использовать, чтобы принимать более взвешенные решения и улучшать продукты и услуги. Пожалуй, важнее всего то, что он позволяет моделям машинного обучения учиться на громадных объемах данных, вносимых в них, а не отдавать все на откуп бизнес-аналитиков в ожидании того, что они смогут найти в данных.
Данные — это основа инноваций, однако их главная ценность заключается в информации, которую специалисты могут из них извлечь для последующего использования.
Чтобы лучше понять, что такое Data Science—и как изучить эту дисциплину,— в равной степени важно знать и другие термины, относящиеся к этой области, среди которых искусственный интеллект (ИИ) и машинное обучение. Эти термины зачастую используются как синонимы, но здесь есть нюансы.
Вот простое объяснение:
Кроме того, приведем еще одно определение:
Организации используют Data Science, чтобы оптимизировать продукты и услуги и получать конкурентные преимущества. Примеры использования Data Science и машинного обучения:
Многие компании сделали Data Science своим приоритетом и вкладывают в эту область значительные средства. Согласно недавнему исследованию, проведенному Gartner среди более чем 3000 генеральных директоров, респонденты назвали аналитику данных и бизнес-аналитику основными технологиями для достижения успеха. По мнению опрошенных CIO, эти технологии имеют наибольшее стратегическое значение, поэтому в них вкладываются соответствующие средства.
Data Science и принятие решений на основе данных — это повторяющийся, а не линейный процесс. Тем не менее стандартный цикл анализа данных обычно включает в себя следующие этапы:
Построение, оценка, развертывание и мониторинг моделей машинного обучения может быть довольно сложным процессом. Именно по этой причине постоянно разрабатываются новые инструменты для Data Science. Специалисты по анализу данных используют самые разные инструменты, чаще всего блокноты на основе открытого кода. Блокноты представляют собой веб-приложения для программирования и выполнения кода, визуализации данных и отображения результатов в единой среде.
К числу самых популярных блокнотов относятся Jupyter, RStudio и Zeppelin. Блокноты очень удобны для выполнения анализа, однако неудобны для совместного использования. Эту проблему призваны решить платформы для Data Science.
Чтобы определить, какое средство Data Science подойдет именно Вам, важно ответить на следующие вопросы: Какие языки используют Ваши специалисты по анализу данных? Какие методы работы они предпочитают? Какие источники данных они используют?
Например, некоторые пользователи предпочитают иметь не зависящий от источников данных сервис, построенный на базе библиотек с открытым исходным кодом. Другие предпочитают скорость алгоритмов машинного обучения, работающих в базах данных.
В большинстве организаций контроль над процессами Data Science обычно осуществляют руководители трех специальностей:
Но самым важным игроком в этом процессе является специалист по анализу данных.
Отдельная дисциплина Data Science возникла совсем недавно. Она зародилась на стыке статистического анализа и интеллектуального анализа данных. Первый номер журнала Data Science Journal был выпущен в 2002 году под руководством международного совета по науке Комитета по использованию данных в науке и технологии. К 2008 году появились специалисты по анализу данных, и началось быстрое развитие этой отрасли. Несмотря на то, что все больше высших учебных заведений готовят специалистов Data Scientists, их по-прежнему не хватает.
В обязанности специалиста по анализу данных входят разработка стратегий анализа, подготовка данных для анализа, исследование, анализ и визуализация данных, разработка моделей на основе данных с использованием таких языков программирования, как Python и R, и внедрение моделей в приложения.
Специалист по анализу данных работает не один. Для эффективного изучения данных требуется команда из представителей различных специальностей. Помимо специалиста по анализу данных, в нее должны входить: бизнес-аналитик, который определяет задачу; специалист по обработке данных, который отвечает за подготовку данных и получение к ним доступа; архитектор ИТ-систем, который занимается обслуживанием необходимых процессов и инфраструктуры; а также разработчик приложений, который внедряет модели или результаты анализа в приложения и продукты.
Несмотря на преимущества, которые Data Science дает бизнесу, и большие объемы инвестиций в эту отрасль, не всем компаниям удается использовать свои данные с максимальной выгодой для себя. Торопясь нанять соответствующих специалистов и разработать программы Data Science, некоторые компании получили неэффективные рабочие процессы таких команд, когда разные люди использовали разные инструменты и несовместимые между собой процессы. Чтобы обеспечить окупаемость инвестиций, необходимо более строгое централизованное руководство.
Отсутствие его создает множество проблем.
Специалисты по изучению данных не могут работать эффективно. Доступ к данным и ресурсам для анализа предоставляет ИТ-администратор, т. е. специалисты тратят время на ожидание. Получив доступ к данным, специалисты должны проанализировать их, используя различные инструменты, которые нередко несовместимы между собой. Например, модель может быть разработана с использованием языка R, однако приложение, в котором ее планируется использовать, написано на другом языке. Именно поэтому на внедрение моделей в приложения порой требуется несколько недель, а то и месяцев.
Разработчики приложений не могут использовать модели машинного обучения напрямую. Нередко разработчики приложений получают модели обучения, которые не готовы к развертыванию в приложения. Недостаток гибкости не дает применять модели во всех требуемых сценариях и вынуждает разработчиков приложений вносить исправления.
ИТ-администраторы тратят слишком много времени на сопровождение. Число инструментов на основе открытого кода постоянно растет, что означает увеличение нагрузки на администраторов. Например, специалисты по анализу маркетинговых данных и анализу финансовых данных могут использовать совершенно разные инструменты. Они также используют разные процессы, т. е. администраторам постоянно приходится вносить изменения и дополнения в инфраструктуру.
Бизнес-руководители не обладают нужным уровнем понимания проблемы. Процессы Data Science не всегда интегрированы в процессы и системы для принятия бизнес-решений, и не все руководители разбираются в специфике этой деятельности на должном уровне. Им сложно понять, почему на разработку прототипа и внедрение его в производство требуется столько времени, а отсутствие быстрых результатов ведет к снижению финансирования.
Во многих компаниях осознали, что без интегрированной платформы отрасль Data Science неэффективна, небезопасна и непродуктивна. Так появились специализированные платформы для Data Science.. Они представляют собой программные центры, которые дают возможность устранить большинство проблем, связанных с Data Science, и помогают компаниям быстрее и эффективнее получать из данных полезную информацию.
Централизованная платформа машинного обучения дает возможность специалистам работать коллективно, используя наиболее привычные им инструменты на основе открытого исходного кода, и синхронизировать наработки с помощью системы контроля версий.
Платформа для Data Science сокращает потребление ресурсов и способствует внедрению инноваций. С ее помощью специалисты обмениваются материалами, результатами и отчетами. Она обеспечивает оптимизацию процессов за счет простого управления и использования лучших практик.
Лучшие платформы для Data Science позволяют:
Платформы для Data Science обеспечивают совместную работу таких специалистов, как эксперты по анализу данных, гражданские специалисты по Data Science, , специалисты по обработке данных, а также инженеры и специалисты по машинному обучению. Например, специалисты по Data Science получают возможность развертывать модели в качестве API, упрощая интеграцию своих решений в приложения. Доступ к инструментам, данным и инфраструктуре осуществляется без помощи ИТ-администратора.
Спрос на платформы для Data Science растет в геометрической прогрессии. По ожиданиям экспертов, в ближайшее время этот сегмент рынка продолжит расти на более чем 39 % в год и к 2025 году будет оцениваться в 385 млрд долларов.
При выборе платформы для Data Science необходимо учитывать следующие соображения:
Ваша организация готова к внедрению платформы для Data Science, если Вы отмечаете, что:
Платформа для Data Science может оказаться действительно ценной для вашей компании. Платформа Oracle для Data Science имеет широкий спектр сервисов, обеспечивающих комплексный подход к работе, призванный ускорить развертывание моделей и улучшить результаты анализа данных.