В большинстве организаций контроль над процессами Data Science обычно осуществляют руководители трех специальностей:
Бизнес-менеджеры: совместно с группой по изучению данных определяют задачу и разрабатывают стратегию анализа. Бизнес-руководитель может являться руководителем отдела (например, маркетингового, коммерческого или финансового) и возглавлять группу Data Science. Он координирует работу над проектом совместно с главой группы Data Science и ИТ-руководителем.
ИТ-менеджеры:ИТ-руководитель несет ответственность за инфраструктуру и архитектуру для выполнения операций по изучению данных. Он осуществляет постоянный мониторинг операций и ресурсов для обеспечения эффективности и безопасности. ИТ-руководитель также может нести ответственность за создание и обновление рабочей среды ИТ.
Менеджеры по изучению данных:контролируют работу группы по изучению данных и выполнение ею повседневных задач. Он несет ответственность за привлечение и обучение специалистов, а также планирование и мониторинг проекта.
Но самым важным игроком в этом процессе является специалист по анализу данных.
Наука о данных возникла совсем недавно. Она зародилась на стыке статистического анализа и интеллектуального анализа данных. Журнал The Data Science Journal впервые был издан в 2002 году Международным советом по науке: комитетом по данным для науки и технологий. К 2008 году появились специалисты по анализу данных, и началось быстрое развитие этой отрасли. Несмотря на то, что все больше высших учебных заведений готовят специалистов по изучению данных, их по-прежнему не хватает.
В обязанности специалиста по анализу данных входят разработка стратегий анализа, подготовка данных для анализа, исследование, анализ и визуализация данных, разработка моделей на основе данных с использованием таких языков программирования, как Python и R, и внедрение моделей в приложения.
Специалист по изучению данных работает не один. Для эффективного изучения данных требуется команда из представителей различных специальностей. Помимо специалиста по изучению данных в нее должен входить бизнес-аналитик, который определяет задачу; специалист по обработке данных, который отвечает за подготовку данных и получение к ним доступа; архитектор ИТ-систем, который занимается обслуживанием необходимых процессов и инфраструктуры; а также разработчик приложений, который внедряет модели или результаты анализа в приложения и продукты.
Несмотря на преимущества, которые изучение данных дает бизнесу, и большие объемы инвестиций в эту отрасль, не всем компаниям удается использовать свои данные с максимальной выгодой для себя. Нанятые специалисты приступают к разработке программ по изучению данных, однако сталкиваются с неудовлетворительной организацией процессов и вынуждены использовать разнородные, плохо сочетающиеся инструменты и программы. Чтобы обеспечить окупаемость инвестиций, необходимо более строгое централизованное руководство.
Отсутствие его создает множество проблем.
Специалисты по изучению данных не могут работать эффективно. Доступ к данным и ресурсам для анализа предоставляет ИТ-администратор, т. е. специалисты тратят время на ожидание. Получив доступ, команда специалистов по изучению данных может анализировать их, используя различные и, возможно, несовместимые инструменты. Например, модель может быть разработана с использованием языка R, однако приложение, в котором ее планируется использовать, написано на другом языке. Именно поэтому на внедрение моделей в приложения порой требуется несколько недель, а то и месяцев.
Разработчики приложений не могут использовать модели машинного обучения напрямую. Нередко разработчики приложений получают модели обучения, которые не готовы к развертыванию в приложения. Недостаток гибкости не дает развертывать модели во всех требуемых сценариях и вынуждает разработчиков приложений вносить исправления.
ИТ-администраторы тратят слишком много времени на оказание поддержки. Число инструментов на основе открытого кода постоянно растет, что означает увеличение нагрузки на администраторов. Например, специалисты по изучению маркетинговых данных и финансовых данных используют совершенно разные инструменты. Они также используют разные процессы, т. е. администраторам постоянно приходится вносить изменения и дополнения в инфраструктуру.
Бизнес-руководители не обладают нужным уровнем понимания проблемы. Процессы изучения данных не всегда интегрированы в процессы и системы для принятия бизнес-решений, и не все руководители разбираются в специфике этой деятельности на должном уровне. Им сложно понять, почему на разработку прототипа и внедрение его в производство требуется столько времени, а отсутствие быстрых результатов ведет к снижению финансирования.
Во многих компаниях осознали, что без интегрированной платформы отрасль Data Science неэффективна, небезопасна и непродуктивна. Так появились специализированные платформы для Data Science.. Они представляют собой программные центры, которые дают возможность устранить большинство проблем, связанных с Data Science, и помогают компаниям быстрее и эффективнее получать из данных полезную информацию.
Централизованная платформа машинного обучения дает возможность специалистам работать коллективно, используя наиболее привычные им инструменты на основе открытого исходного кода, и синхронизировать наработки с помощью системы контроля версий.
Платформа для Data Science сокращает потребление ресурсов и способствует внедрению инноваций. С ее помощью специалисты обмениваются материалами, результатами и отчетами. Она обеспечивает оптимизацию процессов за счет простого управления и использования лучших практик.
Лучшие платформы для Data Science позволяют:
Платформы для Data Science обеспечивают совместную работу таких специалистов, как эксперты по анализу данных, гражданские специалисты по Data Science, , специалисты по обработке данных, а также инженеры и специалисты по машинному обучению. Например, специалисты по изучению данных получают возможность развертывать модели в качестве API для легкой интеграции их в приложения. Доступ к инструментам, данным и инфраструктуре осуществляется без помощи ИТ-администратора.
Спрос на платформы для изучения данных растет в геометрической прогрессии. По ожиданиям экспертов, в ближайшее время этот сегмент рынка продолжит расти на более чем 39 % в год и к 2025 году будет оцениваться в 385 млрд долларов.
При выборе платформы для изучения данных необходимо учитывать следующие соображения:
Проектный интерфейс для облегчения совместной работы. Платформа должна помогать специалистам в работе над моделью, от проектирования до внедрения в производство, и обеспечивать доступ к данным и ресурсам в режиме самообслуживания.
Интеграция и гибкость. Убедитесь, что платформа поддерживает современные инструменты на основе открытого кода, наиболее популярные системы для управления версиями, такие как GitHub, GitLab и Bitbucket, а также интеграцию с другими ресурсами.
Возможности масштабирования. По мере развития бизнеса и увеличения команды платформа должна иметь возможность расширяться. Обращайте внимание на такие характеристики, как высокая доступность, эффективные средства управления доступом и поддержка большого числа одновременных пользователей.
Самообслуживание в Data Science. Выбирайте платформу, которая снимет нагрузку с администраторов и инженеров ИТ и поможет специалистам по анализу данных мгновенно развертывать среды, отслеживать работу над проектами и внедрять модели в производственной среде.
Обеспечение упрощенного развертывания. Развертывание и подготовка модели к работе является одним из наиболее важных этапов жизненного цикла машинного обучения, которому зачастую не уделяется должного внимания. Выбирайте сервисы, которые упрощают подготовку моделей к работе, будь то предоставление API или способа построения моделей, обеспечивающего их простую интеграцию.
Ваша организация готова к внедрению платформы для Data Science, если Вы отмечаете, что:
Платформа для Data Science может оказаться действительно ценной для вашей компании. Платформа Oracle для изучения данных имеет широкий спектр сервисов, обеспечивающих комплексный подход к работе, призванный ускорить развертывание моделей и улучшить результаты анализа данных.