Ничего не найдено

По Вашему запросу ничего не найдено.

Рекомендуем сделать следующее:

  • Проверьте правильность написания ключевых слов.
  • Используйте синонимы введенных Вами ключевых слов, например “приложение” вместо “программное обеспечение”.
  • Попробуйте воспользоваться одним из популярных поисковых запросов ниже.
  • Начните новый поиск.
Актуальные вопросы

Определение науки о данных

Вот простое определение Data Science.

Data Science — это область на стыке статистики, научных методов и аналитической обработки данных, которая помогает извлекать ценные сведения из данных. Специалисты по Data Science отличаются наличием ряда навыков, необходимых, чтобы анализировать данные, полученные из различных источников (сети, смартфоны, клиенты, датчики и т. д.).

Data Science. Нераскрытый ресурс для машинного обучения

Data Science является на сегодняшний день одним из наиболее интересных направлений. Но почему это так важно?

Потому что компании сидят на сокровищнице, которой являются данные. Современные технологии сделали возможным создание и хранение беспрецедентных объемов информации. Как следствие, объемы данных стремительно выросли. По оценкам специалистов, 90 % всех данных в мире созданы за последние два года. Например, пользователи Facebook загружают 10 миллионов фотографий каждый час.

Но эти данные зачастую просто лежат в базах и озерах данных и практически не используются.

Компании имеют возможность использовать данные, собранные и хранящиеся с помощью этих технологий, для разработки инновационных решений — но только если они могут их интерпретировать. Им на помощь приходит Data Science.

Data Science определяет тенденции и извлекает идеи, которые предприятия могут использовать, чтобы принимать более взвешенные решения и улучшать продукты и услуги. Пожалуй, важнее всего то, что это позволяет моделям машинного обучения учиться на громадных объемах данных, вносимых в них, а не отдавать все на откуп бизнес-аналитиков в ожидании того, что они смогут найти в данных.

Данные — это основа инноваций, однако их главная ценность заключается в информации, которую специалисты могут из них извлечь для последующего использования.

В чем’между наукой о данных, искусственным интеллектом и машинным обучением?

Чтобы лучше понимать, что такое data science—и как изучить эту дисциплину—, в’равной степени важно знать и другие термины, относящиеся к этой области, среди которых искусственный интеллект (ИИ) и машинное обучение. Эти термины зачастую’используются как синонимы, но здесь есть нюансы.

Вот простое объяснение:

  • ИИ означает программирование компьютера таким образом, чтобы он в некотором роде имитировал поведение человека.
  • Data Science — это одна из областей ИИ, которая в большей степени относится к пересекающимся друг с другом областям статистики, научных методов и аналитической обработки данных—, которые предназначены для получения значимой, полезной информации из больших массивов данных.
  • Машинное обучение — это одна из областей ИИ, которая состоит из методов, позволяющих компьютерам принимать решения на основе данных и реализовывать приложения ИИ.
    Приведем еще одно определение.
  • Глубокое обучение — это область машинного обучения, которая позволяет компьютерам решать более сложные задачи.

Как Data Science преобразует бизнес

Компании используют Data Science, чтобы оптимизировать продукты и услуги и получать конкурентные преимущества. Примеры использования Data Science и машинного обучения:

  • Определение заказчиков, которые могут уйти, путем анализа данных операторского центра, чтобы отдел маркетинга мог предпринять усилия по их удержанию.
  • Повышение эффективности путем анализа загруженности транспортных каналов, погодных условий и других факторов, чтобы логистические компании могли ускорить доставку и сократить расходы.
  • Анализ данных медицинских тестов и описания симптомов, чтобы улучшить и ускорить постановку диагноза и эффективнее лечить болезни.
  • Оптимизация цепи поставок путем прогнозирования времени, когда оборудование может выйти из строя.
  • Выявление мошенничества в сфере финансовых услуг путем определения подозрительного поведения и аномальных действий.
  • Увеличение продаж путем выдачи рекомендаций для клиентов на основании покупок, сделанных ими ранее.

Многие компании сделали Data Science своим приоритетом и вкладывают в эту область значительные средства. Согласно недавнему исследованию , проведенному Gartner среди более чем 3000 генеральных директоров, респонденты назвали аналитику данных и бизнес-аналитику основными технологиями для достижения успеха. По мнению опрошенных CIO, эти технологии имеют наибольшее стратегическое значение, поэтому в них вкладываются соответствующие средства.

Как проводится процесс анализа данных в рамках Data Science

Data Science и принятие решений на основе данных — это итерационный, а не линейный процесс. Тем не менее, стандартный цикл анализа данных обычно включает в себя следующие этапы:

Планирование  Определение задач и потенциальных результатов проекта.

Построение модели данных  Для построения моделей машинного обучения специалисты по анализу данных зачастую используют различные библиотеки с открытым исходным кодом или средства, работающие в базах данных. Пользователям часто требуются API, чтобы упростить получение данных, их профилирование, визуализацию или разработку функций. Для этого им требуются правильные инструменты, а также доступ к правильным данным и другие ресурсы, такие как вычислительные мощности.

Оценка модели:  Специалистам по анализу данных необходимо добиться высокого процента точности для своих моделей. Только после этого их можно будет с уверенностью использовать. При оценке моделей обычно формируется сложный набор метрик и визуализаций, позволяющих измерить точность работы моделей с актуальными данными, а также ранжировать их по времени, чтобы добиться оптимального поведения в продуктивной среде. При оценке моделей учитывается не только их производительность, но и ожидаемое базовое поведение.

Объяснение моделей:  Не всегда возможно объяснить внутреннюю механику результатов работы моделей машинного обучения понятным человеку языком, но способность делать это приобретает все большее значение. Специалистам по анализу данных требуются автоматически формируемые пояснения того, как определяется относительный вес и факторы важности, которые используются при формировании прогноза, а также подробное объяснение прогнозов, выдаваемых конкретными моделями.

Развертывание модели:  Применение обученной модели машинного обучения в нужных системах зачастую является сложным и трудоемким процессом. Его можно упростить путем реализации моделей в виде масштабируемых и безопасных API или использования моделей машинного обучения, работающих в базах данных.

Мониторинг моделей:  К сожалению, все не заканчивается развертыванием модели. Чтобы обеспечить надлежащую работу моделей, после развертывания необходимо вести постоянный мониторинг. Спустя какое-то время данные, на которых производилось обучение моделей, могут перестать быть релевантными для будущих прогнозов. Например, киберпреступники постоянно реализуют новые способы взлома учетных записей.

Инструменты для Data Science

Построение, оценка, развертывание и мониторинг моделей машинного обучения могут быть довольно сложным процессом. Именно по этой’причине постоянно разрабатываются новые инструменты для Data Science. Специалисты по анализу данных используют самые разные инструменты, чаще всего блокноты (notebooks) на основе открытого кода. Блокноты представляют собой веб-приложения для программирования и исполнения кода, визуализации данных и отображения результатов—в единой среде.

К числу самых популярных блокнотов относятся Jupyter, RStudio и Zeppelin. Блокноты очень удобны для выполнения анализа, однако неудобны для совместного использования. Эту проблему призваны решить платформы для Data Science.

Чтобы определить, какое средство Data Science подойдет именно Вам, важно ответить на следующие вопросы: Какие языки используют Ваши специалисты по анализу данных? Какие методы работы они предпочитают? Какие источники данных они используют?

Например, некоторые пользователи предпочитают иметь не зависящий от источников данных сервис, построенный на базе библиотек с открытым исходным кодом. Другие предпочитают скорость алгоритмов машинного обучения, работающих в базах данных.

Пройдите семинар по машинному обучению.

Кто контролирует процессы Data Science?

В большинстве компаний контроль над процессами Data Science обычно осуществляют руководители трех специальностей.

Бизнес-руководитель.  Эти менеджеры работают с группой Data Science по определению задач и разработке стратегии анализа. - Бизнес-руководитель может являться руководителем отдела (например, маркетингового, коммерческого или финансового) и возглавлять группу Data Science. Они координируют работу над проектом совместно с руководителями группы Data Science и ИТ.

ИТ-руководитель.  Ведущие ИТ-руководители несут ответственность за инфраструктуру и архитектуру, которые необходимы для работы Data Science. Они осуществляют постоянный мониторинг операций и ресурсов для обеспечения эффективности и безопасности. Они также могут нести ответственность за создание и обновление ИТ-платформы для группы Data Science.

Глава группы Data Science.  Эти менеджеры контролируют каждодневную работу группы Data Science. Они создают команды, которые могут сбалансировать развитие команды с планированием и мониторингом проекта.

Но самым важным игроком в этом процессе является специалист по анализу данных.

Что представляет собой специалист по Data Science?

Отдельная дисциплина Data Science возникла совсем недавно. Она зародилась на стыке статистического анализа и интеллектуального анализа данных. Первый номер журнала Data Science Journal вышел в 2002 году под руководством международного совета по науке: Комитета по использованию данных в науке и технологии. К 2008 году появились специалисты по анализу данных, и началось быстрое развитие этой отрасли. Несмотря на то что все больше высших учебных заведений готовят специалистов Data Scientists, их по-прежнему не хватает.

В обязанности специалиста по анализу данных’входят разработка стратегий анализа, подготовка данных для анализа, исследование, анализ и визуализация данных, разработка моделей на основе данных с использованием таких языков программирования, как Python и R, и внедрение моделей в приложения.

Специалист по анализу данных работает не один. Для эффективного изучения данных требуется команда из представителей различных специальностей. Помимо специалиста по анализу данных, в нее должны входить: бизнес-аналитик, который определяет задачу; специалист по обработке данных, который отвечает за подготовку данных и получение к ним доступа; архитектор ИТ-систем, который занимается обслуживанием необходимых процессов и инфраструктуры; разработчик приложений, который внедряет модели или результаты анализа в приложения и продукты.

Сложности при внедрении Data Science в компаниях

Несмотря на преимущества, которые Data Science дает бизнесу, и большие объемы инвестиций в эту отрасль, не всем компаниям удается использовать свои данные с максимальной выгодой для себя. Торопясь нанять соответствующих специалистов и разработать программы Data Science, некоторые компании получили неэффективные рабочие процессы таких команд, когда разные люди использовали разные инструменты и несовместимые между собой процессы. Чтобы обеспечить окупаемость инвестиций, необходимо более строгое централизованное руководство.

Отсутствие его создает множество проблем.

Специалисты по изучению данных не могут работать эффективно. Так как доступ к данным и ресурсам для анализа предоставляет ИТ-администратор, то специалисты часто ждут данные и ресурсы, которые им необходимы. Получив доступ к данным, специалисты должны проанализировать их, используя различные инструменты, которые нередко несовместимы между собой. Например, модель может быть разработана с использованием языка R, однако приложение, в котором ее планируется использовать, написано на другом языке. Поэтому на внедрение моделей в приложения порой требуется несколько недель, а то и месяцев—.

Разработчики приложений не могут использовать модели машинного обучения напрямую. Нередко разработчики приложений получают модели обучения, которые не готовы к использованию в приложениях. Недостаток гибкости не дает применять модели во всех требуемых сценариях и вынуждает разработчиков приложений вносить исправления.

ИТ-администраторы тратят слишком много времени на сопровождение. Число инструментов на основе открытого кода постоянно растет, что означает увеличение нагрузки на администраторов. Например, специалисты по анализу маркетинговых данных и анализу финансовых данных могут использовать совершенно разные инструменты. Они также используют разные процессы, т. е. администраторам постоянно приходится вносить изменения и дополнения в инфраструктуру.

Бизнес-руководители слишком далеки от проблем Data Science. Процессы Data Science не всегда интегрированы в бизнес-процессы и системы для принятия решений, и не все руководители разбираются в специфике этой деятельности на должном уровне. Им сложно понять, почему на разработку прототипа и внедрение его в производство требуется столько времени, а отсутствие быстрых результатов ведет к снижению финансирования.

Подробнее о жизненном цикле науки о данных (PDF)

Платформы для Data Science предоставляют новые возможности

Во многих компаниях осознали, что без интегрированной платформы отрасль Data Science неэффективна, небезопасна и трудна в масштабировании. Так появились специализированные платформы для Data Science.. Они представляют собой программные центры, в которых работает Data Science. Хорошая платформа дает возможность устранить большинство проблем, связанных с Data Science, и помогает компаниям быстрее и эффективнее получать из данных полезную информацию.

Централизованная платформа машинного обучения дает возможность специалистам работать коллективно, используя наиболее привычные им инструменты на основе открытого исходного кода, и синхронизировать работу с помощью системы контроля версий.

Преимущества платформы для Data Science

Платформа для Data Science сокращает потребление ресурсов и способствует внедрению инноваций. С ее помощью специалисты обмениваются кодом, результатами и отчетами. Это устраняет узкие места в процессах за счет простого управления и использования практических рекомендаций.

Лучшие платформы для Data Science позволяют:

  • Сделать работу специалистов по анализу данных более продуктивной, помогая им ускорить разработку и быстрее создавать модели с меньшим количеством ошибок
  • Упростить специалистам по анализу данных работу с большими объемами разнообразных данных
  • Создавать надежные приложения искусственного интеллекта корпоративного класса, которые работают без ошибок, аудируемы и стабильны

Платформы для Data Science обеспечивают совместную работу таких специалистов, как эксперты по анализу данных, гпользователи Data Science, специалисты по обработке данных, а также инженеры и специалисты по машинному обучению. Например, специалисты по Data Science получают возможность развертывать модели в качестве API, упрощая интеграцию своих решений в приложения. Доступ к инструментам, данным и инфраструктуре осуществляется без ожидания ИТ-администратора.

Спрос на платформы для Data Science растет в геометрической прогрессии. По ожиданиям экспертов, в ближайшее время этот сегмент рынка продолжит расти на более чем 39 % в год и к 2025 году будет оцениваться в 385 млрд долларов.

Что нужно специалисту по обработке данных от платформы

При выборе платформы для Data Science необходимо учитывать следующие соображения.

Проектный интерфейс для облегчения совместной работы. Платформа должна помогать специалистам в работе над моделью, от проектирования до внедрения в производство, Это должно обеспечивать доступ каждого члена команды к данным и ресурсам в режиме самообслуживания.

Сделайте ставку на интеграцию и гибкость. Убедитесь, что платформа поддерживает современные инструменты на основе открытого кода, наиболее популярные системы для управления версиями, такие как GitHub, GitLab и Bitbucket, а также интеграцию с другими ресурсами.

Возможности масштабирования в корпоративных масштабах. По мере развития бизнеса и увеличения команды платформа должна иметь возможность расширяться. Обращайте внимание на такие характеристики, как высокая доступность, эффективные средства управления доступом и поддержка большого числа одновременных пользователей.

Сделайте Data Science похожим на самообслуживание. Выбирайте платформу, которая снимет нагрузку с администраторов и инженеров ИТ и поможет специалистам по анализу данных мгновенно развертывать среды, отслеживать работу над проектами и внедрять модели в производственной среде.

Обеспечение простого внедрения моделей. Развертывание и подготовка модели к работе являются одними из наиболее важных этапов жизненного цикла машинного обучения, которым зачастую не уделяется должного внимания. Выбирайте сервисы, которые упрощают подготовку моделей к работе, будь то предоставление API или способа построения моделей, обеспечивающего их простую интеграцию.

Когда переход на платформу для Data Science является правильным решением

Ваша компания готова к внедрению платформы для Data Science, если Вы отмечаете, что:

  • Имеются признаки понижения продуктивности и качества совместной работы
  • Модели машинного обучения невозможно отслеживать или воспроизводить
  • Модели никогда не доходят до производственной среды

Платформа для Data Science может оказаться действительно ценной для Вашей компании. Платформа Oracle’для Data Science имеет широкий спектр сервисов, обеспечивающих комплексный подход к работе, призванный ускорить развертывание моделей и улучшить результаты анализа данных.