Что такое большие данные?

Что такое Big Data — большие данные

Большие данные: что именно обозначает этот термин?

Чтобы разобраться в этом, полезно ознакомиться с историей. В 2001 году компания Gartner предложила следующее определение (которое до сих пор применяется): Большие данные — это разнообразные данные, которые поступают с постоянно растущей скоростью и объем которых постоянно растет. Таким образом, три основных свойства больших данных — разнообразие, высокая скорость поступления и большой объем.

Если говорить простыми словами, большие данные — это необычайно большие и сложные наборы данных, обычно из нестандартных источников. Размер этих наборов данных настолько велик, что традиционные программы для обработки не могут с ними справиться. Зато большие данные можно использовать для решения бизнес-задач, которые раньше казались слишком сложными.

Основные свойства больших данных

Объем Количество данных — важный фактор. Располагая ими в больших количествах, Вам потребуется обрабатывать большие объемы неструктурированных данных низкой плотности. Ценность таких данных не всегда известна. Это могут быть данные каналов Twitter, данные посещаемости веб-страниц, а также данные мобильных приложений, сетевой трафик, данные датчиков. В некоторые организации могут поступать десятки терабайт данных, в другие — сотни петабайт.
Скорость Скорость в данном контексте — это скорость приема данных и, возможно, действий на их основе. Обычно высокоскоростные потоки данных поступают прямо в оперативную память, а не записываются на диск. Некоторые "умные" продукты, функционирующие на основе Интернета, работают в режиме реального или практически реального времени. Соответственно, такие данные требуют оценки и действий в реальном времени.
Разнообразие Разнообразие означает, что доступные данные принадлежат к разным типам. Традиционные типы данных структурированы и могут быть сразу сохранены в реляционной базе данных. С появлением Big Data данные стали поступать в неструктурированном виде. Такие неструктурированные и полуструктурированные типы данных как текст, аудио и видео, требуют дополнительной обработки для определения их значения и поддержки метаданных.

Ценность и истинность больших данных

За прошедшие годы у больших данных появились две дополнительных характеристики: ценность и достоверность.

Данные имеют внутренне присущую им ценность. Однако чтобы они приносили пользу, эту ценность необходимо раскрыть. Не менее важно то, насколько достоверны Ваши данные — насколько им можно доверять?

Сегодня большие данные стали разновидностью капитала. Подумайте о крупнейших технологических компаниях. Ценность их предложений в значительной степени зависит от их данных, которые они постоянно анализируют, чтобы повышать эффективность и разрабатывать новые продукты.

Новейшие достижения в сфере технологий позволили значительно снизить стоимость хранилищ и вычислений, что дает возможность хранить и обрабатывать постоянно растущие объемы данных. Современные технологии позволяют хранить и обрабатывать больше данных за меньшую стоимость, что позволяет Вам принимать более точные и взвешенные бизнес-решения.

Извлечение ценности из больших данных не сводится только к их анализу (это их отдельное преимущество). Речь о комплексном исследовательском процессе с участием специалистов по глубокому анализу, корпоративных пользователей и руководителей, которые будут задавать правильные вопросы, выявлять шаблоны, делать обоснованные предположения и предсказывать поведение.

Но как мы к этому пришли?

История больших данных

Хотя сама по себе концепция больших данных не нова, первые большие наборы данных начали использовать в 1960-70 гг., когда появились первые в мире ЦОД и реляционные базы данных.

К 2005 году бизнес начал осознавать, насколько велик объем данных, которые пользователи создают при использовании Facebook, YouTube и других интернет-сервисов. В том же году появилась платформа Hadoop на основе открытого кода, которая была создана специально для хранения и анализа наборов больших данных. В то же время начала набирать популярность методология NoSQL.

Появление платформ на основе открытого кода, таких как Hadoop и позднее Spark, сыграло значительную роль в распространении больших данных, так как эти инструменты упрощают обработку больших данных и снижают стоимость хранения. За прошедшие годы объемы больших данных возросли на порядки. Огромные объемы данных появляются в результате деятельности пользователей — но теперь не только их.

С появлением Интернета вещей (IoT) все большее число устройств получает подключение к Интернету, что позволяет собирать данные о моделях действий пользователей и работе продуктов. А когда появились технологии машинного обучения, объем данных вырос еще больше.

Большие данные имеют долгую историю развития, однако их потенциал еще далеко не раскрыт. Облачные вычисления раздвинули границы применения больших данных еще шире. Облачные технологии обеспечивают по-настоящему гибкие возможности масштабирования, что позволяет разработчикам развертывать кластеры для тестирования выборочных данных по требованию.

Преимущества больших данных и аналитики:

  • Большие данные дают возможность получать более полные ответы, потому они предоставляют больше информации.
  • Более подробные ответы означают, что Вы можете быть более уверены в достоверности данных — что обеспечивает абсолютно новый подход к решению задач.

Примеры использования больших данных

Большие данные можно применять в самых различных сферах деятельности — от взаимодействия с заказчиками до аналитики. Вот лишь несколько сценариев практического использования. (Дополнительные примеры см. на странице Решения Oracle Big Data.)

Разработка продуктов Такие компании как Netflix и Procter & Gamble используют большие данные для прогнозирования потребительского спроса. Они классифицируют ключевые атрибуты существующих и снятых с использования продуктов и услуг и моделируют связи между этими атрибутами и коммерческим успехом предложений, чтобы создавать предиктивные модели для новых продуктов и услуг. Кроме того, P&G используют данные и статистику, получаемые от фокусных групп, а также из социальных сетей, по результатам рыночных тестов и пробных продаж, после чего выпускают новые продукты.
Предиктивное обслуживание Факторы, которые позволяют прогнозировать сбои механики, могут скрываться в недрах структурированных данных, таких как год, марка и модель оборудования, или в неструктурированных данных, таких как записи журналов, данные датчиков, сообщения об ошибках и сведения о температуре двигателя. Проанализировав индикаторы вероятных проблем до их возникновения, организации могут повысить экономическую эффективность техобслуживания и максимально продлить срок службы запчастей и оборудования.
Качество обслуживания клиентов Борьба за заказчиков в самом разгаре. Сегодня получить точные данные о качестве обслуживания клиентов проще, чем когда-либо. Большие данные позволят Вам извлечь полезные сведения из соцсетей, информации о посещении веб-сайтов и других источников, таким образом повысив качество взаимодействия с клиентами и сделав свои предложения максимально полезными. Обеспечьте индивидуальный подход, сократите отток клиентской базы и предотвращайте возникновение проблем.
Обнаружение несанкционированного доступа и соблюдение нормативных требований Когда дело касается безопасности, речь идет не просто о паре хакеров — против Вас выступают целые команды опытных специалистов. Нормативные требования и стандарты безопасности постоянно меняются. Большие данные позволяют определять шаблоны, характерные для мошенников, и собирать значительные объемы данных, чтобы ускорить предоставление нормативной отчетности.
Машинное обучение Сегодня машинное обучение — одна из самых популярных тем для обсуждения. И данные — в особенности большие данные — являются одной из причин этой популярности. Сегодня мы можем обучать машины вместо того, чтобы программировать их. Именно доступность больших данных сделала это возможным.
Операционная эффективность Операционная эффективность редко становится обсуждаемой темой, однако именно в этой области большие данные играют самую значительную роль. Большие данные позволяют получать доступ к сведениям о производстве, мнении заказчиков и доходах, а также анализировать эти и другие факторы, чтобы сократить число простоев и прогнозировать будущий спрос. Большие данные также позволяют принимать более взвешенные решения в соответствии с рыночным спросом.
Внедрение инноваций Большие данные позволяют выявлять взаимозависимости между пользователями, учреждениями и организациями, обрабатывать эти взаимозависимости и определять новые способы применения полученных сведений. Используйте результаты исследований данных, чтобы повысить эффективность финансовых решений и планирования. Изучайте тенденции и желания покупателей, чтобы выпускать новые продукты и услуги. Внедрите динамическое ценообразование. Возможности поистине безграничны.

Сложности при использовании больших данных

Большие данные — это большие возможности, но и немалые трудности.

Прежде всего большие данные предсказуемо занимают много места. Хотя новые технологии хранения постоянно развиваются, объемы данных возрастают вдвое почти каждые два года. Организации до сих пор сталкиваются с проблемами роста объемов данных и их эффективного хранения.

Но недостаточно просто найти большое хранилище. Данные необходимо использовать, чтобы они приносили выгоду, и размер этой выгоды зависит от обработки данных. Чистые данные, то есть данные, актуальные для клиента и организованные для эффективного анализа, требуют тщательной обработки. Специалисты по изучению данных тратят от 50 до 80% рабочего времени на обработку и подготовку данных для использования.

И, наконец, технологии больших данных развиваются семимильными шагами. Несколько лет назад Apache Hadoop была самой популярной технологией для работы с большими данными. Платформа Apache Spark появилась в 2014 году. Сегодня оптимальным подходом является совместное использование этих двух платформ. Чтобы успевать за развитием больших данных, требуется прилагать большие усилия.

Ознакомьтесь с дополнительными ресурсами о больших данных:

Как работают большие данные?

Большие данные позволяют извлекать новые ценные сведения, которые открывают новые возможности и бизнес-модели. Чтобы начать работу с большими данными, необходимо выполнить три действия.

1. Интеграция

Технология больших данных позволяет объединять данные из разрозненных источников и приложений. Традиционные механизмы интеграции, такие как средства для извлечения, преобразованияя и загрузки данных (ETL), не справляются с подобными задачами. Для анализа наборов данных размером в терабайт, а то и петабайт, нужны новые стратегии и технологии.

Во время этапа интеграции происходит добавление, обработка и форматирование данных, чтобы корпоративным аналитикам было удобно с ними работать.

2. Управление

Большим данным требуется хранилище. Решение для хранения может быть размещено в локальной или облачной среде или и там и там. Вы можете хранить данные в предпочтительном формате и применять желаемые требования к обработке (и необходимые механизмы обработки) к наборам данным по мере необходимости. Большинство организаций выбирают решение для хранения данных в зависимости от того, где они хранятся в настоящее время. Облачные хранилища пользуются растущей популярностью, так как поддерживают актуальные требования к вычислениям и позволяют задействовать ресурсы по мере надобности.

3. Анализ

Вложения в большие данные окупятся сполна, когда Вы приступите к анализу данных и начнете принимать действия, исходя из полученных сведений. Обеспечьте новый уровень прозрачности благодаря визуальному анализу разнообразных наборов данных. Используйте глубокий анализ данных, чтобы совершать новые открытия. Делитесь своими открытиями с другими. Создавайте модели данных с помощью машинного обучения и искусственного интеллекта. Примените свои данные на деле.

Лучшие практики при работе с большими данными

Чтобы помочь Вам в освоении новой технологии, мы подготовили список лучших практик, которых рекомендуем придерживаться. Ниже приведены наши рекомендации по созданию надежного фундамента для работы с большими данными.

Согласуйте цели изучения данных с бизнес-задачами Более обширные наборы данных позволяют совершать новые открытия. Поэтому важно планировать вложения в специалистов, организацию и инфраструктуру исходя из четко поставленных бизнес-задач, чтобы гарантировать постоянное привлечение инвестиций и финансирование. Чтобы понять, на верном ли Вы пути, спросите себя, каким образом большие данные поддерживают приоритеты бизнеса и ИТ и способствуют достижению важнейших целей. Например, речь может идти о фильтрации веб-журналов для понимания тенденций в интернет-торговле, анализе отзывов заказчиков в социальных сетях и взаимодействия со службой поддержки, а также изучении методов статистической корреляции и их сопоставлении с данными о заказчиках, продукции, производстве и проектировании.
Используйте стандарты и руководства, чтобы компенсировать недостаток квалификации Нехватка навыков является одним из наиболее существенных препятствий на пути к извлечению выгоды из больших данных. Этот риск можно снизить, если внести технологии, планы и решения, связанные с большими данными, в программу управления ИТ. Стандартизация подхода позволит эффективнее управлять расходами и ресурсами. При внедрении решений и стратегий, имеющих отношение к большим данным, необходимо заранее оценить необходимый уровень компетенции и принять меры по устранению недостатков в навыках. Речь может идти об обучении или переобучении существующего персонала, найме новых специалистов или обращении в консалтинговые фирмы.
Оптимизируйте передачу знаний с помощью центров повышения квалификации Используйте центры повышения квалификации для обмена знаниями, наблюдения и управления проектной коммуникацией. Независимо от того, начинаете ли Вы работу с большими данными или продолжаете, расходы на оборудование и ПО следует распределить по всем подразделениям организации. Такой структурированный и систематизированный подход помогает расширить возможности больших данных и повысить уровень зрелости информационной архитектуры в целом.
Согласование структурированных и неструктурированных данных приносит наибольшие преимущества

Анализ больших данных сам по себе ценен. Однако Вы сможете извлечь еще большее количество полезных сведений за счет сопоставления и интеграции больших данных низкой плотности с уже используемыми структурированными данными.

Неважно, какие данные Вы собираете — данные о заказчиках, продукции, оборудовании или окружающей среде — цель состоит в том, чтобы добавить больше релевантных единиц информации в эталонные и аналитические сводки и обеспечить более точные выводы. Например, важно различать отношение всех заказчиков от отношения наиболее ценных заказчиков. Именно поэтому многие организации рассматривают большие данные как неотъемлемую часть существующего набора средств бизнес-анализа, платформ хранения данных и информационной архитектуры.

Не забывайте, что процессы и модели больших данных могут выполняться и разрабатываться как человеком, так и машинами. Аналитические возможности больших данных включают статистику, пространственный анализ, семантику, интерактивное изучение и визуализацию. Использование аналитических моделей позволяет соотносить различные типы и источники данных, чтобы устанавливать связи и извлекать полезные сведения.

Обеспечение производительности лабораторий по изучению данных

Обнаружение полезных сведений в данных не всегда обходится без сложностей. Иногда мы даже не знаем, что именно ищем. Это нормально. Руководство и специалисты по ИТ должны с пониманием относиться к отсутствию четкой цели или требований.

В то же время специалисты по анализу и изучению данных должны тесно сотрудничать с коммерческими подразделениями, чтобы ясно представлять, в каких областях имеются пробелы и каковы требования бизнеса. Чтобы обеспечить интерактивное исследование данных и возможность экспериментов со статистическими алгоритмами, необходимы высокопроизводительные рабочие среды. Убедитесь, что в тестовых средах есть доступ ко всем необходимым ресурсам и что они надлежащим образом контролируются.

Согласование с облачной операционной моделью Технологии больших данных требуют доступа к широкому набору ресурсов для итеративных экспериментов и текущих производственных задач. Решения для больших данных охватывают все области деятельности, включая транзакции, основные, эталонные и сводные данные. Тестовые среды для анализа должны создаваться по требованию. Управление распределением ресурсов играет критически важную роль в обеспечении контроля за всем потоком данных, включая предварительную и последующую обработку, интеграцию, обобщение в базе данных и аналитическое моделирование. Правильно спланированная стратегия предоставления ресурсов для частных и общедоступных облаков и обеспечения безопасности имеет ключевое значение при поддержке этих меняющихся требований.