Ничего не найдено

По вашему запросу ничего не найдено.

Рекомендуем сделать следующее:

  • Проверьте правильность написания ключевых слов.
  • Используйте синонимы введенных ключевых слов, например “приложение” вместо “программное обеспечение”.
  • Начните новый поиск.
Свяжитесь с нами Вход в Oracle Cloud

Что такое большие данные?

Определение больших данных

Большие данные: что именно обозначает этот термин?

Большие данные — это разнообразные данные, которые поступают с постоянно растущей скоростью и объем которых постоянно растет. Таким образом, три основных свойства больших данных — разнообразие, высокая скорость поступления и большой объем.

Если говорить простыми словами, большие данные — это более емкие и сложные наборы данных, особенно из нестандартных источников. Размер этих наборов данных настолько велик, что традиционные программы для обработки не могут с ними справиться. Но эти огромные объемы данных можно использовать для решения бизнес-задач, которые раньше казались слишком сложными.

Основные свойства больших данных

Объем Количество данных — важный фактор. При работе с большими данными Вам потребуется обрабатывать внушительные объемы неструктурированных данных низкой плотности. Ценность таких данных не всегда известна. Это могут быть данные каналов Twitter, данные посещаемости веб-страниц, а также данные мобильных приложений, сетевой трафик, данные датчиков. В некоторые компании могут поступать десятки терабайт данных, в другие — сотни петабайт.
Скорость Скорость в данном контексте — это скорость приема данных и, возможно, действий на их основе. Обычно высокоскоростные потоки данных поступают прямо в оперативную память, а не записываются на диск. Некоторые «умные» продукты, функционирующие на основе Интернета, работают в режиме реального или практически реального времени. Соответственно, такие данные требуют оценки и действий в реальном времени.
Разнообразие Разнообразие означает, что доступные данные принадлежат к разным типам. Традиционные типы данных структурированы и могут быть сразу сохранены в реляционной базе данных. С появлением больших данных данные стали поступать в неструктурированном виде. Такие неструктурированные и полуструктурированные типы данных как текст, аудио и видео требуют дополнительной обработки для определения их значения и поддержки метаданных.

Ценность—и достоверность—больших данных

За прошедшие годы у больших данных появились две дополнительных характеристики: ценность и достоверность. Данные имеют внутренне присущую им ценность. Однако’чтобы они приносили пользу, эту ценность необходимо раскрыть. Не менее важно то, насколько достоверны Ваши данные—и насколько им можно доверять?

Сегодня большие данные стали разновидностью капитала. Подумайте о крупнейших технологических компаниях. Ценность их предложений в значительной степени зависит от данных, которые они’постоянно анализируют, чтобы повышать эффективность и разрабатывать новые продукты.

Новейшие достижения в сфере технологий позволили значительно снизить стоимость хранилищ и вычислений, что дает возможность хранить и обрабатывать постоянно растущие объемы данных. Современные технологии позволяют хранить и обрабатывать больше данных за меньшую стоимость, что дает Вам возможность принимать более точные и взвешенные бизнес-решения.

Извлечение ценности из больших данных не сводится только к их анализу (это их отдельное преимущество). Речь’идет о комплексном исследовательском процессе с участием специалистов по глубокому анализу, корпоративных пользователей и руководителей, которые будут задавать правильные вопросы, выявлять шаблоны, делать обоснованные предположения и предсказывать поведение.

Но как мы к этому пришли?

История больших данных

Хотя сама по себе концепция больших данных не нова, изначально большие наборы данных начали использовать в 1960‘-70-х гг., когда появились первые в мире ЦОД и реляционные базы данных.

К 2005 году бизнес начал осознавать, насколько велик объем данных, которые пользователи создают при использовании Facebook, YouTube и других интернет-сервисов. В том же году появилась платформа Hadoop на основе открытого кода, которая была создана специально для хранения и анализа наборов больших данных. В то же время начала набирать популярность методология NoSQL.

Появление платформ на основе открытого кода, таких как Hadoop и позднее Spark, сыграло значительную роль в распространении больших данных, так как эти инструменты упрощают обработку больших данных и снижают стоимость хранения. За прошедшие годы объемы больших данных возросли на порядки. Огромные объемы данных—по-прежнему появляются в результате деятельности пользователей, но’теперь данные производят не только они.

С появлением Интернета вещей (IoT) все большее число устройств получает подключение к Интернету, что позволяет собирать данные о моделях действий пользователей и работе продуктов. А когда появились технологии машинного обучения, объем данных вырос еще больше.

Большие данные имеют долгую историю развития, однако их потенциал еще далеко не раскрыт. Облачные вычисления раздвинули границы применения больших данных. Облачные технологии обеспечивают по-настоящему гибкие возможности масштабирования, что позволяет разработчикам развертывать кластеры для тестирования выборочных данных по требованию. Графические базы данных также становятся все более важными благодаря их способности отображать огромные объемы данных для предоставления быстрой и всеобъемлющей аналитики.


Преимущества больших данных

  • Большие данные дают возможность получать более полные ответы, поэтому они предоставляют больше информации.
  • Более подробные ответы означают, что Вы можете быть уверены в достоверности данных,—что обеспечивает абсолютно новый подход к решению задач.

Примеры использования больших данных

Большие данные можно применять в самых различных сферах деятельности — от взаимодействия с заказчиками до аналитики. Вот лишь несколько сценариев практического использования.

Разработка продуктов Такие компании как Netflix и Procter & Gamble используют большие данные для прогнозирования потребительского спроса. Они создают предиктивные модели для новых продуктов и услуг, классифицируя ключевые атрибуты предыдущих или существующих продуктов и моделируя взаимосвязь между этими атрибутами и коммерческим успехом предложений. Кроме того, P&G используют данные и статистику, получаемые из фокус-групп, социальных сетей, а также по результатам рыночных тестов и пробных продаж, после чего выпускают новые продукты.
Предиктивное управление обслуживанием Факторы, которые позволяют прогнозировать сбои механики, могут скрываться в недрах структурированных данных, таких как год, марка и модель оборудования, или в неструктурированных данных, таких как записи журналов, данные датчиков, сообщения об ошибках и сведения о температуре двигателя. Проанализировав индикаторы вероятных проблем до их возникновения, компании могут повысить экономическую эффективность техобслуживания и максимально продлить срок службы запчастей и оборудования.
Качество обслуживания клиентов Борьба за заказчиков в самом разгаре. Сегодня получить точные данные о качестве обслуживания клиентов проще, чем когда-либо. Большие данные позволят Вам извлечь полезные сведения из соцсетей, информации о посещении веб-сайтов и других источников, таким образом повысив качество взаимодействия с клиентами и сделав свои предложения максимально полезными. Обеспечьте индивидуальный подход, сократите отток клиентской базы и предотвращайте возникновение проблем.
Обнаружение несанкционированного доступа и соблюдение нормативных требований Когда дело касается безопасности, речь идет не просто о паре хакеров:—против Вас’выступают целые команды опытных специалистов. Нормативные требования и стандарты безопасности постоянно меняются. Большие данные позволяют определять шаблоны, характерные для мошенников, и собирать значительные объемы данных, чтобы ускорить предоставление нормативной отчетности.
Машинное обучение Сегодня машинное обучение — одна из самых популярных тем для обсуждения. И данные—— в особенности большие данные—— являются одной из причин этой популярности. Сегодня мы можем обучать машины вместо того, чтобы программировать их. Именно доступность больших данных сделала это возможным.
Операционная эффективность Операционная эффективность редко становится обсуждаемой темой, однако именно’в этой области большие данные играют самую значительную роль. Большие данные позволяют получать доступ к сведениям о производстве, мнении заказчиков и доходах, а также анализировать эти и другие факторы, чтобы сократить число простоев и прогнозировать будущий спрос. Большие данные также позволяют принимать более взвешенные решения в соответствии с рыночным спросом.
Внедрение инноваций Большие данные позволяют выявлять взаимозависимости между пользователями, учреждениями и компаниями, обрабатывать эти взаимозависимости и определять новые способы применения полученных сведений. Используйте результаты исследований данных, чтобы повысить эффективность финансовых решений и планирования. Изучайте тенденции и желания покупателей, чтобы выпускать новые продукты и услуги. Внедрите динамическое ценообразование. Возможности поистине безграничны.

Сложности при использовании больших данных

Большие данные — это и большие возможности и немалые трудности.

Прежде всего большие данные предсказуемо занимают много места. Хотя новые технологии хранения постоянно развиваются, объемы данных возрастают вдвое почти каждые два года. Компании до сих пор сталкиваются с проблемами роста объемов данных и их эффективного хранения.

Но недостаточно просто найти большое хранилище. Данные необходимо использовать, чтобы они приносили выгоду, и размер этой выгоды зависит от их обработки. Чистые данные, то есть данные, актуальные для заказчика и организованные для эффективного анализа, требуют тщательной обработки. Специалисты по изучению данных тратят от 50 до 80 % рабочего времени на обработку и подготовку данных для использования.

И, наконец, технологии больших данных развиваются семимильными шагами. Несколько лет назад Apache Hadoop была самой популярной технологией для работы с большими данными. Платформа Apache Spark появилась в 2014 году. Сегодня оптимальным подходом является совместное использование этих двух платформ. Чтобы успевать за развитием больших данных, требуется прилагать большие усилия.

Ознакомьтесь с дополнительными материалами о больших данных:

Как работают большие данные

Большие данные позволяют извлекать новые ценные сведения, которые открывают новые возможности и бизнес-модели. Чтобы начать работу с большими данными, необходимо выполнить три действия.

1.  Интеграция.
Большие данные позволяют объединять данные из разрозненных источников и приложений. Традиционные механизмы интеграции данных, такие как средства для извлечения, преобразования и загрузки данных (ETL), не справляются с подобными задачами. Для анализа наборов данных размером в терабайт или даже петабайт нужны новые стратегии и технологии.

Во время этапа интеграции происходит добавление, обработка и форматирование данных, чтобы корпоративным аналитикам было удобно с ними работать.

2.  Для управления
большими данными требуется хранилище. Решение для хранения может быть размещено в локальной или облачной среде или и там и там. Вы можете хранить данные в предпочтительном формате и применять желаемые требования к обработке (и необходимые механизмы обработки) к наборам данным по мере необходимости. Большинство компаний выбирают решение для хранения данных в зависимости от того, где они хранятся в настоящее время. Облачные хранилища пользуются растущей популярностью, так как поддерживают актуальные требования к вычислениям и позволяют задействовать ресурсы по мере надобности.

3.  Аналитика.
Ваши вложения в большие данные окупятся сполна, когда Вы приступите к анализу данных и начнете действовать, исходя из полученных сведений. Обеспечьте новый уровень прозрачности благодаря визуальному анализу разнообразных наборов данных. Используйте глубокий анализ данных, чтобы совершать новые открытия. Делитесь своими открытиями с другими. Создавайте модели данных с помощью машинного обучения и искусственного интеллекта. Примените свои данные на деле.

Лучшие рекомендации по работе с большими данными

Чтобы помочь Вам в освоении новой технологии, мы подготовили список советов, которым рекомендуем следовать. Ниже приведены наши рекомендации по созданию надежного фундамента для работы с большими данными.

Согласуйте цели изучения данных с бизнес-задачами Более емкие наборы данных позволяют совершать новые открытия. Поэтому важно планировать вложения в специалистов, организацию и инфраструктуру исходя из четко поставленных бизнес-задач, чтобы гарантировать постоянное привлечение инвестиций и финансирование. Чтобы понять, на верном ли Вы пути, спросите себя, каким образом большие данные поддерживают приоритеты бизнеса и ИТ и способствуют достижению важнейших целей. Например, речь может идти о фильтрации веб-журналов для понимания тенденций в интернет-торговле, анализе отзывов заказчиков в социальных сетях и взаимодействия со службой поддержки, а также изучении методов статистической корреляции и их сопоставлении с данными о заказчиках, продукции, производстве и проектировании.
Используйте стандарты и руководства, чтобы компенсировать недостаток квалификации Нехватка навыков является одним из наиболее существенных препятствий на пути к извлечению выгоды из больших данных. Этот риск можно снизить, если внести технологии, планы и решения, связанные с большими данными, в программу управления ИТ. Стандартизация подхода позволит эффективнее управлять расходами и ресурсами. При внедрении решений и стратегий, имеющих отношение к большим данным, необходимо заранее оценить требуемый уровень компетенции и принять меры по устранению недостатков в навыках. Речь может идти об обучении или переобучении существующего персонала, найме новых специалистов или обращении в консалтинговые фирмы.
Оптимизируйте передачу знаний с помощью центров повышения квалификации Используйте центры повышения квалификации для обмена знаниями, наблюдения и управления проектной коммуникацией. Независимо от того, начинаете ли Вы работу с большими данными или продолжаете, расходы на оборудование и ПО следует распределить по всем подразделениям компании. Такой структурированный и систематизированный подход помогает расширить возможности больших данных и повысить уровень зрелости информационной архитектуры в целом.
Согласование структурированных и неструктурированных данных приносит наилучшие результаты

Анализ больших данных сам по себе ценен. Однако Вы сможете извлечь еще большее полезных сведений за счет сопоставления и интеграции больших данных низкой плотности с уже используемыми структурированными данными.

Неважно, какие данные Вы собираете — о заказчиках, продукции, оборудовании или окружающей среде, — цель состоит в том, чтобы добавить больше релевантных единиц информации в эталонные и аналитические сводки и обеспечить более точные выводы. Например, важно различать отношение всех заказчиков от отношения наиболее ценных из них. Именно поэтому многие компании рассматривают большие данные как неотъемлемую часть существующего набора средств бизнес-анализа, платформ хранения данных и информационной архитектуры.

Не забывайте, что процессы и модели больших данных могут выполняться и разрабатываться как человеком, так и машинами. Аналитические возможности больших данных включают статистику, пространственный анализ, семантику, интерактивное изучение и визуализацию. Использование аналитических моделей позволяет соотносить различные типы и источники данных, чтобы устанавливать связи и извлекать полезные сведения.

Обеспечение производительности лабораторий по изучению данных

Обнаружение полезных сведений в данных не всегда обходится без сложностей. Иногда мы даже не знаем, что именно ищем. Это ожидаемо. Руководство и специалисты по ИТ должны с пониманием относиться к отсутствию четкой цели или требований.

В то же время специалисты по анализу и изучению данных должны тесно сотрудничать с коммерческими подразделениями, чтобы ясно представлять, в каких областях имеются пробелы и каковы требования бизнеса. Чтобы обеспечить интерактивное исследование данных и возможность экспериментов со статистическими алгоритмами, необходимы высокопроизводительные рабочие среды. Убедитесь, что в тестовых средах есть доступ ко всем необходимым ресурсам и что они надлежащим образом контролируются.

Согласование с облачной операционной моделью Технологии больших данных требуют доступа к широкому набору ресурсов для итеративных экспериментов и текущих производственных задач. Решения для больших данных охватывают все области деятельности, включая транзакции, основные, эталонные и сводные данные. Тестовые среды для анализа должны создаваться по требованию. Управление распределением ресурсов играет важную роль в обеспечении контроля за всем потоком данных, включая предварительную и последующую обработку, интеграцию, обобщение в базе данных и аналитическое моделирование. Правильно спланированная стратегия предоставления ресурсов для частных и общедоступных облаков и обеспечения безопасности имеет ключевое значение при поддержке этих меняющихся требований.