Июнь 2005


Тема номера: «Новейшие технологии: Oracle Spatial, RFID, Oracle Balance Scorecard, качество информации,…»


Джордж Демарест

Дзен и искусство информации
(Zen and the Art of Information, by
George Demarest)

Источник: часть I “Что есть качество данных?”: журнал “Oracle Magazine”, no.2, 2005,
http://www.oracle.com/technology/oramag/oracle/05-mar/o25info.html
часть II “Мастерство в несовершенном мире”: журнал “Oracle Magazine”, no.3, 2005,
http://www.oracle.com/technology/oramag/oracle/05-may/o35info.html

Часть I: Что есть качество данных?

Я стоял, кажется, парализованный недоступностью этого Вопроса. C расстоянием исчезали все детали комнаты, окружающие звуки поначалу оглушали, но после отражений превращались в рассеивающийся шепот, а затем и в тишину. И в очередной раз я был измучен своей явной неспособностью ответить на этот главный вопрос: "Что есть качество данных?" Но вот я выпил чашку кофе и почувствовал себя намного лучше.

К счастью, погоня за высшим качеством данных и, тем самым, за полезной деловой информацией, далеко не так мучительно как “Дзен и Искусство обслуживания мотоцикла” (Zen and the Art of Motorcycle Maintenance) Роберта Пирсига (Robert Pirsig). Но можем ли мы прийти к заключению в духе Дзен: Качество данных – это скорее процесс, чем пункт назначения. Почему же так? Потому, что получение полезной информации очень сильно зависит от вложенного в этот процесс человеческого времени и усилий. А со временем данные (и, следовательно, информация) меняются.

К примеру, посмотрим на стоимость вашего портфеля акций. Она может измениться за мгновение, вследствие сообщения об уровне дохода, либо судебного процесса, проходящего где-то там, или появления на горизонте нового изобретения. Но то же происходит со всеми видами информации предприятия. Буквально за секунды счастливый клиент может превратиться в ваш худший ночной кошмар, а потенциальный клиент, любитель сладкого, может заставить вам превысить лимиты из-за лишнего утреннего пончика.

В этой статье о качестве данных (и в ее продолжении) будут рассмотрены проблемы этой темы, затрагивающие, как аналитику (business intelligence), так и другие области. В продолжение этой статьи, ее 2-й части, обсуждается вызывающий все больший интерес один из наиболее важных на практике примеров качества данных - концентраторы данных (data hubs).

Информационное уравнение

Прежде чем идти дальше, уточним различие между данными и информацией. Эти термины часто используются, заменяя друг друга, что приводит к “размыванию” их значений в контексте нашего обсуждения. Чтобы прояснить ситуацию с ними, я сошлюсь на Али Эль Кортоби (Ali El Kortobi) и Поля Нарфа (Paul Narth) из команды разработчиков Oracle Warehouse Builder. Али и Пол много размышляют над качеством данных, и им не нужно кофе, чтобы думать над этой проблемой.

Первое, что Али написал на доске, когда я брал у него интервью для этой статьи, это:

Data ≠ Information
Данные не есть информация

OK, это вполне верно. Далее Али, чтобы объяснить различие между данными и информацией, предложил уравнение, которое оказалось столь элегантным и четким, что я назвал его теоремой Эль Кортоби-Нарф:

Information = quality (data + metadata)
Информация = качество * (данные + метаданные)

Попросту говоря, эта формула утверждает, что информация (то есть, то, что читается человеком, некая совокупность сведений (no-batteries-required information)) - это данные, для сбора и обмена которыми и разработаны наши компьютеры, плюс метаданные, что есть данные о данных, или контекст, и примененное к ним качество (quality applied). Математикам не стоит напрягаться и доказывать это, лучше принять это как факт. Если совсем просто, четкое отличие между данными и информацией заключается в применении контекста и качества.

Накопление данных (Data collection) - это простой процесс, который со временем становится еще проще и дешевле. С каждым Web-сайтом, приложением и домашним устройством, кажется, просто умирающими от желания сказать, как и что они думают, наши друзья из компаний EMC, NetApp и Seagate (производители систем внешней памяти) могут спать все более здоровым сном. Создание метаданных - это также хорошо понятый процесс, который можно реализовать, когда данные собраны.

Создание и ведение метаданных очень сильно влияет на нашу информационную теорему. А вот компонент “качество” нашего уравнения является самой трудной (и дорогой) ее частью. Согласно исследованию, проведенному Data Warehousing Institute, предприятия США теряют более чем US$600 миллиардов ежегодно из-за проблем с качеством данных.

Качество не связано с местом

Качество данных долгое время ассоциировалось с хранилищами данных, с представлением, что вы можете создать неуловимый "единственный истинный источник ", выбирая данные из многих исходных систем и затем, почистив (или преобразовав) их, загрузив данные в это самое хранилище данных. Было бы замечательно в этом случае, сидя рядом с вычислительной машиной, сказать "Вот здесь у меня хорошее качество данных!"

Но такого понимания уже недостаточно для написания полной истории качества данных. Качество данных более не может рассматриваться, как суждение класса "многие к одному". Профессионалы ИТ все чаще действуют из предположения, что многочисленные основные системы, а не только хранилища данных, требуют данных высокого качества для создания ценной информации. Конечно, такой подход "многие ко многим" к качеству данных требует средств и приемов, которые надо еще разрабатывать, чтобы итоговый уровень качества данных был выше. Вспомним метафору с обслуживанием мотоцикла, эта машина достигает пиковой производительности, когда все ее компоненты, скажем, сцепление, поршни, механизмы и регулирование функционируют наилучшим образом.

Корпорация Oracle работает над проблемами качества данных в течение ряда лет. Oracle Warehouse Builder - это один из наиболее заметных продуктов в этой области, который Gartner недавно поместила в группу лидеров своего "волшебного квадрата" по средствам ETL (extraction, transformation, loading - извлечение, преобразование, загрузка данных). Это признание является результатом спроса рынка на эту технологию. Gartner объясняет это так: "рыночный спрос на средства ETL возникает в новых областях", и эти средства применяются "за пределами царства аналитики (business intelligence)".

Это соображение учитывается командой разработчиков Oracle Warehouse Builder. Главная причина, почему Oracle Warehouse Builder приобретает популярность и новых пользователей, заключается в нарастающем внимании к T (преобразование) в ETL. Извлечение (и загрузка) данных из/в различные компьютерные системы - это зрелый и хорошо понятый процесс.

СУБД, сервер приложений и различные средства корпорации Oracle были отшлифованы для того, чтобы данные были переносимы и мобильны. Перемещение данных и экземпляров приложений, таблиц, табличных пространств, файлов и даже целых систем и центров данных было автоматизировано на высоком уровне и упрощено в последних поколениях наших продуктов.

Но именно "T" выглядит угрожающим. Transformation: длинное слово, которое представляет огромную проблему согласования бездны приложений и источников данных. Это огромное сочетание потоков данных, интерфейсов приложений и целевых систем для этих данных, которое многократно увеличивается и развивается.

Так что представление о том, что хранилище данных, витрина данных, хранилище операционных данных или еще что-либо - это и есть получатель данных хорошего качества, и репозиторий единственного источника истины более не является как когда-то удовлетворительным. Фактически, название Warehouse Builder более не соответствует функциональности этого продукта и областям его применения. Может быть, это название нужно изменить.

Качество в среде Grid

Любой, кто посетил конференцию Oracle OpenWorld в прошлом году, получил подробное представление о стратегии Oracle в области grid. Сейчас мы остановимся на проектировании новых приложений, интеграции и программном обеспечении промежуточного уровня.

Grid-вычисления в целом направлены на достижение лучшей информации и лучшего качества в общем и частностях: качества услуг, качества данных, поддержки качества в процессе быстрой разработки приложений и, как мы надеемся, лучшего качества жизни для людей, поддерживающих IT-системы. Используя инфраструктурные термины, в Grid по версии Oracle консолидация (consolidation), стандартизация (standardization) и автоматизация (automation) и есть средства сокращения сложности, уменьшения числа переменных и создания среды, в которой легче добиться лучшего качества данных.

Но легче не означает легко. Я выскажу свою основную точку зрения на качество данных: “Каждый раз, когда встречаются люди и технологии, либо пересекаются две или более технологий, у вас есть возможность [повысить] качество данных. И действительно, перебирая возможности, вы применяете дисциплины качества данных и [очищаете] ваши потоки данных”.

Когда я говорю, "Каждый раз, когда встречаются люди и технологии, “ я имею в виду пользовательский интерфейс и акт ввода данных. Все, что мы в этом случае можем сделать, - это разрабатывать все более лучшие инструменты пользователя, добавлять все более лучшие механизмы проверки ошибок и готовить наш персонал на максимально возможном уровне. Но когда встречаются две технологии, я говорю об интеграции.

В очень откровенной статье, опубликованной в ноябрьском номере Business Integration Journal (www.bijonline.com) за 2003 год, автор и технолог-архитектор Расселл Левин (Russell Levine) пишет о "мифе исчезающих интерфейсов". Он утверждает: "Маленький скрытый секрет интеграции заключается в том, что никакая технология не может решить проблему семантического отображения данных (semantic data mapping issue)." Левин продолжает, "Отображение данных (Data mapping) требует глубокого знания данных и того, как они используются. Это может быть достигнуто только сетью процессоров знания и анализа, которыми обладают высокоуровневые формы жизни на основе углерода. А это требует времени и усилий".

Я думаю, что мы должны еще немало подождать, пока появятся полностью автоматизированные средства интеграции приложений, летающие автомобили и отели на Луне. Что же касается настоящего времени, лучшее, на что мы можем надеяться - это технологическая инфраструктура, которая не будет дергать вас из постели в два часа ночи, и хороший комплект инструментов, который освободит ваш мозг от большей части этой работы.

Следующие шаги

УЗНАЙТЕ больше об Oracle's Information Architecture

ПРОЧИТАЙТЕ больше об Oracle Warehouse Builder 10g

И снова на дороге

Качество данных развивалось и должно продолжать развиваться в повсеместно принятую дисциплину, требуемую этикетом дисциплину, в практику типа Zen. Оно должно стать такой же частью ваших IT-операций, как стратегия резервирования и восстановления системы или регламент технического обслуживания оборудования. И хотя достижение высокого уровня качества данных может временами походить на то, что Пирсиг называл: "постоянно отступающим горизонтом, и поэтому совершенство", наберитесь храбрости. Зная, что у вас ритмично работающий двигатель, впереди сухая дорога, а вы двигаетесь в правильном направлении, вы можете наслаждаться окружающим пейзажем. Улучшения грядут.

[Все подобающие признания Роберту Пирсигу за мои, в чем-то случайные, ссылки на его замечательную книгу. Если вы еще не прочитали ее, внесите эту книгу в свой читательский список. Это классика.]


  Часть II: Мастерство в несовершенном мире

В первой части этой статьи, опубликованной в рубрике "Информация имеет значение", я сообщил печальную новость: мы, наверное, никогда полностью не завершим нашу работу над качеством данных. Соответствующие средства и процессы будут улучшаться, но, наверное, пройдут десятилетия, прежде чем наши системы смогут "рассмотреть" все наши бизнес-данные со всех возможных сторон и сделать вывод, что они превосходного качества, не говоря уже о сохранении этого совершенства в течение ближайшего часа, дня или года. Я утверждаю, что мы должны философски относиться к качеству данных и приготовиться к долгому путешествию. Нужно относиться к поддержке качества данных как к практике Дзен - с бесконечной заботой и с тем же вниманием, с каким мы косим лужайки возле своих домов.

И хотя ваша работа в области качества данных, наверное, никогда не будет закончена полностью, вы все-таки можете достигнуть значительных результатов для себя и своего бизнеса, а именно, мастерства.

Благодаря качеству данных, можно добиться больших преимуществ, если вы не будете стремиться сделать все и сразу же. Чтобы начать путешествие к мастерству в области качества данных, каждая компания должна определить, из чего же состоит важная информация. Для учреждений здравоохранения критичны записи о пациентах. Для производителей же это могут быть данные о продукции на складе или о цепочках поставщиков. Записи о налогах или информация о гражданах, очевидно, являются ключевыми для госучреждений.

Но какого бы сорта информацию не определили бы предприятия важной для себя, наверняка на основе этой информации будут принимать решения многочисленные сотрудники, подразделения, приложения. Приверженность к контролю над такой критической информацией создает потенциал для появления проблем с качеством данных, даже если есть общее понимание важности этой информации.

От Утверждения до Согласия: главный список

Если бы всегда всем приложениям была доступна только высококачественная информация (главный список (master list), если хотите), то компании добились бы глубокого понимания своих проблем и эффективности. Это представление лежит в основе такой появляющейся технологии, как концентраторы данных (data hubs), которая переживает сейчас резкий рост популярности.

Концентратор данных - это решение в области качества данных, которое гарантирует главную идентичность для данного бизнес-объекта, такого как клиент или продукт. В основе концентратора данных - централизованная модель данных, точка консолидации для объединения и согласования общих, для различных информационных систем, данных. Используя эту модель данных, концентратор данных централизует, избавляется от дубликатов, очищает и обогащает главные критические списки (critical master lists) предполагаемых важнейших данных. Ключевые данные в концентраторе данных - это минимум, необходимый для гарантии уникальности, совместно со ссылками назад на каждый источник данных. К этому может быть что-то добавлено.

Как следует из названия, концентраторы данных реализуют модель hub-and-spoke (звезда, центр и лучи), согласно которой различные приложения подписываются на сервис концентратора данных. К настоящему времени основная активность в этой области проявлялась при создании концентраторов данных о клиентах (customer data hub), или главного списка клиентов (master customer list).

Концентратор говорит: "Я, клиент"

Согласно Gartner, 75% ведущих компаний не способны создать обобщенное представление своих клиентов. Почему же создание такого представления оказалось таким трудным? Учтите, что нужно "просеять" все места предприятия, где есть данные о клиентах. Дебиторская задолженность - департамент знает, кто что-то покупал. Приложение отдела продаж знает, что они покупали. Приложение отдела обслуживания клиентов знает, у каких именно клиентов есть проблемы. И ваш Web-магазин знает их e-mail адреса.

Каждое из этих приложений может обладать данными высшего качества, но нет способа согласования всех этих измерений коллективной идентичности клиента. Как результат, важные решения принимаются на основе неверной или неполной информации о клиентах, о том, кто они и чего хотят. Такое состояние дел вызывает чувство неудовлетворения или даже недоверия у высших руководителей — не самое удачное положение для исполнителей, затративших миллионы денег и тысячи и тысячи часов ИТ-персонала.

И во многих случаях это недоверие имеет основания. Например, в корпоративном управлении информация плохого качества может подставить руководителей на серьезные юридические риски. В финансах записи-дубликаты могут привести к неправильному расчету доходов. В продажах неполное понимание последних действий с клиентом может препятствовать работе продавцов. Чтобы разрешить все эти коллизии, вам необходимо обобщенное и согласованное представление высококачественных данных в едином источнике.

Исторически для создания этого неуловимого главного списка о клиентах применялись два основных подхода:

  1. Синхронизация данных между ключевыми приложениями.
  2. Сбор информации из всех приложений, очищение ее и затем размещение в хранилище данных.

При первом подходе владелец каждого приложения устанавливает свои собственные процессы управления данными и решает проблему дубликатов. Но чем больше приложений и бизнес-процессов, тем сложнее становится интеграция. При втором подходе вы собираете информацию со всех своих приложений, очищаете ее и размещаете в центральное хранилище данных для получения отчетов. К сожалению, процесс очищения данных не отправляет уже чистые данные обратно в транзакционные системы, так что главная проблема качества данных — преодоление рассогласования данных по месту и времени (the here-and-now-ness) в действительности никогда не решалась.

К счастью, есть и третий подход: централизованно хранить и вести ключевые данные о клиентах, используя архитектуру на основе концентратора. Благодаря такой стратегии, уменьшается перемещение данных и количество интеграционных проектов, достигается лучшая согласованность данных и более стандартизованный доступ к информации по всему предприятию.

Концентраторы данных от Oracle

Концентраторы данных Oracle - это автономные (standalone) сервисы, которые обеспечивают компаниям достижение высокого уровня качества данных для их критических информационных активов. Они вводят централизованное определение и управление данными, независимо от специфики приложений. Как открытая платформа, концентраторы данных Oracle объединяют источники операционных, аналитических и унаследованных данных.

Концентратор Oracle Customer Data Hub - это первый в ряду такого рода разрабатываемых инструментов корпорации Oracle. Будущие концентраторы включают концентратор данных о продуктах (product data hub), который поможет производителям и розничным торговцам консолидировать информацию о продуктах, и концентратор данных о гражданах (citizen data hub) для приложений организаций общественного сектора.

Вхождение корпорации Oracle в рынок концентраторов данных началось задолго до того, как концентраторы данных были осознаны как продукт. Фактически, именно клиенты Oracle инициировали первые развертывания такого типа, когда они объединили свои собственные приложения управления отношениями с клиентами (CRM) и планирования ресурсов предприятия (ERP). Для некоторых клиентов их доморощенные проекты концентраторов данных о клиентах вышли за первоначально намеченные рамки, и они обратились к Oracle за помощью в этой ситуации.

Центральная проблема заключалась в изобретении эффективной, полной и устойчивой к будущим изменениям модели данных о клиентах. Как оказалось, разработчики Oracle уже создали такую интегрированную модель для CRM и ERP задолго до того, как начались работы над нынешним поколением комплекта Oracle E-Business Suite. Она стала очень важной и ценной интеллектуальной собственности, так как разрабатывалась и тестировалась в течение ряда лет в производственной среде.

Как предполагает слово hub, data hub централизованно обслуживает ряд приложений высококачественными данными, создавая мистический "единственный источник истины". Однако, важное нововведение заключается в том, что концентратор не должен содержать все данные о клиенте. Используя систему перекрестных ссылок, концентратор данных о клиентах способен предоставить полный, в 360 градусов обзор — то есть, возможность увидеть каждую соответствующую бизнес-транзакцию из одного места.

Долгое время ассоциируемая с хранилищами данных идея о едином источнике истины развилась в модель data hub, которая стала живым единым источником истины. Этот фактор предполагает непрерывность и высвечивает одно из основных отличий между концентратором и хранилищем данных: data hub - это активный сервис, а не пункт назначения и не снимок (snapshot).

Кроме того, хранилища данных и все виды приложений предприятия выиграют от того, что вы не определяете главную запись о клиенте (customer master) отдельно для аналитической (business intelligence) платформы, CRM-системы и т.д. Эти и другие бизнес-приложения получают доступ к одному общему источнику правильных данных через data hub.

Библиотекарь со световой саблей

Проектирование и развертывание концентраторов данных демонстрирует решимость в достижении мастерства в области качества данных. Но оно требует значительного времени и усилий. Как говорил Микеланджело: "Если бы люди только знали, как я тяжело работаю, чтобы добиться мастерства, оно не казалось бы таким замечательным".

Тот простой факт, что термин information quality professional (профессионал в области качества данных) уже существует, говорит о важности этой задачи. Компании тратят большие деньги на инициативы в области качества данных, так как это настолько важная проблема, что она влияет на многие аспекты бизнеса. Кто мои клиенты? Чего они хотят? У них есть непотраченные деньги? На вопросы такого рода надо отвечать.

Наконец, мастерство предполагает, что есть и мастер. Концентраторы данных предоставляют неоценимую информацию через перекрестные ссылки, и их поддержка требует понимания, как бизнеса, так и технологий. Всякий, кто желает правильно взяться за эту задачу, заслуживает восхищения коллег и благодарности от начальников и акционеров.

Признавая этот статус, корпорация Oracle дарует этим счастливым профессионалам звание библиотекаря данных (data librarian). Если откровенно, некоторым людям не нравится этот титул, они предпочитают называться стюардом данных (data stewards) или хранителем данных (data custodian). Я же лично полагаю, что профессионалы в области качества данных вправе называть себя Джедаями данных (data Jedi), мощными рейнджерами данных (data Power Rangers), мастерами Zen по данным (data masters) или еще как-нибудь иначе. Я не возражаю.


Джордж Демарест (george.demarest@oracle.com) - старший директор по маркетингу продуктов корпорации Oracle.

E-mail this page