Алексей Резниченко
Концентрируя данные
Источник:"DOCFLOW -
ВСЕ О МИРЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА",
http://www.docflow.ru/analytic_full.asp?param=132972 Перепечатка с разрешения редакции DOCFLOW.
Объемы данных, хранимых и обрабатываемых информационными системами организаций и предприятий, стремительно возрастают. Но при этом возрастают и объемы данных, которые несовместимы между собой из-за различных форматов, противоречивых значений, наличия различных версий одних и тех же данных и т.д. Появление таких данных обусловлено в основном их происхождением в различных внутренних и внешних, относительно организации, информационных системах.
Можно выделить следующие факторы, приводящие к несовместимости данных:
- отсутствие синхронизации между записями об одних и тех же объектах (например, о клиентах), которые находятся в базах данных (файлах) различных информационных систем;
- фрагментация. В каждой приложении используются только те данные об объектах, которые нужны данному приложению, что само по себе не приводит к фрагментации. Но, как правило, базы данных различных информационных систем хранят только те данные, которые используются их приложениями. Поэтому записи об одних и те объектах в разных базах данных содержат различные атрибуты, в целом у них разные структуры и когда возникает необходимость в более полных записях об объектах, их формирование оказывается непростой задачей;
- противоречивость данных об одних и тех же объектах, которые ведутся параллельно в нескольких информационных системах;
- дублирование записей об одном и том объекте не только в различных информационных системах (в одной есть клиент “Юлия Андреева”, в другой “Юлия Юрчишина”, в третьей “Ю. Юрчишина”, а имеется в виду один и тот же человек), но даже в одной системе. Причем различные значения одного и того же поля появляются и как результат ошибок, и на вполне законном основании …
MDM – концепция гармонизации данных
Наиболее полный подход для решения проблем несовместимости данных, их гармонизации, предлагается в концепции MDM (Master Data Management – управление основными (или мастер-) данными) на основе понятия master data – основное данное. В настоящее время уже сформировался рынок продуктов класса MDM, реализующих эту концепцию, большинство из них называется Data Hubs – концентраторы данных.
Концепция MDM и технологии, которые ее реализуют, появились на основе обобщения методов и подходов, разработанных практиками для решения таких задач как управление данными о продуктах (PDM – Product Data Management; пожалуй, PDM можно перевести “на русский” как управление нормативно-справочной информации (НСИ), сейчас часто и MDM переводят как управление НСИ) и интеграция данных о клиентах (CDI – Customer Data Integration).
Например, именно так, исходя из практических задач, к концентраторам данных пришла корпорация Oracle: “Вхождение корпорации Oracle в рынок концентраторов данных началось задолго до того, как концентраторы данных были осознаны как продукт. Фактически, именно клиенты Oracle инициировали первые развертывания такого типа, когда они объединили свои собственные приложения управления отношениями с клиентами (CRM) и планирования ресурсов предприятия (ERP). Для некоторых клиентов их доморощенные проекты концентраторов данных о клиентах вышли за первоначально намеченные рамки, и они обратились к Oracle за помощью в этой ситуации.
Центральная проблема заключалась в изобретении эффективной, полной и устойчивой к будущим изменениям модели данных о клиентах. Как оказалось, разработчики Oracle уже создали такую интегрированную модель для CRM и ERP задолго до того, как начались работы над нынешним поколением комплекта Oracle E-Business Suite.” (Цит. по источнику).
Технология обработки данных согласно MDM
Наиболее общая схема обработки данных согласно MDM: данные из систем-источников должны быть прежде всего собраны и централизованы (этап “Централизация”). После этого выполняется их проверка (этап “Очистка”), затем очищенные данные консолидируются (например, данные из различных систем-источников о клиенте “Денис Игнатов” объединяются, консолидируются в единую запись) и помещаются в централизованное хранилище, называемое Data Hub – концентратор данных. Используемые на этих этапах технологии в значительной степени позаимствованы у хранилищ данных.
 Рис. 1. Этап “Синхронизация” обработки данных согласно MDM.
И, наконец, на этапе “Синхронизация” данные из этого хранилища направляются в системы-источники для актуализации их данных. В результате все соответствующие данные вовлеченных систем согласованы и гармонизированы между собой.
При выполнении этапов “Очистка” и “Консолидация” большое значение имеет учет семантики предметной области, поэтому концентраторы данных разрабатываются, как правило, для определенной предметной области, например:
- Oracle Customer Data Hub (CDH) – концентратор данных о клиентах (см., например);
- Oracle Product Information Management Data Hub (PIM DH) – концентратор данных о продуктах;
- Oracle Financial Consolidation Data Hub (FC DH) – концентратор финансовых данных.
Концентрируя данные о клиентах
Основной сегмент рынка MDM-продуктов составляют продажи продуктов для интеграции данных о клиентах. В 2006 году компании Gartner и Forrester выпустили два исследования, посвященных этому сегменту, архитектуре и функциональности концентраторов данных о клиентах. Несмотря на некоторые отличия в подходах аналитиков этих фирм, лучшими продуктами в классе CDH в обоих исследованиях были признаны продукты компаний IBM, Oracle, Siperian и Initiate Systems.
Первое использование концентратора данных о клиентах в странах СНГ уже состоялось, и этот опыт весьма интересен. В октябре 2006 года на Oracle TechForum 2006 был представлен доклад компании “Борлас” о проекте “Система контроля качества данных ” c применением продукта Oracle Customer Data Hub в Народном банке Казахстана (описание)).
В ходе проекта в этом банке (бывшем Сбербанке Казахстана) разработаны и реализованы правила поиска дубликатов и объединения дублирующихся записей, проведена начальная конвертация всех данных о клиентах из четырех различных банковских систем и создана единая база данных о клиентах банка. Разработан единый интерфейс доступа к данным банковских систем и единой базы для получения информации по клиентам в оперативном режиме, а также для создания и проверки новых записей, обеспечен доступ к работе с единой базой данных уполномоченных сотрудников банка и их обучение.
В общей сложности с применением Oracle Customer Data Hub было обработано 11 миллионов исходных записей по физическим и юридическим лицам с учетом нескольких десятков атрибутов. После исключения дубликатов и объединения записей количество записей сократилось более чем на треть и у специалистов банка появилась возможность вести серьезную аналитическую работу по клиентской базе. |