Декабрь 2005

Ирина Полотнюк
“ФОРС – Центр Разработки”

Использование метаданных для интеграции разнородных систем

Большинство ведомств, организаций и крупных компаний владеют значительным числом информационных систем (ИС) и баз данных (БД), созданных в разное время различными разработчиками на разнородных технологических платформах. Часть таких систем зачастую не документирована и не поддерживается разработчиками. Используют их, как правило, отдельные подразделения компании. Состав хранящейся в них информации, сведения о ее объеме и полноте могут быть известны лишь самим пользователям систем.

Таким образом, из-за отсутствия целостной картины владелец систем, фактически имея всю необходимую информацию, не может использовать ее, например, для целей анализа. Именно поэтому при создании крупных корпоративных, ведомственных, межведомственных ИС часто возникает проблема консолидации информации из множества эксплуатируемых прикладных систем.

Необходимо обеспечить систематизацию и структуризацию исходных данных. Информация, хранящаяся по частям в различных системах, нередко в них частично дублируется или наоборот, бывает недостаточно полной. Подходы к ее структуризации могут быть различными в разных системах. Приведение всех источников к некоему единому знаменателю — важнейший шаг на пути к корпоративной или ведомственной интеграции.

Нужно реализовать максимально возможную унификацию доступа к гетерогенным информационным ресурсам (состав которых может со временем изменяться). Информационные системы, как правило, очень сильно различаются по применяемым технологиям, производительности, способам доступа к информации и т.п. Это требует индивидуального подхода к каждому источнику. Однако существуют стандарты и технологии, позволяющие унифицировать взаимодействие с разнородными ИС, и их применение позволяет сделать прозрачной общую архитектуру интеграции.

Существуют различные способы решения задачи интеграции разнородных систем, однако для того, чтобы сделать это решение унифицированным, необходимо создать новый информационно-технологический уровень, обеспечивающий интеграцию всех остальных систем, выполняющий роль диспетчера (дирижера) в архитектуре интеграции. Информационной основой этого уровня является метаописание, помещенное в хранилище метаинформации — хранилище, описывающее все информационные ресурсы компании, хранящуюся в них информацию и способы доступа к ней, что делает процесс информационной интеграции наглядным и структурно прозрачным, создавая предпосылки для его унификации.

Основные преимущества метаописания:

  1. Создается целостная картина интеграционной архитектуры. Руководитель или архитектор проекта могут увидеть полную информационную модель и схему ее "сборки" из различных источников и правила ее использования и преобразования в бизнес-процессах, состав классифицируемой в системе информации, конфигурацию самой системы и предоставляемые ею информационные услуги для внешних потребителей. Это позволяет оптимизировать всю IT-инфраструктуру и существенно повысить эффективность работы системы.
  2. Становится “прозрачным” один из важнейших результатов интеграции — структура интегрированного банка данных (ИБД). Причем этот ИБД может и не быть единым в физическом смысле, более того, данные могут по-прежнему размещаться в исходных источниках. Однако, благодаря наличию информационной модели и набора общедоступных услуг, внешним пользователям данные предоставляются в терминах указанной модели, как если бы они размещались в едином хранилище.

Метаописание должно отображать (а метахранилище, соответственно, содержать) следующие сведения:

  • семантическую модель предметной области;
  • метаописание нормативно-справочной информации (НСИ);
  • метаописание (модель) бизнес-процессов;
  • описание информационных ресурсов (собственных и внешних);
  • каталог предлагаемых услуг (Web-сервисов).

Семантическая (информационная) модель предметной области

Эта модель предназначена для описания объектов предметной области интегрируемых ресурсов, их структуры и взаимосвязей. Информация об этих объектах может быть фрагментирована и рассредоточена по различным источникам, нередко дублируясь в них, а целостная картина возникает только на уровне семантической модели. Схема семантической модели может быть положена в основу структуры ИБД, в терминах этой модели удобно предоставлять услуги внешним потребителям и решать аналитические задачи.

Метаописание НСИ

Часть информации, фигурирующей в информационной модели, должна быть классифицирована, стандартизована и структурирована для ее применения в аналитических процедурах, а также для того, чтобы можно было корректно осуществить объединение фрагментов данных, поступающих из различных источников. Сведения о том, какая информация должна быть классифицирована, и составляют метаописание НСИ (состав и структура справочников, а также взаимосвязи между ними).

Метаописание (модель) бизнес-процессов

Модель бизнес-процессов — наиболее привычная и широко используемая часть метаописания. Обычно эта модель создается на первом этапе проекта автоматизации в ходе обследования предприятия. Однако, она может формироваться и по-другому. В настоящее время имеется большое число готовых типовых библиотек процессов для различных областей деятельности, которые являются результатом анализа и обобщения передового опыта многих предприятий (так называемые best practices). Хотя использование этих библиотек позволяет избежать возможных серьезных ошибок, довольно часто описанные в них процессы избыточны, содержат лишние шаги. В таких случаях для “упрощения” процессов применяются специальные инструментальные средства, которые на уровне метаописания позволяют адаптировать процессы к специфике конкретного предприятия.

Описание информационных ресурсов

Метаописание ресурсов предназначено для указания всех ресурсов, являющихся поставщиками информации, а также определения правил работы с ними. В роли таких ресурсов могут выступать собственные прикладные системы предприятия, внешние ИС, базы данных, прочие открытые источники (например, Интернет).

Описание ресурса должно включать следующий минимальный набор сведений:

  • регламент получения и обновления информации;
  • формат данных и способ доступа к ним (подключения к источнику);
  • состав исходной информации (состав объектов, описанный в терминах информационной модели) и способы ее хранения в источнике;
  • способы идентификации информационных объектов в источнике;
  • первоисточник информации об объекте или отдельных его атрибутах (необходим для указания приоритетов информационных ресурсов, учитываемых в случае дублирования в них данных).

Важное значение имеет выбор подходов к созданию метаописания, которые создадут предпосылки к информационной интеграции с разнообразными ресурсами не только в масштабе предприятия/холдинга/ведомства, но в национальном и международном масштабе.

Для описания ресурсов целесообразно использовать концепции и стандарты, принятые IT-сообществом, лидирующими компаниями-производителями, научными и индустриальными кругами — концепции Semantic Web и стандарты W3C. Технологические концепции Semantic Web предназначены для описания информационных ресурсов и позволяют создавать их метаописания, стандартизуют информационный обмен с этими ресурсами. Semantic Web основывается расширяемом языке разметки информации XML и его способности определять настраиваемые схемы разметки.

Важнейшей частью концепций Semantic Web являются стандарты:

  • Resource Definition Framework (RDF) — язык описания содержания информационных ресурсов, обеспечивающий гибкий подход к представлению данных.
  • Web Ontology Language (OWL) — язык веб-онтологий, который может формально описать значение терминов, используемых в веб-документах.

XML обеспечивает синтаксис для структурированных документов, но не налагает никаких семантических ограничений на значение этих документов

XML Schema определяет структуру документов XML, а также дополняет XML конкретными типами данных.

RDF позволяет описать модель данных (datamodel) для объектов ("ресурсов") и отношения между ними, обеспечивает простую семантику для этой моделей данных, представляя их в XML синтаксисе.

RDF Schema предоставляет средства для описания свойств и классов RDF-ресурсов, а также семантику для иерархий-обобщений таких свойств и классов.

OWL добавляет еще больше возможностей для того, чтобы описать свойства и классы: в частности, отношения между классами (например, непересекаемость), кардинальность (например, "точно один"), равенство, больше типов свойств, характеристик свойств (например, симметрия), и перечисляемые классы [1].

Каталог внешних услуг (Web-сервисов)

Каталог внешних услуг должен описывать открытые интерфейсы для доступа к информации в ИБД. Независимо от того, будет ли ИБД физически единым, или же его единство лишь на концептуальном уровне будет обеспечиваться метаданными, для внешних потребителей информации оно должно выглядеть целостным хранилищем с набором сервисов для доступа к его данным. Как уже упоминалось выше, доступ ко всей совокупности данных должен осуществляться в терминах информационной модели. Для создания такого каталога следует проанализировать потребности в оперативной отчетности, корпоративного анализа, требования систем, взаимодействующих с ИБД, возможные запросы вышестоящих организаций и прочих внешних пользователей. Иными словам, следует построить модель запросов к хранилищу.

На основании такой модели запросов формируется набор Web-сервисов (либо API-интерфейсов), которые и образуют каталог услуг, предлагаемых ИБД.

Обзор инструментальных средств для реализации метахранилищ

Описанные выше принципы реализации метахранилищ должны подкрепляться соответствующими инструментальными средствами.

Вследствие конкурентной борьбы на рынке высоких технологий при совместном использовании разных, тем более конкурирующих, продуктов неизбежно возникают проблемы интеграции. В связи с этим целесообразно реализовать ведение метахранилища на базе линейки программных средств одного производителя, что дает существенные преимущества в цене, а также в полноте, совместимости и интегрированности программных средств.

Наибольший набор возможностей для построения решений на базе метаданных предоставляет линейка продуктов компании Oracle. Здесь представлены средства интеграции, управления метаданными, а также их совместного использования (т.е. построения мостов метаданных).

Компания ФОРС — ведущий партнер корпорации Oracle, поэтому все решения строятся на базе продуктов Oracle с использованием наших собственных разработок (Таблица).

Таблица

Задача

Инструментальное средство реализации

Описание информационной модели и создания на ее основе хранилища информации

ЭЛАД (ФОРС-ЦР)

Создание метаописания НСИ

ЭЛАД (ФОРС-ЦР), ЭРСИ (ФОРС-ЦР)

Моделирование бизнес-процессов

Oracle BPEL Process Manager, Oracle Workflow, Casewise

Описание информационных ресурсов

Oracle XML Developer's Kit (XDK).

Описание компонентной модели

Oracle Developer Suite, Oracle Enterprise Manager, Casewise

Описание Web-служб

Oracle JDeveloper, Intel IDEA

Так, для организации хранилищ ФОРС использует собственный продукт ЭЛАД — уникальную систему, обладающую возможностями для создания метаописаний и

информационного моделирования, для формирования и ведения электронных архивов/библиотек/контентов, управления гибким объектно-ориентированным хранилищем, для быстрой разработки прототипов или реальных прикладных систем.

Для управления нормативно-справочной информацией используется система ЭРСИ, включающая средства создания метаописания НСИ, поддержки гибкой структуры хранилища и ведения справочников и классификаторов.

Для моделирования бизнес-процессов существует множество средств, однако предпочтение следует отдавать тем из них, которые позволяют не только моделировать, но и реализовывать эти процессы. Причем из соображений интеграции целесообразно выбирать средства, реализованные в сервис-ориентированной архитектуре (SOA), т.е. состоящие из набора Web-служб и реализованные на языке сервисов BPEL (Business Process Execution Language – язык выполнения бизнес-процессов). В линейке Oracle есть продукт Oracle BPEL Process Manager, на базе которого в ФОРС строятся решения по моделированию бизнес-процессов и и мониторингу хода их выполнения, в том числе межкорпоративного (т.е. такого выполнения процессов, при котором реализация отдельных его фрагментов осуществляется различными информационными системами).

Для описания информационных ресурсов используются средства, базирующиеся на XML. Таких средств достаточно много (например, Oracle XML Developer's Kit), с их помощью можно относительно просто создавать XML-документы, используя для этого распространенные языки PL/SQL, Java, C или C++. При этом создается дерево методов, обеспечивающих чтение/запись структур XML.

Для описания компонентов информационной системы в стандартах, базирующихся на XML, можно использовать одно из средств создания XML-документов. Однако есть системы, позволяющие выполнить реинжиниринг существующих программных компонент, а затем построить компонентную модель системы (Oracle Developer Suite, Rational Rose, Casewise). Существуют мощные программные средства, дающие полную картину распределенной вычислительной инфраструктуры и позволяющие управлять ею (например, Oracle Enterprise Manager).

Средства описания каталога внешних услуг (Web-служб), базируются на технологиях WSDL и UDDI. Документ WSDL использует язык XML, описывающий Web-сервис. UDDI использует Internet стандарты W3C (World Wide Web Consortium) и IETF (Internet Engineering Task Force), а также XML, протоколы HTTP и DNS. Таким образом, в описания Web-служб также создаются в стандартах XML, а для создания описаний существуют специальные средства (например, в составе Oracle BPEL Process Manager).

Резюме

Предлагаемый в статье унифицированный подход к объединению информационных ресурсов на базе создания хранилищ метаинформации позволяет не только выполнить интеграцию, но и провести предметную инвентаризацию имеющихся ресурсов, оценить их востребованность. Это, в свою очередь, создает принципиально новые возможности для оценки эффективности инвестиций в информационные технологии и повышения эффективности использования существующих информационных ресурсов.

Использованные источники:

  1. OWL, язык веб-онтологий. Краткий обзор. Рекомендация W3C. 10 февраля 2004 http://sherdim.rsu.ru/pts/semantic_web/REC-owl-features-20040210_ru.html


Semantic Web - это идея организовать информацию о ресурсах так, чтобы компьютеры могли их использовать, а не только показывать, чтобы различные программы разных производителей могли эффективно работать с данными, для чего разработаны формализованные правила.

Консорциум Всемирной сети World Wide Web Consortium (W3C) — международная организация, которая развивает интеграционные технологии XML-направленности (спецификации, руководства и т.д.), а также принимает стандарты и рекомендации

E-mail this page