
Сентябрь 2005
Интересно для всех
Рассел Кей
Computerworld, США
Интеграция информации
Источник: "Открытые системы", еженедельник "Computerworld", #37, 2005
Компаниям все чаще приходится сталкиваться с наборами неструктурированной информации, хранящейся на различных носителях
Информация — кровь, текущая по жилам современного предприятия, это ни для кого уже не секрет. Но по мере того как организации извлекают все больше информации из различных источников и приложений, ее становится труднее обрабатывать.
Известно, что делать с базами, киосками и хранилищами данных, поскольку информация здесь хорошо упакована и структурирована. Но компаниям все чаще приходится сталкиваться с наборами неструктурированной информации, хранящейся в библиотеках документов, электронных таблицах, архивах электронной почты и систем мгновенной передачи сообщений, в электронных формах и записях, на общедоступных Web-страницах и в коммерческих информационных службах.
В дискуссиях, развернувшихся вокруг всех этих вопросов, присутствуют два ключевых момента. Первый связан с неструктурированной природой информационного наполнения. Организации вынуждены обрабатывать потоки случайно «разбросанного» текста, вместо того чтобы иметь дело с тщательно выстроенными и достоверными полями, такими как в «нормально» управляемых системах.
Вторая особенность заключается в том, что компании получают информацию из различных источников, находящихся как внутри, так и вне предприятия. Каждому источнику данных присуща собственная организация и формат. Большинство из них предназначено для решения какой-то конкретной автономной задачи и не интегрировано с другими наборами данных. Таким образом, репозитарии напоминают независимые друг от друга, хаотично разбросанные хранилища. Заставить их работать совместно довольно непросто.
Полностью
материал находится по адресу: http://www.osp.ru/cw/2005/37/030_1.htm
|