Oracle Magazine - Русское издание (Декабрь 2007)

Антон Шмаков

( a.shmakov@borlas.ru)
старший консультант отдела

бизнес-анализа и хранилищ данных
Консалтинговая группа “Борлас” (Москва)

Байесовский классификатор
и регрессионная модель в ORTD:
практический пример

Введение

Oracle Real Time Decisions (ORTD) – специальный инструмент от компании Oracle, предназначенный для автоматизации принятия решений в режиме реального времени (ранее об этом продукте была статья в OM/RE – “Глубинный анализ данных в режиме реального времени: Oracle Real Time Decisions” >http://www.oracle.com/global/ru/oramag/aug2007/russia_borlas_ortd.html. Он позволяет строить сложные прогностические модели, опираясь на анализ исторических и оперативных данных. Кроме мощного аналитического движка ORTD, предоставляет бизнес-пользователям и разработчикам полную инфраструктуру как для построения моделей, так и для их повседневного исполнения.

В статье “Решения “растут” на деревьях” (Decisions Grow on Trees, by Ron Hardman, русский перевод в OM/RE http://www.oracle.com/global/ru/oramag/aug2007/w_dm_trees.html) описывается конкретный тип классификации данных, называемый деревья решений. Этот метод был не так давно реализован в продукте Oracle Data Miner (ODM). Результаты его работы легко воспринимаются визуально и могут быть легко объяснены в бизнес-терминах.

В этой статье мы хотели бы познакомить читателей с ORTD на практическом уровне. В ней описывается весь путь от установки и настройки ORTD и до создания проекта и получения практических результатов. В качестве бизнес задачи предлагается взять пример из уже упоминавшейся статьи “Решения “растут” на деревьях”. Следует отметить, что в Real Time Decisions реализованы Байесовский классификатор и регрессионная модель, деревья решений в нем не реализованы. Мы построим небольшой тестовый проект в ORTD, целью которого будет продемонстрировать работу в ORTD и сравнить результаты работы Байесовского классификатора в Real Time Decisions, с деревьями решений в ODM.

Постановка задачи

Рассмотрим бизнес ситуацию. Производитель предлагает два продукта, А и B. Относительно них имеется очень скудная информация, а именно тип продукта (PRODUCT) версия продукта (VERSION), время его последней модификации (LAST_UPGRADE_YEAR) и отзыв покупателей (FEEDBACK). Производитель хочет, во-первых, узнать как связаны отзывы покупателей с характеристиками продукта и, во-вторых, построить модель для прогнозирования будущих отзывов. В упоминаемой статье автор строит модель классификации на основе деревьев решений в Oracle Data Miner. Мы же попробуем построить Байесовскую модель в Oracle Real Time Decisions, c помощью которой мы сможем проанализировать входные данные.


От редакции OM/RE: Полностью эта объемая статья, изобилующая иллюстрациями, находится по адресу, и все желающие могут ее скачать. Ниже приводится общая структура статьи:

Начало работы в ORTD

  1. Установка Oracle Real Time Decisions
  2. Настройка схемы SURVEYS
  3. Настройка доступа в Oracle Real Time Decisions
  4. Создание проекта в Oracle Real Time Decisions
  5. Моделирование работы системы
  6. Просмотр результатов
E-mail this page