Антон Шмаков
( a.shmakov@borlas.ru)
старший консультант отдела
бизнес-анализа и хранилищ данных
Консалтинговая группа “Борлас” (Москва)
Байесовский классификатор
и регрессионная модель в ORTD:
практический пример
Введение
Oracle Real Time Decisions (ORTD) – специальный инструмент от компании Oracle, предназначенный для автоматизации принятия решений в режиме реального времени (ранее об этом продукте была статья в OM/RE – “Глубинный анализ данных в режиме реального времени: Oracle Real Time Decisions”
>http://www.oracle.com/global/ru/oramag/aug2007/russia_borlas_ortd.html. Он позволяет строить сложные прогностические модели, опираясь на анализ исторических и оперативных данных. Кроме мощного аналитического движка ORTD, предоставляет бизнес-пользователям и разработчикам полную инфраструктуру как для построения моделей, так и для их повседневного исполнения.
В статье “Решения “растут” на деревьях” (Decisions Grow on Trees, by Ron Hardman, русский перевод в OM/RE
http://www.oracle.com/global/ru/oramag/aug2007/w_dm_trees.html) описывается конкретный тип классификации данных, называемый деревья решений. Этот метод был не так давно реализован в продукте Oracle Data Miner (ODM). Результаты его работы легко воспринимаются визуально и могут быть легко объяснены в бизнес-терминах.
В этой статье мы хотели бы познакомить читателей с ORTD на практическом уровне. В ней описывается весь путь от установки и настройки ORTD и до создания проекта и получения практических результатов. В качестве бизнес задачи предлагается взять пример из уже упоминавшейся статьи “Решения “растут” на деревьях”. Следует отметить, что в Real Time Decisions реализованы Байесовский классификатор и регрессионная модель, деревья решений в нем не реализованы. Мы построим небольшой тестовый проект в ORTD, целью которого будет продемонстрировать работу в ORTD и сравнить результаты работы Байесовского классификатора в Real Time Decisions, с деревьями решений в ODM.
Постановка задачи
Рассмотрим бизнес ситуацию. Производитель предлагает два продукта, А и B. Относительно них имеется очень скудная информация, а именно тип продукта (PRODUCT) версия продукта (VERSION), время его последней модификации (LAST_UPGRADE_YEAR) и отзыв покупателей (FEEDBACK). Производитель хочет, во-первых, узнать как связаны отзывы покупателей с характеристиками продукта и, во-вторых, построить модель для прогнозирования будущих отзывов. В упоминаемой статье автор строит модель классификации на основе деревьев решений в Oracle Data Miner. Мы же попробуем построить Байесовскую модель в Oracle Real Time Decisions, c помощью которой мы сможем проанализировать входные данные.
От редакции OM/RE: Полностью эта объемая статья, изобилующая иллюстрациями, находится по
адресу,
и все желающие могут ее скачать. Ниже приводится общая структура статьи:
Начало работы в ORTD
- Установка Oracle Real Time Decisions
- Настройка схемы SURVEYS
- Настройка доступа в Oracle Real Time Decisions
- Создание проекта в Oracle Real Time Decisions
- Моделирование работы системы
- Просмотр результатов