Oracle Data Miner 4.0の使用

概要

目的

このチュートリアルでは、Oracle Database 12c Release 1上でデータマイニング・アクティビティを実行するためのOracle Data Miner 4.0の使用をカバーします。 Oracle Data Miner 4.0 は、Oracle SQL Developer バージョン4.0のエクステンションとして提供されます。このレッスンでは、ビジネス上の課題を解決するために、分類モデルを作成することでData Minerを使い方を学びます

Oracle SQL Developerは、データベース開発者のためのフリーのグラフィカルツールです。SQL Developerでは、データベース・オブジェクトを参照し、SQL文やSQLスクリプトの実行、およびPL/SQL文の編集・デバッグができます。 SQL Developer 4.0に含まれるData MinerはOracle Database 11g Release 2とOracle Database 12cに対応しています

所要時間

約45分間

導入

データマイニングは、データからパターンや傾向を抽出することにより、データのかたまりから有益な情報を抽出するプロセスです。データマイニングは以下のような多様なビジネス上の課題解決のために利用できます：

個人の行動の予測。たとえば、プロモーションの申し出に応答する可能性の高い顧客や特定の製品を購入する可能性のある顧客の抽出 (分類)
対象となる人々やアイテムのプロファイルの検索 (Decision Treeによる分類)
集合からセグメントまたはクラスタの発見 (クラスタリング)
より多くのターゲット属性に関連する要因の特定 (属性重要度)
同時発生するイベントや購買の発見 (相関、マーケットバスケット分析)
異常値やレアなイベントの検出 (異常検出)

Oracle Data Miningを利用して、ビジネス上の課題を解決するフェーズは以下の通りです:

データマイニングおよびビジネス目標の観点での課題定義
データ収集および準備
モデルの構築と検証
展開

課題の定義とビジネス目標

データマイニングの実施時に、ビジネス上の課題をデータマイニングの機能の観点で明確に定義する必要があります。たとえば小売業,電話会社、金融機関および他のエンタープライズ企業では、古くからの忠実な顧客のライバル社への切り替えという行為である顧客の「解約」に注視しています。「顧客の解約を解決するためにデータマイニングを使いたい」というのは、あまりにも漠然としています。ビジネス上の観点から、不満を持つ顧客の流出をくいとめることより、離れてしまった顧客を呼びもどすことのほうが、現実的に遙かに困難で費用がかかることです。さらに、企業にとっての価値が低い顧客には興味がないかもしれません。このようにデータマイニングによって、解約する可能性の高い顧客を予測し、潜在的に価値の高い顧客が解約するかどうかを予測することがビジネス上の課題となります

データ収集と準備

データマイニングにおける一般的な経験則は、個々のデータについてできるだけ多くの情報を収集し、有益である可能性のデータを任意にフィルタリングできるようにすることです。具体的には、いくつかの属性は重要ではないかもしれないと考えるかもしれませんが、容易に削除するべきではありません。ODMのアルゴリズムによって削除するかどうかを決定できます。目標は任意の個人に対して適用できる行動のプロファイルを構築することですので、あなたは、名前、住所、電話番号等の特定の識別子を削除するべきです（ただし、郵便番号のような特定の個人を識別することなく一般的な場所を示す属性は役に立つかもしれません）。一般的には、データ収集および準備のフェーズで、データマイニング・プロジェクトの時間と労力の50%以上を費やすと言われています

モデルの構築と検証

Oracle Data Minerでは、ワークフローの作成プロセスは、モデルの構築およびテスト中の困難なタスクの多くを自動化します。これは、ビジネス上の課題を解決するのに最も良いアルゴリズムがなんであるかを事前にすることはとても困難なので、通常、いくつかのモデルを作成しテストします。完全なモデルというものは存在せず、最良な予測モデルを検索するということは、必然的に最も制度の高いモデルを決定するということではなく、ビジネス上の目標という観点から許容されるエラーの種類を決定するということになります

展開

Oracle Data Miningは、実用的な結果を生成しますが、正しいものを素早く届けなければその結果は有用ではありません。Oracle Data Minerのユーザ・インタフェースは、結果を出力するためのオプションがいくつか用意されています

シナリオ

これのレッスンは、分類モデルによって解決できるビジネス上の課題に焦点を当てています。このシナリオでは、ABC社は、保険を購入する可能性が最も高い顧客を識別したいと考えています

注: このチュートリアルでは、「データの準備および収集」というフェーズは既に完了しており、サンプルのデータセットにはすべての必要なデータフィールドが含まれています。よって、このレッスンでは「モデルの構築と評価」フェーズに主に焦点を当てています

ソフトウェア要件

次のソフトウェアが必要になります:

次のソフトウェアにアクセス可能もしくはインストール済み:
- Oracle Database:
  - 必要最低バージョン: Oracle Database 11g Enterprise Edition, Release 2 (11.2.0.1) と Data Mining Option
  - 推奨バージョン: Oracle Database 12c Enterprise Edition, Release 12.1 と Advanced Analytics Option
- SQL Developer 4.0

前提条件

チュートリアルを開始する前に、Oracle Data Minerを含めたOracle SQL Developer 4.0をインストールしてください

注: もしまだOracle Data Minerのセットアップをしていない場合、次のレッスンを実施してください: Oracle Data Miner 4.0のセットアップ

Data Minerプロジェクトの作成

Data Minerプロジェクトを作成し、Data Minerワークフローを構築する前に、必要なData Minerの機能に簡単にアクセスできるために、SQL Developer内のData Minerインタフェース・コンポーネントを整理しておくと便利です

開始するには、SQL Developerインタフェースのエレメンツ([接続]タブや[レポート]タブなどが含まれる)をすべて閉じ、以下のように、Data Minerタブのみを開きます:

上に示したように、Data Minerユーザ(dmuser)が作成されており、SQL Developerの接続が確立されています。「Oracle Data Miner 4.0のセットアップ」チュートリアルで、DMUSERというデータベース・アカウントとSQL Developerの接続を作成する方法を学びます。このユーザは、マイニングに用いるサンプルデータへのアクセス権を持っています

注: もし、Data Minerタブが開いていない場合、SQL Developerのメニューから、表示> Data Miner > Data Minerの接続 を選択します

Data Minerプロジェクトの作成

Data Miner ワークフローの作業を開始する前に、1つ以上のワークフローのコンテナとしてData Minerプロジェクトを作成する必要があります

Data Miner プロジェクトを作成するには、次の手順を実行します:

以下のように、Data Miner タブで、dmuserを右クリックし**新規プロジェクト**を選択します:

プロジェクトの作成ウィンドウで、プロジェクト名(この例ではABC Insurance)を入力し、OKをクリックします

Data Minerワークフローの構築

Data Minerワークフローは、データマイニング・プロセスをあらわす接続ノードの集合です

ワークフロー:

データマイニングサーバのための指示を提供します。たとえば、「これらの特性を持つモデルを構築します」というワークフローを定義すると、ワークフローに返す結果とともにデータマイニングサーバでモデルが構築されます
グラフィカル環境からデータマイニング・プロセスの作成、分析およびテストを対話的に実施できます
より大きなプロセスの1サイクルのみをテストし、分析するために使う、もしくは特定のビジネス上の課題を解決するためにデザインされたプロセスのすべてのフェーズをカプセル化することができます

Data Minerワークフローには何が含まれる?

視覚的には、以下のようにワークフローウィンドウが表示され、作成使用としているデータマイニング・プロセス・フローのグラフィカルな表現を提供します:

注:

プロセスの各要素は、ノードと呼ばれるグラフィカルなアイコンで表示されます
各ノードは、特定の指示を含む明確な目的を持ち、多くの方法で個々の定義を設定・修正します
一緒にリンクされる場合には、ワークフローノードは特定のデータマイニングの課題を解決されたことにより、モデリングプロセスを構築します

これから学ぶように、任意のノードをワークフローエリアに単にドラッグ&ドロップすることでワークフローに追加できます。各ノードには、デフォルトのプロパティが含まれています。必要に応じてプロパティを変更し、次のステップに進むための準備をします

データマイニングシナリオのサンプル

このトピックでは、保険を購入する可能性が最も高い既存顧客を予測するデータマイニング・プロセスを作成します。

この目標を達成するために、以下を実施してワークフローを構築します:

ソースデータを特定し、検討する
いくつかの分類モデルを構築し、比較する
最も実用的な結果を生成するモデルを選択し,実行する

このプロセスのためのワークフローを作成するには、次の手順を実行します

ワークフローの作成とデータソースの追加

プロジェクト(ABC Insurance)を右クリックし,メニューから、**新規ワークフロー** を選択します

ワークフローの作成ウィンドウで、名前に**Targeting Best Customers**を入力し、OKをクリックします

ワークフローの最初の要素はソースデータです。ここでは、ワークフローにデータソースノードを追加し、データソースとして INSUR_CUST_LTV_SAMPLE 表を選択します

A. [コンポーネント]タブで、**データ** カテゴリをドリルします。. 以下のように、6つのデータノードグループが表示されます:

ウィザードのステップ1:

A. 以下のように、使用可能な表/ビューリストから**INSUR_CUST_LTV_SAMPLE** を選択します:

ウィザードのステップ2では、データソース内の不必要な列を削除できます。今回は、表に定義されたすべての属性を残しておきます

ウィザードの下部にある終了をクリックします

ソースデータの分析

ソースデータの分析のためにデータの参照ノードを使います。グラフノードでもデータの可視化は可能です。これらはオプションのステップですが、Oracle Data Minerでは、このツールによって、選択したデータにより定義したビジネス上の課題を解決する基準を満たしているかどうかを確認できます

次の手順に従ってください:

以下のようにデータグループからデータの参照をワークフローにドラッグ&ドロップします:

データソースとデータ参照ノードを接続するために以下の手順を行います:

A. データソースノード(INSUR_CUST_LTV_SAMPLE)を右クリックし、ポップアップメニューから接続を選択し、ポインタをデータの参照ノードにドラッグします:

次に、データソースの「グループ化基準」を選択します

A. **データの参照**ノードをダブルクリックし、データの参照ノードの編集ウィンドウを表示します

B. グループ化基準リストから、以下のように**BUY_INSURANCE** 属性を選択します:

データの参照ノードの結果を確認するには、次の手順を実行します:

A.データの参照ノードを右クリックし、メニューから**データの表示**を選択します

以下のように、データグループからグラフノードをワークフローにドラッグ&ドロップします:

データソースノードにグラフノードを接続するには、以下の手順を使用します:

A. データソースノード(INSUR_CUST_LTV_SAMPLE)を右クリックし、ポップアップメニューから接続を選択し、グラフノードにポインタをドラッグします

B. 次に、2つのノードを接続するために**グラフ**ノードをクリックします。以下のように結果が表示されます:

次に、グラフノードを右クリックし、メニューから編集をクリックします

結果: 次の情報ダイアログが表示されます

ここで、新規グラフウィンドウを表示するために**グラフ**ノードをダブルクリックします。以下の属性を設定します:

A. 上部の**Histogram** ボタンをクリックし、グラフタイプを選択します

B. Titleボックスで、 **Histogram of AGE Grouped by LTV**と入力します

C. ヒストグラムの設定エリアで属性の値に**AGE** を選択します

D. 次に、**グループ化基準**オプションを有効にします

E. グループ化基準オプションの属性に、**LTV_BIN**を選択します

新たなグラフウィンドウは以下のように設定します:

以下のように、新規グラフツール(緑の"+"アイコン)をクリックするだけで、1つのノード内に追加のグラフを作成できます:

グラフノードで分析を実施したら、以下のようにクローズアイコン(X)をクリックしてグラフタブを閉じます:

分類モデルの作成

このチュートリアルの概要セクションで、個人の行動の予測には分類モデルを使うことを紹介しています。このシナリオでは、あなたは保険を購入してくれそうな顧客を予測したいとします。したがって、今回は分類モデルを用います。

Oracle Data Minerでは、分類モデルを作成するとアルゴリズムの異なる4つのモデルが作成されます。分類ノード内のもでるはすべて同じターゲットとケースIDを持ちます。このデフォルトの構成は、最良の予測をするアルゴリズムの発見が容易にできます。ここでは、すべてのアルゴリズムを使用して分類ノードを定義します。

では、次のトピックでは各モデルを実行し検証します。

デフォルトの分類モデルを作成するには、次の手順を実行します:

A. はじめに[コンポーネント]で、データカテゴリを折りたたみ、**モデル** カテゴリを展開します:

まず、先に説明したのと同じように、分類構築ノードにデータソースノードを接続します

分類ビルド・ノードの編集ウィンドウでは:

A. ターゲット属性として**BUY_INSURANCE**を選択します

B. ケースID属性として**CUSTOMER_ID** を選択します

オプションで、任意のアルゴリズムをダブルクリックして、リストされているアルゴリズムの特定の設定を変更できます

A. 例えば以下のように、最初のアルゴリズムをダブルクリックして、詳細モデル設定ウィンドウを表示します:

最後に、分類ビルド・ノードの編集ウィンドウでOKをクリックし、変更を保存します

結果: 分類構築ノードを実行する準備が整いました

モデルの構築

このトピックでは、ソースデータを元に選択したモデルを構築します。この操作は「トレーニング」と呼ばれ、このモデルはトレーニングデータから実行するときには「学習」と呼ばれます。

一般的なデータマイニングの実践構築(トレーニング)はソースデータの一部に対して行われ、その後、データの残りの部分に対してモデルをテストします。デフォルトでOracle Data Minerは、40/60に分割したデータを用いたアプローチを用います

モデルを構築する前に、分類構築ノードを選択し、プロパティタブからテストセクションを選択します。テストセクションでは以下を指定することができます:

構築プロセス中にテストを実行するかしないか
どのテスト結果を生成するか
テストデータの管理をどうするか

テストデータエリアでは以下のように値を50に変更してテストデータの分割を50/50に指定します

次に、モデルを構築します

分類構築ノードを右クリックし、ポップアップメニューから実行を選択します

注:

ノードを実行すると、ノードに定義されたすべてのモデルが構築、テストされます

前と同様、サーバプロセスが実行中はノードの境界線上に緑のギアアイコンが表示され、ワークフローウィンドウの上部にステータスが表示されます

構築が完了すると、すべてのノードの境界線に緑のチェックが表示されます

ワークフローで分類構築ノードを選択し、プロパティタブで**モデル**セクションを選択します

モデルの比較

選択したモデルを構築・トレーニングした後、比較フォーマットで表示してすべてのモデル結果を評価できます。ここでは、4つのすべての分類モデル結果を相対的に比較します。

次の手順に従います:

分類構築ノードを右クリックし、メニューから**テスト結果の比較**を選択します

結果: 分類構築タブが新たに開き、パフォーマンスタブでは、以下のように4つのモデルの比較情報が表示されます:

**リフト**タブを選択します。そして、グラフ上部右のターゲット値を**Yes**に変更します

GLMとDTモデルの詳細を比較しましょう

まず、モデルのターゲット値の詳細を表示するためにをGLMモデルを選択します。各モデルの「ターゲット値」はBUY_INSURANCE属性であることを思い出してください

初回の分析をした結果、より深くディシジョンツリー・モデルを検証することにします。分類構築タブウィンドウを閉じます

特定のモデルの選択と検証

前野トピックで実行された分析により、ディシジョンツリー・モデルを以降の分析で用いることにします

ディシジョンツリー・モデルを検証するために次の手順を実行します

ワークフローペインに戻り、再び分類構築ノードを右クリックし、モデルの表示> CLAS_DT_1_1 を選択します。(注: ディシジョンツリー・モデルの名前が異なることがあります)

結果: ウィンドウが開き、ディシジョンツリーがグラフィカルに表示されます

このインタフェースは、いくつかのナビゲーション表示機能が提供されています:

サムネイルタブでは、ツリー全体の高レベルなビューを提供しています。たとえば、プライマリ表示ウィンドウ内ではノードをいくつかのみ表示していますが、サムネイルタブでは、このツリーには5つのレベルが含まれることを確認できます

サムネイルタブのボックスを動かすことでプライマリウィンドウ内のビューを動的に動かすことができます。また、ディシジョンツリー表示内の別の場所を表示するには、プライマリ表示ウィンドウ内のスクロールバーを使用することができます

最後に、表示可能なコンテンツのサイズを増加もしくは減少させるためにプライマリ表示ウィンドウのズーム率を変更できます

たとえば、ディシジョンツリー表示ウィンドウで100%ズームに設定します

まず、移動して**ノード 2**を選択します

注:

ディシジョンツリーの各レベルには、IF/THEN文で定義されるルールが表示されます。ツリーにレベルが追加されるには、新たな条件がIF/THEN文で追加されることです

ツリーの各ノードに対して、ボックスに個々のノードについての要約情報が表示されます

また、以下のように個々のノードを選択すると、IF/THEN文ルールがルールタブに表示されます

一般的に、ディシジョンツリー・モデルは非常に大きなレベルのセットを表示し、また、各レベルのノードにさらにツリーが含まれています。しかし、このレッスンのデータセットは通常のデータマイニングのセットよりもとても小さいのでこのディシジョンツリーもとても小さいです

モデルの適用

このトピックでは、ディシジョンツリー・モデルを適用し、結果表示用の表を作成します。モデルを「適用」し、保険を購入する可能性がある顧客を予測します。.

モデルを適用するには,次の手順を実行します:

まず、分類構築ノード内から必要なモデル(複数でも可能)を指定します
第二に、ワークフローに新規データソースノードを追加します。(このノードは「適用」するためのデータとします)
第三に、ワークフローに「適用」ノードを追加します
次に、分類構築ノードと新規データソースノードをそれぞれ適用ノードに接続します
最後に、モデルから予測結果を得るために適用ノードを実行します

モデルを適用し、結果を表示するには、以下の手順を実行します:

ワークフロー上で、分類構築ノードを選択します。次に、[プロパティ]タブからモデルセクションを表示し、DTモデル以外のモデルの選択を解除します.

モデルの選択を解除するには、各モデルの出力列にある大きな緑色の矢印をクリックします。この動作により列に小さな赤い"x"が追加され、次に構築では使用されないことを示します

作業が終了したら、プロパティタブのモデルタブは以下のように表示されます:

次に、ワークフローに新たなデータソースノードを追加します。注: 「適用」用のデータソースとして同じ表を使う場合であっても、ワークフローに2番目のデータソースノードを追加する必要があります

A. 以下のように、[コンポーネント]タブの[データ]カテゴリからワークフローキャンバスに、データソースノードをドラッグ&ドロップします。自動的にデータ・ソースの定義ウィザードが開きます

B. データ・ソースの定義ウィザードで、**NSUR_CUST_LTV_SAMPLE** 表を選択し終了をクリックします

新しいデータソースノードを選択し、プロパティタブの詳細セクションを使って,以下のようにノード名を**INSUR_CUST_LTV_APPLY**に変更します:

結果: 新規表名がワークフロー上にも反映されます

プロパティ・インスペクタの詳細タブを用いて、適用ノードの名前をApply Modelに変更します

以下に記載されている方法で、分類構築ノードをApply Modelノードに接続します

次に、**INSUR_CUST_LTV_APPLY** ノードを**Apply Model**ノードに接続します:

適用するモデルノードを実行する前に、結果のアウトプットについて検討します。デフォルトでは、各顧客のための情報のための2つの列を作詞します:

予測値(YesまたはNo)

予測の確率

しかし、本当に特定の顧客と予測された情報を関連づけることができるように、各顧客の情報を理解してください

この情報を取得するには、適用されたアウトプットに3つめの列:CUSTOMER_IDを追加する必要があります。アウトプットに顧客IDを追加するには次の手順に従います:

A. Apply Modelノードを右クリックし、編集をクリックします

結果: 適用ノードの編集ウィンドウが表示されます。予測、予測確率および予測コストの列が予測タブに自動的に追加定義されています。

これで、モデルを適用する準備ができました。Apply Modelノードを右クリックしメニューから実行を選択します

結果:前と同様、ワークフロードキュメントが自動的に保存され、実行中は小さな歯車アイコンがそれぞれのノードに表示されます。また、実行ステータスはワークフローペインの上部に表示されています

処理が完了すると、サーバプロセスが正常に完了したことを示すために、すべてのワークフローノードに緑のチェックマークアイコンが表示されます

必要に応じて、モデルの予測結果（「適用」の結果）を格納するデータベース表に作成することができます

この表は任意の目的に利用できます。たとえば、アプリケーションにこの表から予測値を組み込むことができ、顧客への割引レター等やその他の適切なアクションのための示唆を与えてくれます

モデルの予測結果の表を作成するには、次の手順を実行視します:

A. 以下のようにコンポーネントペインのデータカテゴリから、**表またはビューの作成**をワークフローウィンドウにドロップします:

結果を表示するには:

A. DT_PREDICTIONS表ノードを右クリックし、メニューから**データの表示**を選択します

結果: 新しいタブに表の内容が表示されます:

表には、3つの予測データと顧客ID列の4つの列が含まれます

次に示すように、ソートボタンを使用して任意の列を元に表を並べ替えることができます

ここでは、以下のようにソートされます:

まず、予測結果値(CLAS_DT_1_1_PRED)を降順で選択します (保険を購入するという予測結果が"Yes"の列が最初にくることを意味します)

次に、予測確率(CLAS_DT_1_1_PROB)を降順で選択します(表表示の一番上は予測確率の高いものになることを意味します)

まとめ

このレッスンでは、SQL Developer 4.0に含まれるグラフィカルユーザインタフェースOracle Data Minerを使って、「分類」予測データマイニングをIを作成しビジネス課題を検証・解決しました

このチュートリアルでは、以下のことを学びました:

Data Minerインタフェースコンポーネントについて
Data Minerプロジェクトの作成
顧客の行動を予測するために分類モデルを使ったワークフロードキュメントの構築

リソース

Oracle Data Miningについて詳しくは:

OTNのOracle Data MiningおよびOracle Advanced Analyticsのページ
Oracle Learning Libraryにある他のOBE
Data Mining概要マニュアル:
- Oracle Database 12c Release 1 (12.1)
- Oracle Database 11g Release 2 (11.2)

謝辞

主なカリキュラム開発者: Brian Pottle

他の貢献者: Charlie Berger, Mark Kelly, Margaret Taft, Kathy Talyor

To help navigate this Oracle by Example, note the following:

Hiding Header Buttons:: Click the Title to hide the buttons in the header. To show the buttons again, simply click the Title again.
Topic List Button:: A list of all the topics. Click one of the topics to navigate to that section.
Expand/Collapse All Topics:: To show/hide all the detail for all the sections. By default, all topics are collapsed
Show/Hide All Images:: To show/hide all the screenshots. By default, all images are displayed.
Print:: To print the content. The content currently displayed or hidden will be printed.

To navigate to a particular section in this tutorial, select the topic from the list.