大塚紳一郎, 2020年10月
2003年、株式会社野村総合研究所に新卒で入社。ミッションクリティカルシステムにおけるOracle Databaseの構築、運用、コンサルティングに関して15年以上の経験を持つ。毎年サンフランシスコで開催される世界最大のテクノロジーイベント「Oracle OpenWorld」を含む各種イベントでの講演多数。Autonomous DatabaseがGAされた年にOracle ACE Programに参加できたことに運命を感じており、Oracleデータベース管理者の今後のロールモデルの構築に携わりたいと考え日々活動中。最新の登壇タイトルは「Boosting your career through Oracle Cloud Infrastructure 2019 Architect Professional.」


1.はじめに
こんにちは、NRIの大塚です。今回はBIG DATA領域の連載6回目です。
今回はOracle Cloud Infrastructure Data Catalogの実装をしたいと思います。
Oracle Cloud Infrastructure Data Catalogに取り組むにあたり、
Key Data Catalog Conceptsをご紹介します。
| Data Asset | A source, provider, system or store containing data, e.g. a Database, an Object Store, a File or Document Store, a Message Queue, or an Application. | |||
| Data Entity | A set of data in a Data Asset, normally representing a single type of data,e.g. a database table, a file, or several files representing a common set of data. | |||
| Data Attribute | An attribute of a data entity describing an item of data, with a name and data type, e.g. a column in a database table or file. | |||
| Harvesting | Process of collecting technical metadata from a data asset. | |||
| Glossary | A collection of business concepts (typically by subject matter) in hierarchical form of Categories and Business Terms. | |||
(出典)OCI Data Catalog Overview: Abhiram Gujjewar, Director Product Management
今回は上記の「グロッサリー(用語集)」の実装を通じて、Oracle Cloud Infrastructure Data Catalogをお伝えしたいと思います。なぜ「グロッサリー(用語集)」に着目したかと申しますと、前回下図のように、Autonomous Data Warehouseに集約したデータを用いて、Data scientistが分析をする際、どのような性質のデータを集めてきているか、しっかりと周知・連携することが、とても重要だからです。
また、Oracle Cloud Infrastructure Data Catalog Visionは以下のように語られています。ぜひ体感してください。
|
Self-service Data Discovery and Governance Solution A single collaborative solution for data professionals to collect, organize, find, access, enrich and activate technical, business and operational metadata to support self service data discovery and governance for trusted data assets in Oracle Cloud and beyond. (出典)OCI Data Catalog Overview: Abhiram Gujjewar, Director Product Management |
今回整備するのは図中の赤枠、Oracle Cloud Infrastructure Data Catalogと、データ・カタログに登録する情報元であるAutonomous Data Warehouseです。
実装手順は以下の3ステップとなります。
- Step1:データ・カタログの作成
- Step2:データ・アセットの作成(接続の追加→収集ジョブの作成→収集)
- Step3:データ・グロッサリーの実装(用語集→カテゴリ→用語の作成、用語のリンク)
それでは、まとめの回を始めたいと思います。
早速Oracle Cloud管理コンソールへログインしてみましょう。URLは以下です。
https://www.oracle.com/cloud/sign-in.html
(注)2ステップ検証は以下の記事で実装しました。
「Keys to the Oracle Cloud 第7回:【Tea break】 Oracle CloudにおけるMulti-Factor Authentication(多要素認証)の実装」
標準のログインシーケンスでは、2ステップ検証の画面には遷移しませんのでご注意ください。
上記の記事を参考に各自実装をお願いします。
これからOracle Cloud管理コンソールを活用して実装をしていきます。ハンバーガーボタンを押下するとメニューが表示されます。表示されたメニューで構築を進めて行きます。
構築開始前にリージョンと、言語の確認をしましょう。必要に応じて、下図を参考に設定を変更してください。
1.データ・カタログの作成
「ハンバーガーボタン」→「データ・カタログ」を押下します。
「データ・カタログの作成」を押下します。
値を入力していきます。
すぐに作成されます。
2.データ・アセットの作成(接続の追加→収集ジョブの作成→収集)
データ・カタログのTOP画面です。次にデータ・アセットを作成していきます。
値を入力します。
データベース名について補足します。以下の画面で確認できます。
「データ・アセットの参照」を押下します。
データ・カタログに登録するデータを取得していきます。まず「接続の追加」を押下します。
値を入力していきます。
作成されましたので、メタ・データを収集します。「収集」ボタンを押下します。
メタ・データ収集ジョブを作成します。
収集先を設定します。
すぐに登録されますので、「次」を押下します。
ジョブ名を入力し、「ジョブの作成」を押下します。
ジョブが作成され、収集がはじまります。
最終実行ステータスが「成功」に切り替わります。
3.データ・グロッサリーの実装(用語集→カテゴリ→用語の作成、用語のリンク)
ホーム画面が収集した情報で切り替わります。データ・グロッサリーを実装していきます。
「用語集」を押下します。
用語集の作成画面に切り替わります。
用語集の名前を入力し、「保存」を押下します。
すぐに作成されます。次にカテゴリを作成していきます。
カテゴリの名前は「EMP」とします。
すぐに作成されます。今後は「用語の作成」をしていきます。
登録する用語と、その説明を記載します。
これで用語「EMP_ID」が作成されました。
では、属性に先ほどの用語をリンクします。ホームに戻り、「属性」を押下します。
収集済の属性がリストされますので「EMP_ID」を押下します。
「用語のリンク」を押下します。
用語のリンクから該当の「EMP_ID」を選択します。
「EMP_ID」のデータ・グロッサリーを行うことができました。
このグロッサリーは非常に大きな意味があります。例えば、この「EMP」tableですが、2019年のものなのか、それとも2020年度の情報が取り込み済みの状態なのか?それが分かるだけで、分析の結果は大きく違ってくるでしょう。
さらに加えると、2019年何月時点のものかまで分かると、分析を月単位で行うことができることを意味します。
リアルタイムDWH(Autonomous Data Warehouse)に集約したデータの性質をData scientistへ周知・連携することは非常に重要なタスクなのです。データを活用していくために、各々がどのような役割を果たすべきか。そういった組織論まで含めて、Oracle Modern Data Platformは私達の模範なのです。
以上がBIG DATA編のお話となります。いかがでしたでしょうか?
Oracleデータベース管理者の皆さまには、企業が「データ・ドリブン・エンタープライズ」へ変革していくための大きな推進力となって、新しい時代のシステム構築を引き続き牽引していって頂くことを願っております。
BIG DATA編はここまでといたします。読んで頂きありがとうございました。
謝辞
Oracle GoldenGate Microservices Edition for Oracle、Oracle Cloud Infrastructure Data Catalogの検証を支えてくださった日本オラクルの谷川さん、瀬尾さん、五嶋さん、金本さん、そして、私達Oracleデータベース管理者の憧れであるOracle Technology Networkへの執筆機会をくださった日本オラクルの鈴木さんに、この場をお借りして深く感謝申し上げます。ありがとうございました。
※Oracle Cloud Infrastructure Data Catalog
https://docs.cloud.oracle.com/en-us/iaas/data-catalog/using/index.htm
※Oracle GoldenGate for Oracleに関するマニュアル