Jeffrey Erickson |コンテンツ・ストラテジスト| 2024年7月17日
企業のデータの備蓄は金鉱かもしれません。そのデータを適切に使用すると、より効率的な経営を支援し、ミスステップを回避し、生成AIなどの機会を活用できる分析を促進できます。生成AIには、クリーンで組織化されたデータの流れが必要になります。しかし、そのすべてのデータの可能性を活用するには、組織は適切な戦略を導入し、データ・インフラストラクチャを最適化する必要があります。
データ・インフラストラクチャは、組織のデータ(収集、ストレージ、メンテナンス、配布など)を担当するテクノロジ、プロセスおよび個人のエコシステムです。インフラストラクチャのテクノロジ・コンポーネントには、サーバーやストレージ・デバイスなどのオンプレミス・ハードウェアと、OLTPデータベースやデータ・ウェアハウスなどのソフトウェア、ネットワーキング・テクノロジが含まれます。通常、様々なクラウド・サービスも含まれます。関係者には、アプリケーション開発者、データベース管理者、データ・アナリスト、データ・サイエンティストなどがあります。
データ・インフラストラクチャの主な目的は、セキュアなストレージ・リポジトリと、データ処理および分析のためのコンピューティング・リソースを提供することです。また、データの使用方法、およびデータへのアクセス権を持つユーザーを管理するルールとポリシーも同様に重要です。最終的には、データ主導型の意思決定のための効率的な管理および分析により、組織のデータから最大限の価値を得ることが目標です。
主なポイント
データ・インフラストラクチャは、サーバーやストレージ・デバイスなどのハードウェア・コンポーネントや、データの格納、取得、共有および分析のためのソフトウェアを含む、組織の物理インフラストラクチャで構成されます。主要なコンポーネントには、データベース、データレイク、データウェアハウスなどがあり、グラフ、空間、テキスト、イメージ、JSON、ベクトル・データなど、さまざまなデータ型を格納および分析するために企業が使用するデータウェアハウスがあります。
これらのテクノロジに重点が置かれているのは、機密データを不正アクセスから保護するセキュリティ対策です。それ以外にも、ダッシュボードや生成AIコパイロットなど、データ分析に基づく意思決定をサポートするツールやテクノロジーがあります。
機能データ・インフラストラクチャにより、効率的なデータ処理、分析、意思決定が可能になり、セキュリティと規制へのコンプライアンスに対応できるようになります。効果的なデータ・インフラストラクチャを持つ組織は、多くの場合、複雑なデータ型の組合せであるものを、わかりやすく実用的なインサイトに変換することで、価値を引き出すことができます。
これらの洞察は、ユーザーが情報を探索および分析できるインタラクティブ・ダッシュボード(理想的にはリアルタイム)から得られ、生データから見えない傾向、パターンおよび関係を識別できます。ダッシュボードには、チャート、グラフ、ヒート・マップおよびインフォグラフィックが含まれており、様々な決定の結果を簡単に比較できます。
効果的なデータ・インフラストラクチャは、セキュリティを損なうことなくデータ・アクセスを民主化することを目指しています。さまざまなレベルの利害関係者が協力し、戦略的な意思決定に貢献できる場合、組織にはメリットがあります。さらに、データ・インフラストラクチャは、インテリジェントな自動化を含む生成AIイニシアチブを提供できるため、事業運営をより効率的にすることができます。
データの効果的な使用は、何年もの間、ビジネスの意思決定に不可欠な要素となっています。企業が業務データを簡単に分析できれば、何がうまくいっているのか、何がうまくいかないのかをより明確に把握したり、秒単位の意思決定を正確に行ったり、より長いビューを取ってexploitへの傾向を確認したり、回避したりすることができます。現在、生成AIの新たな可能性により、データ・インフラストラクチャはかつてないほど重要になっています。AIはデータ上で実行され、適切なデータ・インフラストラクチャ(取得拡張生成(RAG)やベクトル・ストアなどのテクノロジーが含まれるようになった)でのみ、最新の生成AIモデルは潜在能力を最大限に発揮できます。
データ・インフラストラクチャはAIイニシアチブをサポートできるように最適化されているでしょうか。それを確認するために、すべてのリーダーが問うべき必須の質問7つをご紹介します。
データ・インフラストラクチャを最適化する際には、多くの角度を考慮する必要があります。ここにあなたのすべての基盤をカバーするのに役立つ10のアイデアがあります。
ハードウェアやソフトウェアの投資に加えて、データ・ガバナンスはデータの力を解き放つために不可欠な要素です。データ・ガバナンスは、正確性、一貫性、可用性、セキュリティを確保し、データ関連の慣行を組織の目標と目標に合わせて効果的に管理および使用するためのフレームワークです。
データ・ガバナンス計画では、説明責任を確実にするために、データ管理に関わる個人の明確な役割と責任を定義する必要があります。最初のステップでは、ロールを定義し、データ所有者、データ・スチュワードおよびデータ・ユーザーを指定し、それぞれに特定の権利と責任があります。データ・ガバナンスには、データにアクセスできるITチームのルールとガイドラインも含まれています。ポリシーは、データ・セキュリティ、データ品質、データ保持およびデータ共有などのトピックに対処する必要があります。
最後に、堅実なガバナンスでは、定期的なデータ監査を実施し、データ品質メトリックを監視して、問題を迅速に特定して対処する必要があります。
データ・インフラストラクチャの構築と保守に関わるIT担当者は、多くの場合、ソフトウェアのプロビジョニング、監視および更新に関連するステップを自動化するスクリプトを記述することで、タスクの自動化に役立ちます。最近では、クラウド・プロバイダーは強力なAIおよび機械学習(ML)ツールを使用して、プロビジョニング、データ・ロード、クエリ実行、障害処理など、組織が幅広いタスクを自動化し、大規模なクエリ・パフォーマンスを達成できるようになっています。
ビジネス面では、このレベルのパフォーマンスによって予測分析が促進され、財務、データ・セキュリティ、ロジスティクスなどの分野における意思決定の正確性と速度が向上します。
効率的な管理と転送のために、あらゆるデータ・インフラストラクチャがデータを論理グループに編成することが重要です。この作業には、データ分類とデータ分類の2つの部分があります。分類では、ソースや機密性などの共有属性に基づいてデータをカテゴリにグループ化し、分類では、ルールまたはアルゴリズムに基づいて事前定義済のクラスにデータを割り当てます。
たとえば、製品研究開発文書は、「技術データ」や「市場調査」などの複数のカテゴリに収まる可能性がありますが、「公開」、「機密内部」、「機密」などの特定の階層内の分類は1つのみです。
メタデータは、データ・アセットを説明する情報です。写真を撮ると、メタデータには、写真が撮影された場所と時期、その他の可能性のある属性が示されます。データ・インフラストラクチャ内のメタデータ・ストアは、システム内のデータ・アセット、プロセスおよびスキーマに関するメタデータを編成および保持します。メタデータ・ストアは、データレイクハウスなどのハイブリッド環境におけるデータの検出性とデータ・ガバナンスの両方を改善できます。メタデータ・ストアは、データ系統、アクセス制御、暗号化および監査ロギングに関する情報を提供することで、規制遵守にも役立ちます。これらはすべてデータのプライバシと保護に寄与します。生成AIシステムは、メタデータを活用して、その出力に透明性と説明可能性をもたらします。
適切なデータ・インフラストラクチャは、組織のデジタル資産を保護するのに役立ちます。これにより、顧客や利害関係者の信頼を獲得し、業界の規制への準拠を支援します。
データ・セキュリティでは、いくつかの角度、技術的な角度、社会的側面を考慮する必要があります。まず、restでデータを暗号化し、無許可の人員によって傍受またはアクセスされた場合に転送します。次に、機密データを参照できるユーザーを制限するコントロールを実装することで、これらの脅威から保護します。これは、ユーザー認証とロールベースのアクセス制御によって実現できます。データ・セキュリティに対する脅威は常に進化し、保護対策を定期的に監視および更新し、もちろん、最新のセキュリティ・パッチとソフトウェア更新を最新の状態に保つためです。クラウド・プロバイダーは、脆弱性が発見されるとすぐに、プロアクティブにパッチを適用してソフトウェアを更新することがよくあります。
もう一つは、従業員教育です。従業員が勤務日の一部としてデータ・セキュリティを理解していることを確認します。強力なパスワード、フィッシング詐欺、ソーシャルエンジニアリング攻撃に対する意識を高めるためのトレーニングを確立し、疑わしい活動のためのレポート構造を提供します。最終的には、データ侵害が発生しますが、封じ込めや回復、顧客や利害関係者の信頼を維持するためのコミュニケーション手順など、実行する手順のプロトコルによる影響を最小限に抑えることができます。
生産性を損なう前に、データ・インフラストラクチャを監視して潜在的な問題を特定することが重要です。様々なインフラストラクチャ・コンポーネントを監視するために、データ・エンジニアはソフトウェア・エージェントを使用して、オペレーティング・システム、CPU使用率、メモリー使用量、ネットワーク・トラフィックおよびその他の多くのコンポーネントのパフォーマンス・データを収集します。ユーザーに影響を与える可能性がある問題が検出されると、監視システムは問題の診断や修正に役立ちます。データセンターとクラウドプロバイダーにわたるリアルタイム監視により、テクノロジーは停止や減速を予測することもできるため、ユーザーが検出する前に対処できます。
組織が大量のデータを生成および収集している可能性があります。そのペースを加速させることは賢明だ。データ・インフラストラクチャが成長に対応し、変化する需要に適応できるようにするには、どうすればよいでしょうか。
現在のハードウェア、ソフトウェア、クラウド・サービスが増大するデータ量や計算需要にどのように適応するかを理解します。混乱やボトルネックが発生する可能性が高い場所を把握し、その周りの設計を開始します。そのためには、最新のテクノロジーとデータ管理戦略に対する潜在的な影響を常に最新の状態に保つ必要があります。たとえば、生成AIの影響力の増大に伴い、ベクトルやRAGなどの新しいデータ型のメリットを理解する必要があります。
組織のコンピュート・ニーズは、日、週、月、年全体で変化します。たとえば、オンライン小売業者は休日の間に大量の使用を計画する必要があり、数万人の学生がクラスに登録している可能性がある場合、大学はこれらの短いバースト中に迅速にスケールアップする必要があります。自動スケール・アップおよびスケール・ダウン機能でデータ・インフラストラクチャを使用すると、特にcloud serviceでインスタンスに対して支払う場合、全体的なITコストを削減できます。
適切なクラウド・プロバイダーを選択する以外に、統合、モデリング、オーケストレーション、監視、可視化用に設計されたアーキテクチャとツールでスケーラビリティを確保できます。ロード・バランサなどのテクノロジは、サーバー間でトラフィックを分散できます。さらに、オンプレミスまたはDatabase as a Service製品として、適切なデータベース・ソリューションでは、インデックス作成、キャッシュ、クエリの最適化などのスケーラビリティを最大化するための手法を採用します。
高速なデータ処理と十分なストレージ容量は、効率的なデータ・アーキテクチャの基礎となります。最もシンプルで、多くの場合、最も低コストな方法は、一部のワークロードをクラウドにオフロードすることです。これには、データベース・サービスおよびSoftware-Defined Storage as a Serviceが含まれ、単一のクラウド・サーバー上の仮想マシンのコレクションを使用してリソース使用率を向上させることができます。
データセンターに留まるワークロードについては、最新のhigh performanceハードウェアに投資して、古い機器を交換し、スループットを向上させます。最新のネットワーク・ハードウェアおよびソフトウェアは、データ・センター内または場所とクラウド・データ・センター間でデータを移動するために重要です。アップグレード時には、機械学習と分析のためにデータベース間でデータを移動する必要がないようにしてください。1つのクラウド・データベース・サービスを使用することで、速度が向上し、複雑さが軽減されます。
効率的なデータ・インフラストラクチャには、ストレージ・ハードウェア、処理ハードウェアおよびネットワークを含む物理インフラストラクチャ、ビジネス・アプリケーションおよびデータ・リポジトリを含む情報インフラストラクチャ、ビジネス・インテリジェンス・システムや分析ツールなどのビジネス・インフラストラクチャなど、多くの移動部分があります。これらの各要素を機能させ、安全に保つには、最新の状態に保つ必要があるスキル・セットが必要です。たとえば、最新のデータ・システムでは、新しいデータ型、ソフトウェア・ツール、コンピュート・アーキテクチャ、組織構造に精通する必要がある生成AIを検討する必要があります。スタッフは、スキルアップ企業、ユーザー・グループ、技術イベントからトレーニングを受け、最新のデータ・システムを常に把握し、フルスタック開発プロセスのデータベースについて学習し、データ・メッシュ・アーキテクチャを探索し、データの分析と調査結果の提示に関わる原則を把握できるようにします。
また、テクノロジー・プロフェッショナルは、クラウド・プロバイダーが提供するトレーニングや、特定のテクノロジーに関するコミュニティが提供するトレーニングにアクセスすることもできます。
MySQLは、世界で最も人気のあるオープン・ソース・データベースですが、これまでは、データ分析は別のデータベースで行われなければなりませんでした。現在、HeatWave MySQLは、トランザクションとリアルタイム分析を組み合せたフルマネージドdatabase cloud serviceを提供し、ETLの重複の複雑さ、レイテンシ、コストおよびリスクを排除します。データを別々のクラウド・サービスに移動する必要性を排除する他の組込みのHeatWave機能を使用して、データ・インフラストラクチャをさらに簡素化します。
HeatWaveは、Oracle Cloud Infrastructure(OCI)、Amazon Web Services(AWS)、Microsoft Azureで利用可能です。
データ・インフラストラクチャ・システムに障害が発生した場合はどうなりますか。
障害が発生したデータ・インフラストラクチャは、複数の結果につながる可能性があり、どれも良好ではありません。これにより、効率的でクリーンなデータに依存するWebサイト、アプリケーション、分析ツール、AIシステムの応答時間が遅くなる可能性があります。さらに悪いことに、障害のあるインフラストラクチャ・システムは脆弱性を開き、ヒューマン・エラーやシステム・クラッシュによるデータの損失のリスクにさらしたり、悪質なアクターが障害のあるデータ・インフラストラクチャにアクセスできればデータが危険にさらされる可能性があります。
データ・インフラストラクチャの管理方法
データ・インフラストラクチャは、データの安全性を確保し、サービスを提供するよう設計された人々に届くよう支援する一連のテクノロジとポリシーを使用して管理します。重点分野には、データ・ストレージ・ハードウェア、データベース・ソフトウェア、および内部システムとcloud serviceプロバイダ間のデータ・フローを効率的に確保するように設計されたネットワーキング・ソフトウェアと機器が含まれます。データ・インフラストラクチャの管理はきわめて求められるスキルであり、特に生成AIがより一般的になるにつれて、クリーンなデータの安定したフローが必要になります。
データ・インフラストラクチャに投資するテクノロジをどのようにして把握するのですか。
複雑さを増すことなく付加価値を高めるテクノロジーに優先順位を付けます。たとえば、トランザクション処理と機械学習を処理できるデータベースに投資すると、時間のかかるETLプロセスから節約できます。また、テキスト、空間、グラフ、JSON、ベクトルなど、様々なデータ型でネイティブに動作するデータベースを検索することもできます。また、データ・インフラストラクチャの簡素化にも役立ちます。
データ・インフラストラクチャはどのくらいの頻度で確認する必要がありますか。
多くの場合、データ・インフラストラクチャは組み立ておよび保守が複雑です。機械学習やAIなどの新しいテクノロジを採用する場合、または新しいデータ・セキュリティ対策が必要な場合に、データ・インフラストラクチャのアップグレードを確認することをお薦めします。合併や買収などの組織の成長や変化も、レビューをトリガーする必要があります。継続的なメンテナンスのために、データ・インフラストラクチャが様々なコンポーネントの動作状況に関するログを収集し、定期的に確認するようにしてください。これらのログは、発生している問題やその範囲内にある問題についてデータ・エキスパートに警告します。