ビッグ・データのオープン・ソース

オープン・ソースを含めずにビッグ・データのストーリーを記述するのは困難です。これら2つは結び付けられています。オープンソース・ソフトウェアの開発は、ビッグ・データの進化に大きな要因でした。また、オープン・ソース・テクノロジは、迅速なイノベーションを実現する機能により、ビッグ・データ・エコシステムの不可欠な部分であり続けています。実際、ビッグ・データ・ソフトウェア(Hadoop、Spark、CassandraおよびKafka)で最も重要な名前は、すべてオープン・ソースです。

企業はビッグ・データにオープン・ソースをどのように使用していますか?

オープン・ソース・ソフトウェアは趣味家やアマチュア開発者の好みであるという評判がありますが、そのビジネス界は長期間にわたってミッションクリティカルな環境でオープン・ソースを採用しています。

企業がオープン・ソース・ソフトウェアを選択する理由には、次のようなものがあります。

  • 競争力のある機能および技術機能
  • ソリューションの品質
  • 問題をカスタマイズおよび修正する機能
  • 低い参入障壁

おそらく、オープン・ソースの最大の利点の1つは、大規模で献身的な開発者コミュニティです。最も人気のあるオープン・ソース・プロジェクトには、テクノロジにパッチを適用して改善する大規模な開発者ベースがあります。開発者は、競争力のある機能と革新的な機能のためにオープン・ソースに描かれており、従来のソフトウェアで何が作成できるかと比較して特に価値があります。

オープン・ソースは、自社開発や独自のソフトウェアを構築するためのITリソースがない企業にとって特に有益です。また、このようなリソースを持つ企業は、オープン・ソースを利用して、より関心のある最先端のテクノロジーを従業員に提供します。

企業はオープンソースをどのように見ていますか?

オープン・ソース・テクノロジには、大きなメリットがあります。しかし、課題がないわけではありません。2016年のNorth BridgeとBlack Duck Future of Open Source Studyによると、ほぼ33%の企業が既知のオープンソースの脆弱性を特定、追跡または修正するプロセスがなく、セキュリティ上の脅威にさらされる可能性があります。

オープン・ソースはビッグ・データ・コミュニティに非常に有利でした。すぐに使えるコードを備えたオープン・ソース・ソフトウェアにより、企業は製品をより迅速に市場に投入できます。しかし、それは常に一定のリスクを抱えています。2014年のOpenSSLのセキュリティ脆弱性は、その脆弱性の1つの例にすぎません。

多くの貢献者にとって利点があるにもかかわらず、オープン・ソース・ソフトウェアは、通常のプログラミング上のミスやセキュリティ・ブランダーを免れることはありません。ほとんどのソフトウェア・エンジニアは、オープン・ソースの使用を追跡しないため、多くの企業は、直面している可能性のあるセキュリティおよびコンプライアンスのリスクを認識しません。

オープン・ソースが完全に利用可能で効果的であるために、ほとんどの企業はそれをある程度統合してサポートする必要があります。これは、ある意味でオープン・ソースが完了しないため、実行するのよりも簡単です。何か新しい仕事がある。また、オープン・ソース製品は、多くの場合、操作が簡単ではありません。オープン・ソースの使用にはトレーニングが必要な場合があります。また、既存のアプリケーションやハードウェアとの互換性も懸念されます。ほとんどの企業は、別の会社を通じてオープン・ソースを採用することになります。

Oracle、Databricks、DataStaxなどの企業は、この方法でオープン・ソースと連携しています。これらの企業は、オープン・ソースを企業に持ち込み、完全に使用可能にしました。これらの会社はコミットやその他の様々な改善を通じてオープン・ソースに価値を付加するため、大きなメリットがあります。

2017年オープン・ソース・サミットで、Linux創設者であるLinus Torvalds氏は、企業開発者がオープン・ソース・プロジェクトに対する企業の影響と作業を理解し、それを歓迎しました。「オープンソース企業を持つことは非常に重要です」と、彼は言った。「それは、私が非常に幸せだった1つのことだ。」

Oracle Big Dataは、オープン・ソースをどのように使用していますか。

2017年、Oracleはオープン・ソース・ソフトウェアの開発と保守において、主要な役割を果たす上位35社の1社に選ばれました。2010年のSun Microsystemsの購入を通じて、Oracleは世界で最も人気のあるオープン・ソース・テクノロジの一部を継承しました。オラクルのオープン・ソースのビッグ・データ・テクノロジーのサポートは、過去数年間でオラクルにとって主要な成長促進要因の1つです。Oracleは、オープン・ソースの開発と基盤を引き続きサポートしています。

ビッグ・データに関しては、Oracleはオープン・ソース・ソフトウェアの操作に特に積極的に取り組んでいます。次の項では、Oracleがビッグ・データ・プラットフォームの様々な領域でオープン・ソースを使用する方法を説明します。Oracleでは、ビッグ・データを操作するには、次の3つの重要なステップが必要です。

  • ビッグ・データを統合し、システムに取り込みます。
  • ビッグ・データを管理し、保存場所を確保
  • 分析して、データを使用した機械学習に基づくプロアクティブなモデルを理解、視覚化、理解し、さらに構築

統合とビッグ・データ

ビッグ・データの顧客の多くは、特にオープン・ソース製品を求めています。Oracleは、オープン・ソースの開発、サポート、プロモーションに尽力しています。Oracle Data IntegrationやOracle GoldenGateなどのOracleデータ統合製品には、他の多くのプラットフォームとともにオープン・ソース・テクノロジが含まれています。

また、多くのお客様がオープン・ソースのフレームワークを最新化し、絶えず変化するサポート・テクノロジを求めていることも認識しています。データ統合側では、現在、約25の異なるオープン・ソース・テクノロジ、データ・ソース、ターゲットおよび実行フレームワークをサポートしています。サポートするテクノロジには、次のものがあります。

  • Apache Kafka
  • Apache Hive
  • Apache HBase
  • Hadoopクラウド・システム
  • Apache Cassandra

最近顧客が注目しているのは、ビッグ・データ製品の成熟度レベルです。考慮すべき最も重要な要素の1つは、ベンダーがビッグ・データ・フレームワークに関して許容可能なサポート戦略を持っているかどうかです。オープン・ソース・テクノロジへのコミットメントをベンダーが気にしないことが重要です。

ビッグ・データ・ビジネス・ソリューションは、製品の成熟度とともに、通常、オープン・ソースと非オープン・ソースの混在になります。企業はオープン・ソース・ソリューションでビッグ・データの問題を解決してきましたが、コミットメントや献身、専門知識が多数必要です。

意味のあるオープン・ソース・テクノロジを活用できるはずです。しかし、ほとんどの場合、他のさまざまなベンダー・テクノロジーと提携する必要があります。

たとえば、データ・レイクを確立する初期の頃、企業はKafkaのような製品を活用し、多くの情報を入手して多くの出力に配布したいと考えていました。しかし、Kafkaの信頼性と堅牢性を向上させるには、Oracle GoldenGateのようなテクノロジが必要でした。GoldenGateはオープン・ソースではありませんが、GoldenGateとKafkaは、Sqoopよりもはるかに堅牢で成熟した製品であるため、KafkaでSqoopのような製品を使用するよりも、データ・レイクの取り込みオプションが適しています。

ビッグデータ管理

データ管理の観点から見ると、Oracleのビッグ・データ製品スタックはオープン・ソースに大きく基づいています。

Oracleは、オープン・ソースのイノベーションを活用し、顧客が利用できる機能をより適切に制御するために、このアプローチを選択しました。ビッグ・データでは、継続的に進化する複数のコンポーネントがスタック内に存在します。そのため、オラクルは独自のオープン・ソースのHadoopディストリビューションを持つことを決定しました。

また、オープン・ソース・ソフトウェアを使用すると、Oracleは顧客によりよいサポートを提供できると確信しています。同時に、他のソフトウェア・エコシステムが進化する興味深いオープン・ソース・プロジェクトを開発していることもわかっています。そのため、Oracleは様々な開発コミュニティに引き続き貢献しています。たとえば、Oracleの開発作業は、オブジェクト・ストアをデータ・レイクとして使用するように進化しています。

Oracleはオープン・ソース・コミュニティに積極的に貢献し、パフォーマンスと機能の向上のためにオラクルのIPの一部をお客様に提供します。

Rプログラミング言語

Oracleでは、Rを採用しただけでなく、実際に改善しました。Oracleがサポートするオープン・ソースR(無料ダウンロード)の再配布は、データベースおよびHadoopでの実行と互換性があり、パラレル化により高速になりました。

Rは、単一のマシンではなく複数のノードおよびクラスタ上で実行できるため、顧客はサンプリングに依存することなく、より多くのデータセットでより大きく複雑なアルゴリズムを実行できます。Rに対するOracleの改善により、ユーザーはR構文を使用し、その下に様々な実装を提供して、拡張性とパフォーマンスを向上させることができます。

さらに、OracleによってRが次のように改善されました。

  • データベースおよびR構文で動作するアルゴリズムを作成
  • Rスクリプトを切り替えて実行可能にしました
  • ユーザーがRスクリプトを起動してSQLを活用するのが簡単

OracleはHadoop領域にも拡張し、Hive用のRインタフェースを導入しています。

OracleのR、Hadoop、オープン・ソースへの取り組みは、テクノロジーだけではありません。2015年にRコミュニティがR Consortiumを設立したとき、Oracleは創設メンバーでした。R Consortiumは、Rオープン・ソース・コミュニティにメリットとサポートを提供するために設立されました。Oracleは、Rの成長と開発を継続的にサポートし、Rパッケージ品質の導入のベスト・プラクティスを推奨しています。

ビッグデータ向けのSpatial and Graphデータベース

Oracle SpatialとOracleのグラフ分析サービスおよびデータ・モデルは、Apache HadoopおよびNoSQLデータベース・テクノロジでビッグ・データ・ワークロードをサポートします。どちらもオープン・ソース・ライブラリとコンポーネントを組み込んで、オラクルの製品を完成させます。Oracleでは、主にApacheベースのプロジェクトで、これらのコンポーネントのいくつかをインフラストラクチャ目的で使用しています。

Oracleは、相互に役立つ関係を表示します。たとえば、空間/グラフ側のアナリティクスはカスタム構築されていますが、このプロセスは、グラフ・データ分析用のドメイン固有の言語であるGreen-marlというオープン・ソース・プロジェクトをベースにしているため高速化されました。このため、顧客に対するアナリティクスの質問をより迅速に分析できます。

Oracleがオープン・ソースに貢献する場合、通常はオープン・ソースを活用し、カスタマイズして拡張します。オープン・ソースに対するOracleの貢献の例を次に示します。

  • Cytoscape: Oracleは、他のユーザーが空間データベースにデータをロードできるように、私たちが出荷するコンポーネント(GDALの拡張など)を開発します。
  • プロパティ・グラフ側: Oracleは、作業する製品またはプロジェクトを拡張し、バグとセキュリティの問題を特定し、適切な開発者にフィードバックを提供する機会を見つけます。最も貢献した機能はRDF W3Cです。
  • Oracleは、空間データのインポート、エクスポートおよびフォーマット変換のためにこれを組み込んでいます。Oracleは、Oracle SpatialおよびOracle Graphドライバを提供します。