Big Data Open Source

Es wäre schwierig, die Geschichte von Big Data zu schreiben, ohne Open Source einzubeziehen - die beiden sind miteinander verbunden. Die Entwicklung von Open-Source-Software war ein wichtiger Faktor bei der Entwicklung von Big Data. Open-Source-Technologie ist weiterhin ein wesentlicher Bestandteil des Big-Data-Ökosystems, da sie schnelle Innovationen ermöglicht. Tatsächlich sind die wichtigsten Namen in Big Data-Software - Hadoop, Spark, Cassandra und Kafka - Open Source.

Wie nutzen Unternehmen Open Source für Big Data?

Obwohl Open-Source-Software den Ruf hat, ein Favorit von Hobbyisten und Amateurentwicklern zu sein, hat diese Geschäftswelt schon länger Open-Source in geschäftskritischen Umgebungen eingesetzt.

Einige der Gründe, warum Unternehmen Open-Source-Software wählen, sind:

  • Wettbewerbsfähige Funktionen und technische Fähigkeiten
  • Qualität der Lösungen
  • Möglichkeit, Probleme anzupassen und zu beheben
  • Niedrige Einstiegskosten

Einer der größten Vorteile von Open Source ist seine große und engagierte Entwicklergemeinschaft. Die beliebtesten Open-Source-Projekte haben eine riesige Entwicklerbasis, die daran arbeitet, die Technologie zu patchen und zu verbessern. Entwickler profitieren von Open Source für ihre Wettbewerbsfunktionen und innovativen Funktionen, die im Vergleich zu herkömmlichen Softwarefunktionen besonders wertvoll sind.

Open Source ist besonders für Unternehmen von Vorteil, die nicht über die interne Entwicklung oder IT-Ressourcen verfügen, um ihre eigene Software zu entwickeln. Alternativ wenden sich Unternehmen, die über diese Ressourcen verfügen, an Open Source, um ihren Mitarbeitern die führende Technologie zu bieten, mit der sie mehr Interesse haben.

Wie sehen Unternehmen Open Source?

Open-Source-Technologie ist vielversprechend. Aber es ist nicht ohne Herausforderungen. Laut der North Bridge und Black Duck Future of Open Source Study von 2016 haben fast 33 Prozent der Unternehmen keinen Prozess zur Identifizierung, Verfolgung oder Beseitigung bekannter Open-Source-Sicherheitslücken, der sie Sicherheitsbedrohungen offen lassen könnte.

Open Source war für die Big Data Community sehr vorteilhaft. Mit dem einsatzbereiten Code konnten Unternehmen mit Open-Source-Software Produkte schneller auf den Markt bringen. Aber es hat immer ein gewisses Risiko getragen. Die OpenSSL Heartbleed-Sicherheitslücke im Jahr 2014 ist nur ein Beispiel für ihre Sicherheitslücken.

Trotz der Vorteile vieler Mitwirkender ist Open-Source-Software nicht immun gegen gewöhnliche Programmierfehler und Sicherheitslücken. Die meisten Software-Ingenieure verfolgen die Open-Source-Nutzung nicht, sodass viele Unternehmen sich nicht über die daraus resultierenden Sicherheits- und Compliance-Risiken im Klaren sind.

Damit Open Source vollständig nutzbar und effektiv ist, müssen die meisten Unternehmen integriert und in gewissem Maße unterstützt werden. Das ist einfacher gesagt als getan, denn Open Source ist in gewisser Weise nie vollständig. Es gibt immer etwas Neues, an dem man arbeiten kann. Darüber hinaus sind Open-Source-Produkte oft nicht ganz einfach zu bedienen. Die Verwendung von Open Source erfordert eventuell eine Schulung. Die Kompatibilität mit vorhandenen Anwendungen und Hardware ist ein weiteres Problem. Die meisten Unternehmen setzen Open Source über ein anderes Unternehmen ein.

Unternehmen wie Oracle, Databricks und DataStax arbeiten auf diese Weise mit Open Source. Diese Unternehmen haben Open Source ins Unternehmen gebracht und es vollständig nutzbar gemacht. Dies ist enorm wichtig, weil diese Unternehmen durch Zusagen und verschiedene andere Verbesserungen einen Mehrwert für Open Source schaffen.

Auf dem Open Source Summit 2017 hat Linux-Gründer Linus Torvalds den Einfluss des Unternehmens und die Arbeit an Open-Source-Projekten von Unternehmensentwicklern bestätigt und begrüßt. "Es ist sehr wichtig, Unternehmen in Open Source zu haben", sagte er. "Es ist eine Sache, über die ich sehr glücklich war."

Wie verwendet Oracle Big Data Open Source?

2017 wurde Oracle zu einem der Top 35 Unternehmen ernannt, die eine wichtige Rolle bei der Entwicklung und Pflege von Open-Source-Software spielen. Durch den Kauf von Sun Microsystems im Jahr 2010 hat Oracle einige der weltweit beliebtesten Open-Source-Technologien geerbt. Unsere Unterstützung für Open-Source-Big-Data-Technologien war in den letzten Jahren einer der führenden Wachstumstreiber für uns. Oracle unterstützt weiterhin die Open-Source-Entwicklung und -Grundlagen.

Bei Big Data war Oracle besonders proaktiv bei der Arbeit mit Open-Source-Software. Im nächsten Abschnitt wird beschrieben, wie Oracle Open Source in verschiedenen Bereichen unserer Big Data-Plattform verwendet. Bei Oracle umfasst die Arbeit mit Big Data drei wichtige Schritte:

  • Big Data integrieren und in Ihr System integrieren
  • Big Data verwalten und speichern
  • Analyse, um proaktive Modelle basierend auf maschinellem Lernen mit Ihren Daten zu verstehen, zu visualisieren, zu verstehen und zu erstellen

Integration und Big Data

Viele unserer Big-Data-Kunden fordern speziell Open-Source-Angebote. Oracle engagiert sich für die Entwicklung, Unterstützung und Förderung von Open Source. Oracle-Datenintegrationsprodukte wie Oracle Data Integration und Oracle GoldenGate umfassen Open-Source-Technologie sowie viele andere Plattformen.

Wir stellen auch fest, dass viele Kunden ihre Open-Source-Frameworks und die sich ständig ändernden unterstützenden Technologien modernisieren möchten. Auf der Seite der Datenintegration unterstützen wir derzeit etwa fünfundzwanzig verschiedene Open-Source-Technologien, Datenquellen, -Ziele und Ausführungs-Frameworks. Einige der von uns unterstützten Technologien sind:

  • Apache Kafka
  • Apache Hive
  • Apache HBase
  • Hadoop-Cloud-System
  • Apache Cassandra

Was Kunden heutzutage betrachten, ist der Reifegrad ihrer Big Data-Produkte. Einer der wichtigsten Faktoren ist, ob der Anbieter eine akzeptable Supportstrategie für die Big Data Frameworks hat. Es ist wichtig, dass der Anbieter nicht wegen des Engagements für Open-Source-Technologie gelegentlich ist.

Neben der Produktreife wird eine Big Data-Geschäftslösung in der Regel eine Mischung aus Open Source und Nicht-Open Source sein. Unternehmen lösen Big-Data-Probleme mit Open-Source-Lösungen, benötigen aber viel Engagement, Engagement und Fachwissen.

Sie können und sollten Open-Source-Technologie nutzen, wo es sinnvoll ist. Aber meistens müssen Sie auch mit einer Vielzahl anderer Anbietertechnologien zusammenarbeiten.

Beispielsweise wollten Unternehmen in den Anfängen der Einrichtung von Data Lakes ein Produkt wie Kafka nutzen und dabei viele Inputs erhalten und an viele Outputs verteilen. Damit Kafka jedoch zuverlässiger und robuster wird, war eine Technologie wie Oracle GoldenGate erforderlich. Während GoldenGate kein Open Source ist, bieten GoldenGate und Kafka zusammen eine bessere Aufnahmeoption für einen Data Lake als die Verwendung eines Produkts wie Sqoop mit Kafka, da GoldenGate ein viel robusteres und ausgereifteres Produkt ist als Sqoop.

Big Data-Management

Aus Sicht des Datenmanagements basiert der Big Data-Produktstack von Oracle stark auf Open Source.

Oracle hat sich für diesen Ansatz entschieden, um von Open-Source-Innovationen zu profitieren und eine bessere Kontrolle über die für Kunden verfügbaren Funktionen zu erhalten. Mit Big Data gibt es mehrere Komponenten im Stack, die sich kontinuierlich weiterentwickeln. Deshalb haben wir uns für eine eigene Open-Source-Hadoop-Distribution entschieden.

Wir sind auch der Meinung, dass die Verwendung von Open-Source-Software es Oracle ermöglicht, unseren Kunden einen besseren Support zu bieten. Gleichzeitig wissen wir, dass andere Software-Ökosysteme interessante Open-Source-Projekte entwickeln, die sich entwickeln. Aus diesem Grund trägt Oracle weiterhin zu vielen verschiedenen Entwicklungscommunitys bei. Beispiel: Die Entwicklungsbemühungen von Oracle entwickeln sich weiter, um den Objektspeicher als Data Lake zu verwenden.

Oracle trägt aktiv zu Open-Source-Communitys bei und bietet Kunden einige unserer eigenen IP-Adressen für bessere Performance und Funktionen.

R-Programmiersprache

Bei Oracle haben wir nicht nur R eingeführt, sondern auch R verbessert. Die von Oracle unterstützte Neuverteilung von Open Source R (bei einem kostenlosen Download) ist mit der Ausführung in Datenbank und Hadoop kompatibel. Sie ist jetzt schneller, da wir sie parallelisiert haben.

R kann auf mehreren Knoten und auf einem Cluster statt auf einem einzigen Rechner ausgeführt werden, sodass Kunden größere, komplexere Algorithmen auf mehr Datasets ausführen können, ohne auf Sampling angewiesen zu sein. Mit den Verbesserungen von Oracle für R können Benutzer die R-Syntax verwenden und verschiedene Implementierungen darunter bereitstellen, die sie skalierbar und leistungsfähig machen.

Darüber hinaus hat Oracle die folgenden Verbesserungen an R vorgenommen:

  • Algorithmen für den Betrieb in Datenbank- und R-Syntax erstellt
  • Took R-Skript und machte es ausführbar
  • Es wurde für Benutzer einfacher, R-Skripte zu starten und SQL zu nutzen

Oracle hat sich ebenfalls in den Hadoop-Bereich erweitert und stellt die R-Schnittstelle für Hive vor.

Das Engagement von Oracle für R, Hadoop und Open Source ist nicht nur die Technologie. Als die R-Community 2015 das R-Konsortium gründete, war Oracle Gründungsmitglied. Das R Consortium wurde gegründet, um der R Open Source Community Vorteile und Unterstützung zu bieten. Oracle unterstützt weiterhin Wachstum und Entwicklung von R und hat die Einführung von Best Practices für die Qualität von R-Paketen gefördert.

Räumliche und grafische Datenbank für Big Data

Oracle Spatial und Oracle Graph Analytic Services und Datenmodelle unterstützen Big Data Workloads auf Apache Hadoop- und NoSQL-Datenbanktechnologien. Sowohl Open-Source-Bibliotheken als auch -Komponenten zur Abrundung unserer Angebote verwenden. Oracle hat mehrere dieser Komponenten für Infrastrukturzwecke verwendet, hauptsächlich für Apache-basierte Projekte.

Oracle betrachtet die Beziehung als gegenseitig vorteilhaft. Beispiel: Unsere Analysen auf der räumlichen/grafischen Seite sind benutzerdefiniert, aber wir haben diesen Prozess beschleunigt, weil wir ihn auf einem Open-Source-Projekt namens Green-Marl basieren, das eine domänenspezifische Sprache für die Diagrammdatenanalyse ist, mit der wir Fragen für Analysen für Kunden schneller bearbeiten können.

Wenn Oracle zu Open Source beiträgt, nutzen wir normalerweise Open Source, passen diese an und verbessern sie. Im Folgenden finden Sie Beispiele für die Beiträge von Oracle zu Open Source:

  • Cytoscape: Oracle entwickelt Komponenten, die wir versenden (wie eine Erweiterung für GDAL), damit andere Daten in ihre räumlichen Datenbanken laden können.
  • Eigenschaftsdiagrammseite: Oracle hat die Möglichkeit, die von uns bearbeiteten Produkte oder Projekte zu erweitern, Fehler und Sicherheitsprobleme zu identifizieren und den entsprechenden Entwicklern Feedback zu geben. Die Funktion, die wir am meisten unterstützt haben, ist RDF W3C.
  • Oracle hat dies für die Import-, Export- und Formatkonvertierung räumlicher Daten integriert. Oracle stellt den Treiber Oracle Spatial und Oracle Graph bereit.