Keine Ergebnisse gefunden

Ihre Suche ergab keine Treffer.

Beachten Sie die folgenden Tipps, um das Gesuchte zu finden:

  • Prüfen Sie die Schreibweise des Suchbegriffs.
  • Verwenden Sie Synonyme für das eingegebene Stichwort, z. B. „Anwendung“ statt „Software“.
  • Beginnen Sie eine neue Suche.
Kontaktieren Sie uns Bei Oracle Cloud anmelden

Was ist Data Science?

Data Science definiert

Data Science kombiniert mehrere Felder, darunter Statistiken, wissenschaftliche Methoden, künstliche Intelligenz (KI) und Datenanalyse, um einen Mehrwert aus Daten zu gewinnen. Diejenigen, die Data Science praktizieren, werden Data Scientists genannt und kombinieren eine Reihe von Fähigkeiten, um Daten zu analysieren, die aus dem Internet, von Smartphones, Kunden, Sensoren und aus anderen Quellen stammen, um verwertbare Erkenntnisse zu gewinnen.

Data Science umfasst die Vorbereitung von Daten für die Analyse, einschließlich Bereinigung, Aggregation und Bearbeitung der Daten für die Ausführung erweiterter Datenanalysen. Analytische Anwendungen und Data Scientists können dann die Ergebnisse überprüfen, um Muster aufzudecken und Führungskräften das Gewinnen fundierter Erkenntnisse zu ermöglichen.

Data Science: Eine ungenutzte Ressource für maschinelles Lernen

Data Science ist heute eines der spannendsten Gebiete überhaupt. Doch warum ist sie so wichtig?

Weil Unternehmen auf einem Datenschatz sitzen. Da moderne Technologien die Erstellung und Speicherung von immer größeren Datenmengen ermöglichen, haben Datenvolumen sprunghaft zugenommen. Schätzungsweise wurden 90 Prozent der Daten weltweit in den letzten zwei Jahren erstellt. Facebook-Benutzer laden beispielsweise jede Stunde 10 Millionen Fotos hoch.

Diese Daten befinden sich jedoch häufig nur in Datenbanken und Data Lakes, die größtenteils unberührt bleiben.

Die Fülle der Daten, die von diesen Technologien erfasst und gespeichert werden, kann Unternehmen und Gesellschaften auf der ganzen Welt transformative Vorteile bieten – aber nur, wenn wir diese Daten auch interpretieren können. Hier kommt Data Science ins Spiel.

Data Science zeigt Entwicklungen auf und erzeugt Daten, mit denen Unternehmen bessere Entscheidungen treffen und innovativere Produkte und Services anbieten können. Am wichtigsten ist vielleicht, dass Machine Learning-Modelle (ML) aus den riesigen Datenmengen, die eingespeist werden, lernen können, anstatt sich hauptsächlich auf Business-Analysten zu verlassen, um festzustellen, was diese aus den Daten ableiten können.

Daten sind das Fundament der Innovation, aber ihr MEhrwert ergibt sich aus den Informationen, die Data Scientists aus ihnen gewinnen und auf die sie reagieren können.

Was ist der Unterschied zwischen Data Science, künstlicher Intelligenz und maschinellem Lernen?

Um die Data Science besser zu verstehen – und wie man sie nutzen kann – ist es wichtig, andere Begriffe zu kennen, die mit dem Gebiet verwandt sind, wie künstliche Intelligenz (KI) und maschinelles Lernen. Diese Begriffe werden häufig synonym verwendet, unterscheiden sich aber in Nuancen.

Hier ist eine einfache Aufschlüsselung:

  • KI bedeutet, einen Computer dazu zu bewegen, menschliches Verhalten in gewisser Weise nachzuahmen.
  • Data Science ist ein Teilbereich der KI und bezieht sich mehr auf die überlappenden Bereiche Statistik, wissenschaftliche Methoden und Datenanalyse, die alle zum Extrahieren von Bedeutung und Erkenntnissen aus Daten verwendet werden.
  • Maschinelles Lernen ist ein weiterer Teilbereich der KI und besteht aus den Techniken, mit denen Computer Dinge aus Daten ableiten und KI-Anwendungen bereitstellen können.
    Als Zugabe folgt noch eine weitere Definition.
  • Deep Learning ist ein Teilbereich von maschinellem Lernen, mit dem Computer komplexere Probleme lösen können.

So verändert Data Science das Geschäft

Unternehmen setzen Data Science ein, um Produkte und Services zu optimieren und so Daten als Wettbewerbsvorteile zu nutzen. Zu den Anwendungsfällen für Data Science und maschinelles Lernen gehören:

  • Bestimmen der Kundenabwanderung, indem die von Call Centern gesammelten Daten analysiert werden, damit das Marketing Maßnahmen ergreifen kann, um die Kunden zu binden
  • Verbessern der Effizienz durch Analysieren der Verkehrsmuster, Wetterbedingungen und anderer Faktoren, damit Logistikunternehmen die Liefergeschwindigkeit verbessern und Kosten senken können
  • Verbessern von Patientendiagnosen durch Analysieren medizinischer Testdaten und gemeldeter Symptome, damit Ärzte Krankheiten früher diagnostizieren und effektiver behandeln können
  • Optimieren der Supply Chain durch Vorhersagen, wann Equipment ausfallen wird
  • Feststellen von Betrug bei Finanzdienstleistungen durch Erkennen verdächtiger Verhaltensweisen und ungewöhnlicher Handlungen
  • Verbessern des Umsatzes durch Empfehlungen für Kunden, die auf früheren Einkäufen basieren

Viele Unternehmen haben Data Science hohe Priorität eingeräumt und tätigen erhebliche Investitionen in diesem Bereich. In einer aktuellen Befragung von Gartner unter mehr als 3.000 CIOs wurden Analysen und Business Intelligence als die Technologien genannt, die die größten Wettbewerbsvorteile für ihre Unternehmen ermöglichen. Die befragten CIOs sehen diese Technologien als die strategisch wichtigsten für ihre Unternehmen an und investieren entsprechend.

So wird Data Science genutzt

Das Verfahren, um Daten zu analysieren und auf die Ergebnisse zu reagieren, ist eher iterativ denn linear. Es lässt sich dennoch ein typischer Data Science-Ablauf für ein Datenmodellierungsprojekt aufzeigen:

Planung: Definieren Sie ein Projekt und die möglichen Ergebnisse.

Datenmodell erstellen: Data Scientists verwenden häufig eine Vielzahl von Open-Source-Bibliotheken oder datenbankinternen Tools, um Modelle für maschinelles Lernen zu erstellen. Häufig möchten Nutzer, dass APIs bei der Datenerfassung, Datenprofilerstellung und -visualisierung oder beim Feature Engineering helfen. Sie benötigen die richtigen Tools sowie Zugriff auf die richtigen Daten und andere Ressourcen, z. B. Rechenleistung.

Modell auswerten: Data Scientists müssen für ihre Modelle einen hohen Prozentsatz an Genauigkeit erreichen, bevor sie sich sicher mit dem Deployment befassen können. Die Modellbewertung generiert normalerweise eine umfassende Reihe von Bewertungsmetriken und -visualisierungen, um die Modell-Performance anhand neuer Daten zu messen und diese im Laufe der Zeit zu bewerten, damit ein optimales Verhalten in der Produktion ermöglicht werden kann. Die Modellbewertung geht über die reine Performance hinaus, um das erwartete Basisverhalten zu berücksichtigen.

Erläuterungen zu Modellen: Es war nicht immer möglich gewesen, die internen Mechanismen der Ergebnisse von ML-Modellen auf menschliche Weise zu erklären, aber es wird immer wichtiger. Data Scientists wünschen sich automatisierte Erklärungen der relativen Gewichtung und Bedeutung von Faktoren, die bei der Erstellung einer Vorhersage einfließen, sowie modellspezifische erklärende Details zu Modellvorhersagen.

Modell bereitstellen: Das Entwickeln eines trainierten Modells für maschinelles Lernen und das Einbringen in die richtigen Systeme ist häufig ein schwieriger und aufwendiger Prozess. Dies kann durch die Operationalisierung von Modellen als skalierbare und sichere APIs oder durch die Verwendung von datenbankinternen Machine-Learning-Modellen erleichtert werden.

Modelle überwachen: Mit dem Deployment eines Modells ist es noch nicht getan. Modelle müssen nach der Bereitstellung immer überwacht werden, um sicherzustellen, dass sie ordnungsgemäß funktionieren. Die Daten, mit denen das Modell trainiert wurde, sind nach einer bestimmten Zeit für zukünftige Vorhersagen möglicherweise nicht mehr relevant. Im Hinblick auf die Betrugserkennung finden Kriminelle z. B. immer wieder neue Möglichkeiten, um Konten zu hacken.

Tools für Data Science

Das Erstellen, Bewerten, Bereitstellen und Überwachen von Machine-Learning-Modellen kann ein komplexer Prozess sein. Aus diesem Grund hat die Anzahl der Data Science-Tools zugenommen. Datenanalysten verwenden die unterschiedlichsten Tools. Zu den häufigsten gehören Open-Source-Notebooks – Webanwendungen für das Schreiben und Ausführen von Code, das Visualisieren von Daten und Anzeigen der Ergebnisse in einer einzigen Umgebung.

Zu den beliebtesten Notebooks gehören Jupyter, RStudio und Zeppelin. Notebooks sind sehr nützlich, um Analysen durchzuführen. Sie stoßen allerdings an ihre Grenzen, wenn Data Scientists im Team zusammenarbeiten müssen. Um dieses Problem zu beheben, wurden Data Science-Plattformen entwickelt.

Um zu bestimmen, welches Data-Science-Tool zu Ihnen passt, müssen Sie die folgenden Fragen stellen: Welche Sprachen verwenden Ihre Data Scientists? Welche Arbeitsmethoden bevorzugen sie? Welche Art von Datenquellen verwenden sie?

Einige Nutzer bevorzugen beispielsweise einen datenquellenunabhängigen Dienst, der Open-Source-Bibliotheken nutzt. Andere bevorzugen datenbankinterne Machine-Learning-Algorithmen aufgrund ihrer Geschwindigkeit.


Wer überwacht den Data Science-Prozess?

In den meisten Unternehmen werden Data Science-Projekte in der Regel von drei Arten von Managern überwacht:

Business-Manager: Diese Manager definieren zusammen mit dem Data Science-Team das Problem und entwickeln eine Strategie für die Analysen. Sie können Leiter eines Geschäftsbereichs wie Marketing, Finanzen oder Vertrieb sein und stehen einem Data Science-Team vor. Sie arbeiten eng mit den Data Science- und IT-Leitern zusammen, um sicherzustellen, dass Projekte wie geplant abgeschlossen werden.

IT-Manager: Leitende IT-Manager sind für die Infrastruktur und Architektur verantwortlich, die Data Science-Vorgänge unterstützen. Sie überwachen kontinuierlich den Betrieb und die Ressourcennutzung, um sicherzustellen, dass die Data Science-Teams effizient und sicher arbeiten. Sie können auch für das Erstellen und Aktualisieren von IT-Umgebungen für Data Science-Teams verantwortlich sein.

Data Science-Manager: Diese Manager überwachen das Data Science-Team und seine tägliche Arbeit. Sie stimmen die Teamentwicklung mit der Projektplanung und -überwachung ab.

Der wichtigste Akteur in diesem Prozess ist jedoch der Data Scientist.

Was ist ein Data Scientist?

Data Science ist ein ziemlich neues Fachgebiet. Es entwickelte sich aus den Bereichen der statistischen Analyse und des Data Mining. The Data Science Journal erschien erstmals im Jahr 2002, veröffentlicht vom Internationalen Wissenschaftsrat: Ausschuss für Daten für Wissenschaft und Technologie. 2008 hatte sich der Titel Data Scientist etabliert, das Fachgebiet entwickelte sich rasant weiter. Seitdem mangelt es an Datenanalysten, obwohl immer mehr Hochschulen und Universitäten entsprechende Studiengänge anbieten.

Die Aufgaben eines Data Scientists umfassen z. B. die Entwicklung von Strategien für die Datenanalyse, die Vorbereitung von Daten für die Analyse, die Untersuchung, Analyse und visuelle Aufbereitung von Daten, der Aufbau von Modellen mit Daten unter Verwendung von Programmiersprachen wie Python und R oder die Implementierung von Modellen in Anwendungen.

Datenanalysten arbeiten nicht allein. Tatsächlich werden die Aufgaben von Datenanalysten am effektivsten in Teamarbeit erledigt. Dieses Team kann neben dem Datenanalysten beispielsweise folgende Rollen umfassen: einen Geschäftsanalysten, der das Problem definiert, einen Dateningenieur, der die Daten und den Zugriff auf sie vorbereitet, einen IT-Architekt, der für die zugrunde liegenden Prozesse und Infrastruktur verantwortlich ist, und einen Anwendungsentwickler, der die Modelle oder Ergebnisse der Analyse in Anwendungen und Produkte implementiert.

Herausforderungen bei der Implementierung von Data Science-Projekten

Trotz der Vorteile von Data Science und umfangreicher Investitionen in Datenanalyseteams schöpfen viele Unternehmen nicht das volle Potenzial ihrer Daten aus. Bei ihren intensiven Bemühungen um qualifizierte Mitarbeiter und den Aufbau von Datenanalyseprogrammen haben einige Unternehmen ineffiziente Arbeitsabläufe bemerkt, bei denen verschiedene Teammitglieder unterschiedliche Tools und Verfahren verwendeten, die nicht gut zusammen funktionierten. Ohne eine disziplinierte, zentrale Verwaltung können Führungskräfte ggf. nicht die bestmögliche Rendite erzielen.

Diese chaotische Umgebung hält viele Herausforderungen bereit.

Data Scientists können nicht effizient arbeiten. Da der Zugriff auf Daten von einem IT-Administrator gewährt werden muss, warten Data Scientists oft lange auf die Daten und die Ressourcen, die sie für ihre Analyse benötigen. Sobald sie Zugriff haben, kann das Datenwissenschaftsteam die Daten mit verschiedenen – und möglicherweise inkompatiblen – Tools analysieren. Ein Wissenschaftler kann beispielsweise ein Modell mit der Programmiersprache R entwickeln, aber die Anwendung, in der das Modell verwendet werden soll, ist in einer anderen Sprache programmiert. Aus diesem Grund kann es Wochen oder sogar Monate dauern, bis die Modelle in sinnvolle Anwendungen implementiert werden.

Anwendungsentwickler fehlt der Zugang zu nutzbarem maschinellem Lernen. Manchmal sind die Machine-Learning-Modelle, die Entwickler erhalten, nicht für die Implementierung in Anwendungen bereit. Da Zugriffspunkte unflexibel sein können, lassen sich Modelle nicht in allen Szenarien bereitstellen, und die Skalierbarkeit bleibt dem Anwendungsentwickler überlassen.

IT-Administratoren verbringen zu viel Zeit mit Support. Aufgrund der zunehmenden Verbreitung von Open-Source-Tools muss die IT-Abteilung immer mehr Tools unterstützen. So verwendet möglicherweise ein Datenanalyst im Marketing andere Tools als ein Datenanalyst in der Finanzabteilung. Auch die Arbeitsabläufe der einzelnen Teams können sich unterscheiden. Die IT-Abteilung muss Umgebungen daher regelmäßig neu erstellen und aktualisieren.

Business-Manager bleiben bei der Datenanalyse oft außen vor. Die Arbeitsabläufe der Data Scientists sind nicht immer in die Verfahren zur geschäftlichen Entscheidungsfindung integriert. Dann wird es für Business-Manager schwierig, kompetent mit Data Scientists zusammenzuarbeiten. Ohne eine bessere Integration lässt sich für Business-Manager nicht leicht nachvollziehen, warum zwischen der Prototyperstellung und der Produktion so viel Zeit verstreicht – und sie sind weniger gewillt, in Projekte zu investieren, die sie als zu langsam erachten.

Die Data Science-Plattform stellt neue Funktionen bereit

Viele Unternehmen erkannten, dass Data Science-Projekte ohne eine integrierte Plattform ineffizient, unsicher und nur schwer skalierbar waren. Diese Erkenntnis führte zur Entwicklung von Data Science-Plattformen. Bei diesen Plattformen handelt es sich um Software-Hubs, die das Zentrum der Datenanalysen darstellen. Eine gute Plattform bewältigt viele der Herausforderungen bei der Implementierung von Data Science und hilft Unternehmen dabei, schneller und effizienter Erkenntnisse aus ihren Daten zu gewinnen.

Mit einer zentralen Machine-Learning-Plattform können Data Scientists in einer auf die Zusammenarbeit ausgelegten Umgebung mit ihren bevorzugten Open-Source-Tools arbeiten. Ihre Arbeit wird dabei durch ein Versionskontrollsystem synchronisiert.

Die Vorteile einer Data Science-Plattform

Eine Data Science-Plattform verringert die Redundanz und fördert die Innovation, da sie Teams ermöglicht, Programmcode, Ergebnisse und Berichte gemeinsam zu nutzen. Durch die Vereinfachung der Verwaltung und die Einbeziehung von Best Practices werden Engpässe im Arbeitsfluss beseitigt.

Im Allgemeinen zielen die besten Data Science-Plattformen auf Folgendes ab:

  • Die Produktivität von Data Scientists zu steigern, indem sie ihnen helfen, Modelle schneller und mit weniger Fehlern behaftet zu beschleunigen und bereitzustellen
  • Data Scientists die Arbeit mit großen Datenmengen und vielfältigen Daten zu erleichtern
  • Vertrauenswürdige künstliche Intelligenz für Unternehmen bereitzustellen, die vorurteilsfrei, überprüfbar und reproduzierbar ist

Data Science-Plattformen wurden für die Zusammenarbeit einer Reihe von Nutzern entwickelt, darunter Data Science-Experten, Citizen Data Scientists, Dateningenieure und Machine-Learning-Ingenieure oder -Spezialisten. Mit einer Data Science-Plattform können Datenanalysten beispielsweise Modelle als APIs bereitstellen, was die Integration in verschiedene Anwendungen vereinfacht. Data Scientists können unabhängig vom IT-Team auf Tools, Daten und die Infrastruktur zugreifen.

Die Nachfrage nach Data Science-Plattformen auf dem Markt ist explodiert. Tatsächlich dürfte das Wachstum des Plattform-Marktes in den nächsten Jahren bei einer durchschnittlichen jährlichen Rate von mehr als 39 Prozent liegen. Bis 2025 soll Prognosen zufolge ein Wert von 385 Mrd. US-Dollar erreicht werden.

Was ein Data Scientist bei einer Plattform benötigt

Wenn Sie bereit sind, die Funktionen von Data Science-Plattform zu erkunden, berücksichtigen Sie die folgenden zentralen Funktionen:

Wählen Sie eine projektbasierte Nutzeroberfläche, die die Zusammenarbeit fördert. Die Plattform sollte die Mitarbeiter in die Lage versetzen, zusammen an einem Modell zu arbeiten, von der Konzeption bis hin zur endgültigen Entwicklung. Jedes Teammitglied sollte Selfservice-Zugriff auf Daten und Ressourcen haben.

Priorisieren Sie Integration und Flexibilität. Stellen Sie sicher, dass die Plattform die aktuellen Open-Source-Tools, gängige Versionskontrollanbieter wie GitHub, GitLab und Bitbucket und eine enge Integration mit anderen Ressourcen unterstützt.

Fügen Sie unternehmensfähige Funktionen hinzu. Stellen Sie sicher, dass die Plattform zusammen mit Ihrem Unternehmen skaliert werden kann, wenn Ihr Team größer wird. Die Plattform sollte hochverfügbar sein, über robuste Zugriffskontrollen verfügen und eine große Anzahl gleichzeitiger Benutzer unterstützen.

Gestalten Sie Data Science mit Selfservice-Funktionalität. Entscheiden Sie sich für eine Plattform, die den Arbeitsaufwand von IT-Teams und Software-Ingenieuren verringert und es Data Scientists ermöglicht, sofort Umgebungen einzurichten, ihre Arbeit nachzuverfolgen und Modelle leicht in die Produktion zu implementieren.

Stellen Sie eine einfachere Modellbereitstellung sicher. Die Bereitstellung und Operationalisierung von Modellen ist einer der wichtigsten Schritte im Machine-Learning-Lebenszyklus, der allerdings häufig ignoriert wird. Stellen Sie sicher, dass der von Ihnen ausgewählte Dienst die Operationalisierung von Modellen erleichtert, unabhängig davon, ob APIs bereitgestellt werden oder ob Nutzer Modelle so erstellen, dass eine einfache Integration möglich ist.

Wenn eine Data Science-Plattform der richtige Schritt ist

Ihr Unternehmen könnte für eine Data Science-Plattform bereit sein, wenn Sie Folgendes bemerkt haben:

  • Produktivität und Zusammenarbeit zeigen Anzeichen von Anspannung.
  • Machine-Learning-Modelle können nicht geprüft oder reproduziert werden.
  • Modelle schaffen es nie in die Produktion

Eine Data Science-Plattform kann Ihrem Unternehmen einen echten Mehrwert bieten. Die Data Science-Plattform von Oracle umfasst eine Vielzahl von Services, die eine umfassende End-to-End-Erfahrung bieten, um die Modellbereitstellung zu beschleunigen und die Data Science-Ergebnisse zu verbessern.