Keine Ergebnisse gefunden

Ihre Suche ergab keine Treffer.

Beachten Sie die folgenden Tipps, um das Gesuchte zu finden:

  • Prüfen Sie die Schreibweise des Suchbegriffs.
  • Verwenden Sie Synonyme für das eingegebene Stichwort, z. B. “Anwendung” statt “Software.”
  • Testen Sie eine der unten gezeigten beliebten Suchen.
  • Beginnen Sie eine neue Suche.
Aktuelle Fragen

Data Science-Definition

Frau, die auf ihr Tablet schaut

Hier ist eine einfache Definition von Data Science:

Data Science kombiniert mehrere Bereiche, einschließlich Statistik, wissenschaftliche Methoden und Datenanalyse, um Wert aus Daten zu extrahieren.

Diejenigen, die im Bereich Data Science tätig sind, werden als Data Scientists bezeichnet. Sie kombinieren unterschiedliche Kompetenzen, um Daten zu analysieren, die aus dem Internet, von Smartphones, Kunden, Sensoren und anderen Quellen stammen.

Data Science: Eine ungenutzte Ressource für Machine Learning

Data Science ist heute eines der spannendsten Gebiete überhaupt. Doch warum ist sie so wichtig?

Weil Unternehmen auf einem Datenschatz sitzen. Da moderne Technologien die Erstellung und Speicherung von immer größeren Datenmengen ermöglichen, haben Datenvolumen sprunghaft zugenommen. Etwa 90 Prozent der Daten weltweit wurden in den letzten zwei Jahren erstellt. Facebook-Nutzer laden beispielsweise jede Stunde 10 Millionen Fotos hoch.

Diese Daten befinden sich jedoch häufig nur in Datenbanken und Data Lakes, die größtenteils unberührt bleiben.

Die Fülle der Daten, die von diesen Technologien erfasst und gespeichert werden, kann Unternehmen und Gesellschaften rund um den Globus transformative Vorteile einbringen – aber nur, wenn wir diese Daten auch interpretieren können. Hier kommt Data Science ins Spiel.

Data Science zeigt Trends auf und erzeugt Daten, mit denen Unternehmen bessere Entscheidungen treffen und innovativere Produkte und Services anbieten können. Am wichtigsten ist vielleicht, dass Machine-Learning-Modelle (ML) aus den riesigen Datenmengen, die eingespeist werden, lernen können, anstatt sich hauptsächlich auf Business Analysten zu verlassen und festzustellen, was diese aus den Daten ableiten können.

Daten sind das Fundament der Innovation, aber ihr Wert ergibt sich aus den Informationen, die Data Scientists aus ihnen gewinnen und auf die sie reagieren können.

Was ist der Unterschied zwischen Data Science, künstlicher Intelligenz und Machine Learning?

Was ist der Unterschied zwischen Data Science, künstlicher Intelligenz und Machine Learning?

Zum besseren Verständnis der Data Science – und wie man sie nutzen kann – ist es wichtig, andere Begriffe zu kennen, die sich auf das Gebiet beziehen, wie künstliche Intelligenz (KI) und Machine Learning. Diese Begriffe werden häufig synonym verwendet, unterscheiden sich aber in Nuancen.

Hier ist eine einfache Aufschlüsselung:

  • KI bedeutet, einen Computer dazu zu bewegen, menschliches Verhalten in gewisser Weise nachzuahmen.
  • Data Science ist ein Teilbereich der KI und bezieht sich eher auf die überlappenden Bereiche Statistik, wissenschaftliche Methoden und Datenanalyse. Diese Bereiche werden alle dazu verwendet, Bedeutung und Erkenntnisse aus Daten zu extrahieren.
  • Machine Learning ist ein weiterer Teilbereich der KI und besteht aus den Techniken, mit denen Computer Dinge aus Daten ableiten und KI-Anwendungen bereitstellen können.

Als Zugabe folgt noch eine weitere Definition:

  • Deep Learning ist ein Teilbereich von Machine Learning, der es Computern ermöglicht, komplexere Probleme zu lösen.

So verändert Data Science das Geschäft

Datenanalysen und die Zunahme von Daten

Unternehmen setzen Data Science ein, um Produkte und Services zu optimieren und so Daten als Wettbewerbsvorteile zu nutzen. Zu den Anwendungsfällen für Data Science und Machine Learning gehören:

  • Bestimmen der Kundenabwanderung, indem die von Call Centern gesammelten Daten analysiert werden, damit das Marketing Maßnahmen ergreifen kann, um die Kunden zu binden
  • Verbessern der Effizienz durch Analysieren der Verkehrsmuster, Wetterbedingungen und anderer Faktoren, damit Logistikunternehmen die Liefergeschwindigkeit verbessern und Kosten senken können
  • Verbessern von Patientendiagnosen durch Analysieren medizinischer Testdaten und gemeldeter Symptome, damit Ärzte Krankheiten früher diagnostizieren und effektiver behandeln können
  • Optimieren der Supply Chain durch Vorhersagen, wann Equipment ausfallen wird
  • Feststellen von Betrug bei Finanzdienstleistungen durch Erkennen verdächtiger Verhaltensweisen und ungewöhnlicher Handlungen
  • Verbessern des Umsatzes durch Empfehlungen für Kunden, die auf früheren Einkäufen basieren

Viele Unternehmen haben Data Science hohe Priorität eingeräumt und tätigen erhebliche Investitionen in diesem Bereich. In einer aktuellen Befragung von Gartner unter mehr als 3.000 CIOs wurden Analysen und Business Intelligence als die Technologien genannt, die die größten Wettbewerbsvorteile für ihre Unternehmen ermöglichen. Die befragten CIOs betrachten diese Technologien als die strategischsten für ihre Unternehmen und investieren entsprechend.

So wird Data Science genutzt

So wird Data Science genutzt

Das Verfahren, um Daten zu analysieren und auf die Ergebnisse zu reagieren, ist eher iterativ denn linear. Es lässt sich dennoch ein typischer Data Science-Ablauf für ein Datenmodellierungsprojekt aufzeigen:

Planung: Definieren Sie ein Projekt und die möglichen Ergebnisse.

Erstellen eines Datenmodells: Data Scientists verwenden häufig eine Vielzahl von Open-Source-Bibliotheken oder datenbankinternen Tools, um Machine Learning-Modelle zu erstellen. Häufig möchten Nutzer, dass APIs bei der Datenerfassung, Datenprofilerstellung und -visualisierung oder beim Feature Engineering helfen. Sie benötigen die richtigen Tools sowie Zugriff auf die richtigen Daten und andere Ressourcen, z. B. Rechenleistung.

Bewerten eines Modells: Data Scientists müssen einen hohen Prozentsatz an Genauigkeit für ihre Modelle erreichen, bevor sie sich sicher fühlen können, sie einzusetzen. Die Modellbewertung generiert normalerweise eine umfassende Reihe von Bewertungsmetriken und -visualisierungen, um die Modell-Performance anhand neuer Daten zu messen und diese im Laufe der Zeit zu bewerten, damit ein optimales Verhalten in der Produktion ermöglicht werden kann. Die Modellbewertung geht über die reine Performance hinaus, um das erwartete Basisverhalten zu berücksichtigen.

Erklären von Modellen: Es war nicht immer möglich, die internen Mechanismen der Ergebnisse von Machine-Learning-Modellen aus menschlicher Sicht erklären zu können, aber es wird immer wichtiger. Data Scientists wünschen sich automatisierte Erklärungen der relativen Gewichtung und Bedeutung von Faktoren, die bei der Erstellung einer Vorhersage einfließen, sowie modellspezifische erklärende Details zu Modellvorhersagen.

Bereitstellen eines Modells: Es ist oft schwierig und mühsam, ein trainiertes Machine-Learning-Modell in die richtigen Systeme zu integrieren. Dies kann durch die Operationalisierung von Modellen als skalierbare und sichere APIs oder durch die Verwendung von datenbankinternen Machine-Learning-Modellen erleichtert werden.

Modellüberwachung: Leider ist die Bereitstellung eines Modells noch nicht alles. Modelle müssen nach der Bereitstellung immer überwacht werden, um sicherzustellen, dass sie ordnungsgemäß funktionieren. Die Daten, mit denen das Modell trainiert wurde, sind nach einer bestimmten Zeit für zukünftige Vorhersagen möglicherweise nicht mehr relevant. Im Hinblick auf die Betrugserkennung finden Kriminelle z. B. immer wieder neue Möglichkeiten, um Konten zu hacken.

Tools für Data Science

Tools für Data Science

Das Erstellen, Bewerten, Bereitstellen und Überwachen von Machine-Learning-Modellen kann ein komplexer Prozess sein. Aus diesem Grund hat die Anzahl der Data Science-Tools zugenommen. Data Scientists verwenden die unterschiedlichsten Tools. Zu den häufigsten gehören Open-Source-Notebooks – Webanwendungen für das Schreiben und Ausführen von Code, das Visualisieren von Daten und Anzeigen der Ergebnisse in einer einzigen Umgebung.

Zu den beliebtesten Notebooks gehören Jupyter, RStudio und Zeppelin. Notebooks sind sehr nützlich, um Analysen durchzuführen. Sie stoßen allerdings an ihre Grenzen, wenn Data Scientists im Team zusammenarbeiten müssen. Um dieses Problem zu beheben, wurden Datenanalyse-Plattformen entwickelt.

Um festzustellen, welches Data Science-Tool für Sie geeignet ist, müssen Sie die folgenden Fragen stellen: Welche Sprachen verwenden Ihre Data Scientists? Welche Arbeitsmethoden bevorzugen sie? Welche Art von Datenquellen verwenden sie?

Einige Nutzer bevorzugen beispielsweise einen datenquellenunabhängigen Dienst, der Open-Source-Bibliotheken nutzt. Andere bevorzugen datenbankinterne Machine-Learning-Algorithmen aufgrund ihrer Geschwindigkeit.

Wer überwacht den Data Science-Prozess?

Wer überwacht den Data Science-Prozess?

In den meisten Unternehmen werden Data Science-Projekte in der Regel von drei Arten von Managern überwacht:

Business-Manager: Sie definieren zusammen mit dem Data Science-Team das Problem und entwickeln eine Strategie für die Analysen. Sie können Leiter eines Geschäftsbereichs wie Marketing, Finanzen oder Vertrieb sein und stehen einem Data Science-Team vor. Sie arbeiten eng mit den Data Science- und IT-Leitern zusammen, um sicherzustellen, dass Projekte wie geplant abgeschlossen werden.

IT-Leiter: IT-Leiter sind für die Infrastruktur und Architektur verantwortlich, die die Data Science-Abläufe unterstützen. Sie überwachen kontinuierlich den Betrieb und die Ressourcennutzung, um sicherzustellen, dass die Data Science-Teams effizient und sicher arbeiten. Sie können auch für das Erstellen und Aktualisieren von IT-Umgebungen für Data Science-Teams verantwortlich sein.

Data Science-Leiter: Sie überwachen das Datenanalyseteam und seine tägliche Arbeit. Sie stimmen die Teamentwicklung mit der Projektplanung und -überwachung ab.

Der wichtigste Akteur in diesem Prozess ist jedoch der Data Scientist.

Was ist ein Data Scientist?

Was ist ein Data Scientist?

Data Science ist ein ziemlich neues Fachgebiet. Sie entwickelte sich aus den Bereichen der statistischen Analyse und des Data Mining. Das Data Science Journal erschien erstmals im Jahr 2002, veröffentlicht vom Committee on Data for Science and Technology des Internationalen Wissenschaftsrats. 2008 hatte sich der Titel Data Scientist etabliert, das Fachgebiet entwickelte sich rasant weiter. Seitdem mangelt es an Data Scientists, obwohl immer mehr Hochschulen und Universitäten entsprechende Studiengänge anbieten.

Die Aufgaben eines Data Scientists umfassen z. B. die Entwicklung von Strategien für die Datenanalyse, die Vorbereitung von Daten für die Analyse, die Untersuchung, Analyse und visuelle Aufbereitung von Daten, der Aufbau von Modellen mit Daten unter Verwendung von Programmiersprachen wie Python und R oder die Implementierung von Modellen in Anwendungen.

Data Scientists arbeiten nicht allein. Tatsächlich werden die Aufgaben von Datenanalysten am effektivsten in Teamarbeit erledigt. Dieses Team kann neben dem Data Scientist beispielsweise folgende Rollen umfassen: einen Geschäftsanalysten, der das Problem definiert, einen Dateningenieur, der die Daten und den Zugriff auf sie vorbereitet, einen IT-Architekt, der für die zugrunde liegenden Prozesse und Infrastruktur verantwortlich ist, und einen Anwendungsentwickler, der die Modelle oder Ergebnisse der Analyse in Anwendungen und Produkte implementiert.

Herausforderungen bei der Implementierung von Data Science-Projekten

Herausforderungen bei der Implementierung von Data Science-Projekten

Trotz der Vorteile von Data Science und umfangreicher Investitionen in Data Science-Teams schöpfen viele Unternehmen nicht das volle Potenzial ihrer Daten aus. Bei ihren intensiven Bemühungen um qualifizierte Mitarbeiter und den Aufbau von Data Science-Programmen haben einige Unternehmen ineffiziente Arbeitsabläufe bemerkt, bei denen verschiedene Teammitglieder unterschiedliche Tools und Verfahren verwendeten, die nicht gut zusammen funktionierten. Ohne eine disziplinierte, zentrale Verwaltung können Führungskräfte ggf. nicht die bestmögliche Rendite erzielen.

Diese chaotische Umgebung hält viele Herausforderungen bereit.

Datenanalysten können nicht effizient arbeiten. Da der Zugriff auf Daten von einem IT-Administrator gewährt werden muss, warten Datenwissenschaftler oft lange auf die Daten und die Ressourcen, die sie für ihre Analyse benötigen. Sobald sie Zugriff haben, kann das Data Science-Team die Daten mit verschiedenen – und möglicherweise inkompatiblen – Tools analysieren. Ein Wissenschaftler kann beispielsweise ein Modell mit der Programmiersprache R entwickeln, aber die Anwendung, in der das Modell verwendet werden soll, ist in einer anderen Sprache programmiert. Aus diesem Grund kann es Wochen – oder sogar Monate – dauern, bis die Modelle in sinnvolle Anwendungen implementiert werden.

Anwendungsentwicklern fehlt der Zugang zu nutzbarem Machine Learning. Manchmal sind die Machine-Learning-Modelle, die Entwickler erhalten, nicht für die Implementierung in Anwendungen bereit. Da Zugriffspunkte unflexibel sein können, lassen sich Modelle nicht in allen Szenarien bereitstellen, und die Skalierbarkeit bleibt dem Anwendungsentwickler überlassen.

IT-Administratoren verbringen zu viel Zeit mit Support. Aufgrund der zunehmenden Verbreitung von Open-Source-Tools muss die IT-Abteilung immer mehr Tools unterstützen. So verwendet möglicherweise ein Data Scientist im Marketing andere Tools als ein Data Scientist im Finanzwesen. Auch die Arbeitsabläufe der einzelnen Teams können sich unterscheiden. Die IT-Abteilung muss Umgebungen daher regelmäßig neu erstellen und aktualisieren.

Business-Manager bleiben im Hinblick auf Data Science oft außen vor. Die Arbeitsabläufe der Datenanalysen sind nicht immer in die Verfahren zur geschäftlichen Entscheidungsfindung integriert. Dann wird es für Business-Manager schwierig, kompetent mit Datenanalysten zusammenzuarbeiten. Ohne eine bessere Integration lässt sich für Business-Manager nicht leicht nachvollziehen, warum zwischen der Prototyperstellung und der Produktion so viel Zeit verstreicht – und sie sind weniger gewillt, in Projekte zu investieren, die sie als zu langsam erachten.

Die Data Science-Plattform stellt neue Funktionen bereit

Die Data Science-Plattform stellt neue Funktionen bereit

Viele Unternehmen erkannten, dass Data Science-Projekte ohne eine integrierte Plattform ineffizient, unsicher und nur schwer skalierbar waren. Diese Erkenntnis führte zur Entwicklung von Data Science-Plattformen. Bei diesen Plattformen handelt es sich um Software-Hubs, die das Zentrum der Data Science-Projekte darstellen. Eine gute Plattform bewältigt viele der Herausforderungen bei der Implementierung von Data Science und hilft Unternehmen dabei, schneller und effizienter Erkenntnisse aus ihren Daten zu gewinnen.

Mit einer zentralen Machine-Learning-Plattform können Data Scientists in einer auf die Zusammenarbeit ausgelegten Umgebung mit ihren bevorzugten Open-Source-Tools arbeiten. Ihre Arbeit wird dabei durch ein Versionskontrollsystem synchronisiert.

Die Vorteile einer Data Science-Plattform

Die Vorteile einer Data Science-Plattform

Eine Data Science-Plattform verringert die Redundanz und fördert die Innovation, da sie Teams ermöglicht, Programmcode, Ergebnisse und Berichte gemeinsam zu nutzen. Durch die Vereinfachung der Verwaltung und die Einbeziehung von Best Practices werden Engpässe im Arbeitsfluss beseitigt.

Im Allgemeinen zielen die besten Data Science-Plattformen auf Folgendes ab:

  • Die Produktivität von Data Scientists zu steigern, indem sie ihnen helfen, Modelle schneller und mit weniger Fehlern behaftet zu beschleunigen und bereitzustellen
  • Data Scientists die Arbeit mit großen Datenmengen und vielfältigen Daten zu erleichtern
  • Vertrauenswürdige künstliche Intelligenz für Unternehmen bereitzustellen, die vorurteilsfrei, überprüfbar und reproduzierbar ist

Data Science-Plattformen wurden für die Zusammenarbeit einer Reihe von Nutzern entwickelt, darunter Data Science-Experten, Citizen Data Scientists, Dateningenieure und Machine-Learning-Ingenieure oder -Spezialisten. Mit einer Data Science-Plattform können Data Scientists beispielsweise Modelle als APIs bereitstellen, was die Integration in verschiedene Anwendungen vereinfacht. Datenanalysten können unabhängig vom IT-Team auf Tools, Daten und die Infrastruktur zugreifen.

Die Nachfrage nach Datenanalyse-Plattformen auf dem Markt ist explodiert. Tatsächlich dürfte das Wachstum des Plattform-Marktes in den nächsten Jahren bei einer durchschnittlichen jährlichen Rate von mehr als 39 Prozent liegen. Bis 2025 soll Prognosen zufolge ein Wert von 385 Mrd. US-Dollar erreicht werden.

Was ein Data Scientist bei einer Plattform benötigt

Was ein Data Scientist bei einer Plattform benötigt

Wenn Sie bereit sind, die Funktionen von Data Science-Plattformen zu erkunden, berücksichtigen Sie die folgenden zentralen Funktionen:

Wählen Sie eine projektbasierte Nutzeroberfläche, die die Zusammenarbeit fördert. Die Plattform sollte die Mitarbeiter in die Lage versetzen, zusammen an einem Modell zu arbeiten, von der Konzeption bis hin zur endgültigen Entwicklung. Jedes Teammitglied sollte Self-Service-Zugriff auf Daten und Ressourcen haben.

Priorisieren Sie Integration und Flexibilität. Stellen Sie sicher, dass die Plattform die aktuellen Open-Source-Tools, gängige Versionskontrollanbieter wie GitHub, GitLab und Bitbucket und eine enge Integration mit anderen Ressourcen unterstützt.

Fügen Sie unternehmensfähige Funktionen hinzu. Stellen Sie sicher, dass die Plattform zusammen mit Ihrem Unternehmen skaliert werden kann, wenn Ihr Team größer wird. Die Plattform sollte hochverfügbar sein, über robuste Zugriffskontrollen verfügen und eine große Anzahl gleichzeitiger Benutzer unterstützen.

Gestalten Sie Data Science mit Self-Service-Funktionalität. Entscheiden Sie sich für eine Plattform, die den Arbeitsaufwand von IT-Teams und Software-Ingenieuren verringert und es Data Scientists ermöglicht, sofort Umgebungen einzurichten, ihre Arbeit nachzuverfolgen und Modelle leicht in die Produktion zu implementieren.

Stellen Sie eine einfachere Modellbereitstellung sicher. Die Bereitstellung und Operationalisierung von Modellen ist einer der wichtigsten Schritte im Machine-Learning-Lebenszyklus, der allerdings häufig ignoriert wird. Stellen Sie sicher, dass der von Ihnen ausgewählte Dienst die Operationalisierung von Modellen erleichtert, unabhängig davon, ob APIs bereitgestellt werden oder ob Nutzer Modelle so erstellen, dass eine einfache Integration möglich ist.

Wenn eine Data Science-Plattform der richtige Schritt ist

Ihr Unternehmen könnte für eine Data Science-Plattform bereit sein, wenn Sie Folgendes bemerkt haben:

  • Produktivität und Zusammenarbeit zeigen Anzeichen von Anspannung.
  • Machine-Learning-Modelle können nicht geprüft oder reproduziert werden.
  • Modelle schaffen es nie in die Produktion.

Eine Data Science-Plattform kann Ihrem Unternehmen einen echten Mehrwert bieten. Die Data Science-Plattform von Oracle umfasst eine breite Palette von Diensten, die eine umfassende End-to-End-Erfahrung bieten, um die Modellbereitstellung zu beschleunigen und die Data Science-Ergebnisse zu verbessern.