Data Science ist keine Rocket Science – ein einfacher Überblick

Data Science gilt derzeit als eine der Schlüsseltechnologien für die Wettbewerbsfähigkeit von Unternehmen. Experten sehen Daten als das “Öl des 21. Jahrhunderts”. Tech-Giganten wie Google, Amazon & Co. gehören nicht nur zu den zehn wertvollsten Unternehmen der Welt, sondern nutzen auch enorme Mengen an Daten (Big Data), um ihre Kunden besser zu verstehen, neue Produkte zu entwickeln und Unternehmensprozesse zu optimieren.

Kein Wunder, dass Data Science in den letzten Jahren auch in Deutschland einen großen Hype verursacht hat. Laut einer Studie des Fraunhofer Instituts wollen 69 Prozent der befragten Unternehmen strategische Wettbewerbsvorteile mit Big Data erzielen.

Viele verstehen unter Data Science hochkomplexe Algorithmen, die mit Hilfe von Künstlicher Intelligenz (KI) menschliche Intelligenz nachbilden. Dadurch sind Maschinen in der Lage, Bilder zu erkennen, Autos zu fahren oder Aktienkurse vorherzusagen. Das trifft in vielen Fällen zu, allerdings ist KI nur ein Teilbereich von Data Science.

Interdisziplinäres Feld der Wissenschaften

Generell handelt es sich bei Data Science um die Extraktion von Wissen aus Daten. Dazu werden Methoden aus der Mathematik/Statistik und Informatik sowie das zugehörige Fachwissen verwendet.

Data Science umfasst die Disziplinen Data Engineering, Data Analytics und Machine Learning. Während sich Machine Learning auf die Forschung und Entwicklung von lernenden Algorithmen beschränkt, geht es bei Data Analytics mehr um die statistische Analyse von Daten, um so Erkenntnisse für das Business zu generieren. Data Engineering hingegen befasst sich mit der sicheren, zuverlässigen und skalierbaren Bereitstellung von großen Datenmengen. Data Science ist daher ein sehr interdisziplinäres Feld aus verschiedenen Wissenschaften und Bereichen. Oftmals haben etablierte Data-Science-Teams eine gesunde Mischung dieser Kompetenzen, also Mitarbeiter mit unterschiedlichen akademischen Hintergründen.

Problemstellung, Datenanalyse und Visualisierung

Ein klassisches Data-Science-Projekt erfordert zur erfolgreichen Umsetzung Kompetenzen aus den oben genannten Disziplinen und beinhaltet folgende Schritte:

 

  1. Business Problem: Am Anfang jedes Data-Science-Projekts, muss das Problem identifiziert und evaluiert werden. Nur so kann festgestellt werden, wie Data Science dieses Problem lösen kann. Das kann von der Vorhersage von Immobilienpreisen bis hin zur Betrugserkennung im Finanzumfeld reichen.
  2. Datenextraktion: Daten können aus verschiedenen Quellen und in unterschiedlichen Formaten extrahiert werden. Neben klassischen Tabellen-Formaten wie .csv und .xlsx sind PDF-Dateien, Bilder oder Videos beliebte Datenquellen für Data Scientists.
  3. Datenvorbereitung: Dies ist häufig der zeitaufwendigste Teil, da die Rohdaten vor der Analyse und Modellierung zunächst gereinigt, transformiert und mit externen Informationen angereichert werden müssen (= Feature Engineering).
  4. Explorative Datenanalyse: Um einen ersten Überblick über die Daten zu bekommen, eignen sich Methoden aus der deskriptiven Statistik. Dazu werden mathematische Kennwerte wie Mittelwert, Median oder Standardabweichung verwendet.
  5. Datenmodellierung: Dies ist der Teil, den viele mit Data Science verbinden. Hierunter fallen der Einsatz von Künstlicher Intelligenz, Machine Learning und Deep Learning, um Vorhersagen aus den Daten zu treffen. Dafür nutzen Data Scientists Programmiersprachen wie Python oder R.
  6. Visualisierung und Kommunikation der Ergebnisse: Visualisierungs-Softwares wie Tableau oder MS PowerBI können verwendet werden, um die Ergebnisse anschaulich und interaktiv in Form von Diagrammen, Grafiken und Animationen zu kommunizieren. Für einen guten Überblick über mögliche Visualisierungsarten bietet sich The Data Visualisation Catalogue an.
  7. Wartung und Betrieb: Schließlich muss das in Schritt 5 entwickelte Modell produktiv gesetzt, regelmäßig aktualisiert und betrieben werden. Hierbei ist stets sicherzustellen, dass das Produkt in einer sicheren, stabilen und skalierbaren Umgebung für die Nutzer zugänglich ist. Cloud-Lösungen wie AWS Sagemaker oder Google AI Platform spielen in diesem Bereich eine zunehmend größere Rolle.

Alle sind gefragt

Data Science im Unternehmen ist kein Selbstzweck und sollte stets das Ziel haben, ein Business Problem zu lösen. Der regelmäßige Austausch zwischen Entwicklern und den jeweiligen Fachabteilungen ist essenziell. Die Verantwortung für die erfolgreiche Umsetzung von Data-Science-Projekten liegt nicht nur bei den Data Scientists, sondern auch im Business, das die Probleme erkennt und gemeinsam mit den Entwicklern an den Lösungen arbeitet.

Trainings von PASS

Fachexperten oder Führungskräfte, die diese Schlüsseltechnologie nutzen wollen, sollten ein Grundverständnis für die wichtigsten Data-Science-Themen haben, um die Grenzen und Potenziale von KI, Big Data, Analytics etc. einschätzen zu können. PASS bietet daher Trainings in diesen Themen an, die sich speziell an Fachabteilungen richten.

Falls Sie Interesse an einem dieser Trainings haben, dann kontaktieren Sie uns gerne per E-Mail.

Titelbild: Shutterstock

Ein Gedanke zu “Data Science ist keine Rocket Science – ein einfacher Überblick”

Hinterlassen Sie eine Antwort

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.