Automation - Künstliche Intelligenz - Data Science

Eine Prognose des Marktforschungsunternehmens International Data Corporation (IDC) besagt, dass das globale Datenvolumen zwischen 2013 und 2020 exponentiell von 4,4 Zettabyte auf 44 Zettabyte angestiegen sein wird. Ein Zettabyte entspricht einer Milliarde Terabytes. Im Zuge der umfassenden Digitalisierung fallen Daten in neuen Größenordnungen an, was auch neue Methoden zur Erfassung und Analyse nötig macht.

Big Data

Big Data ist das Synonym für die Herausforderungen, die im Umgang mit heutigen großen Datenmengen verbunden sind, wie sie in einer zunehmend digitalisierten und vernetzten Welt anfallen. Diese Informationsressourcen können durch intelligente Auswertung neues und besseres Wissen für Entscheidungsfindung und Prozessautomatisierung zutage fördern. Die Daten sind zu umfangreich und komplex, um sinnvoll mit traditionellen Datenverarbeitungsverfahren verarbeitet zu werden. Eine Herausforderung stellen neben der Menge der hohe Anteil an unstrukturierten Daten dar, wie z.B. in Bild- und Tonaufnahmen. Diese bedürfen zunächst einer sinnvollen Interpretation, damit Informationen daraus strukturiert vorliegen und weiterverarbeitet werden können.

Die fünf Big Data-Herausforderungen

Volume - Die Menge an Daten zu verarbeiten, die heute in vernetzten Umgebungen anfallen, erfordert zunehmend neue Methoden der Datenverarbeitung; traditionelle Methoden eignen sich immer weniger.

Variety - Neues Wissen erwächst aus der Zusammenführung einer Vielfalt  von Datenquellen, d.h. Daten verschiedener Art und Bedeutung aus unterschiedlichen Quellen. Die vielfältigen Daten sinnvoll miteinander in Beziehung zu setzen, ist dabei eine zentrale Herausforderung. Der Großteil heutiger Daten liegt zudem unstrukturiert vor und ist daher interpretationsbedürftig. Big Data-Verfahren sollen Struktur in diese Daten bringen, so dass sie weiterverarbeitet werden können.

Velocity - Traditionelle Verarbeitungsverfahren sind der Geschwindigkeit bzw. Rate, mit der neue Daten anfallen, evtl. nicht gewachsen. Immer wichtiger wird auch die schnelle Verfügbarkeit von Ergebnissen. Parallelisierung bei der Verarbeitung nimmt hier eine Schlüsselrolle ein.

Validity/Veracity - Für jede Quelle ist die Datenqualität zu beachten,  d.h. Faktoren wie Genauigkeit, Konsistenz, Vollständigkeit, Aktualität. Ein Mangel an Qualität kann dabei evtl. durch die Menge der Daten kompensiert werden.

Value - Wie gut alle genannten Herausforderungen im Rahmen der  Zielsetzung bewältigt werden können, entscheidet schließlich über den Wert des generierten Wissens.


Data Science

yellow
Photo by Darwin Vegher / Unsplash

Data Science entstand aus den Erfordernissen, die Big Data mit sich  bringen. Durch die intelligente Verknüpfung und Analyse großer Datenmengen ist außerdem eine neue Dimension der Erkenntnisgewinnung  möglich.

Bei Data Science handelt es sich um ein interdisziplinäres Forschungsfeld mit dem Ziel, Wissen aus großen Datenmengen zu gewinnen.  Die Information steckt dabei nicht explizit bzw. offensichtlich in den  Daten, sondern wird durch aufwendige mathematische Verfahren aufgespürt.  Die Daten können sowohl strukturiert als auch unstrukturiert vorliegen. "Daten" meint hier uninterpretierte Rohdaten gegenüber "Information"  als verwertbares Wissen, das sich aus den interpretierten Daten ergibt.

Strukturierte und unstrukturierte Daten

In strukturierten Daten liegen Informationen für Algorithmen unmittelbar zugänglich vor. Bei Data Science geht es darum, durch tiefere Interpretation darin hintergründige Informationen zu erkennen.

Unstrukturierte Daten haben eine nicht formalisierte Struktur. Klassische Beispiele sind Sprach- und Bildaufnahmen. Um Informationen aus diesen Daten zu erlangen, sind komplexe, kognitive ("intelligente") Fähigkeiten erforderlich.

Die eigentliche Information hat häufig eine sehr viel kleinere Speichergröße als die Datenmenge, aus der die Information extrahiert wurde. Die Information, ob ein Objekt in einem Bild vorkommt, ist beispielsweise nur 1 Bit groß (ja/nein), während die Bilddatei viele Megabyte groß sein kann.

Unstrukturierte Daten werden durch Data Science-Verfahren zunächst in eine strukturierte Form gebracht. Diese werden dann (als strukturierte Daten) auf hintergründige Informationen untersucht.

Data Science - Das vierte Wissenschafts-paradigma

Der Informatiker James Nicholas Gray, Träger des renommierten Turing  Awards für herausragende Forschungsleistungen, nannte Data Science das "vierte Paradigma" der Wissenschaft. Das erste Paradigma, um zu Erkenntnissen zu kommen, ist die Empirie, d.h. Erfahrungen aus der Praxis. Das zweite ist die Theorie, d.h. gedankliche Modelle. Das dritte ist der rechnerische Ansatz. Im vierten kommt die Organisation und Auswertung gewaltiger Datenmengen hinzu.


Data Analytics

Formulas on an old blackboard
Photo by Roman Mager / Unsplash

Datenanalyse als zentrales Feld der Data Science ist der Prozess der Bereinigung, Überprüfung, Transformierung und Modellierung von Daten mit dem Ziel, nützliche Informationen zu finden, Schlüsse zu ziehen und Entscheidungen zu unterstützen.

Bereiche der Datenanalyse

Die deskriptive Analyse beschreibt Daten durch grafische Darstellung oder Kennzahlen. Empirische Daten werden durch Parameter, Tabellen oder  Diagramme geordnet und übersichtlich dargestellt.

Explorative Datenanalyse dient dazu, neue Merkmale der Daten zu entdecken. Sie sucht nach Zusammenhängen zwischen Daten, über deren Zusammenhang nur geringes Wissen vorliegt. Beim Data Mining kommen derartige Techniken zum Einsatz.

Bestätigende Datenanalyse ist dazu da, bestehende Hypothesen zu bestätigen oder zu falsifizieren.

Die prädiktive Analyse zieht statistische Modelle für Vorhersage oder Klassifizierung heran. Die Textanalyse wendet statistische, sprachliche und strukturelle Techniken an, um Informationen aus Textquellen (unstrukturierte Daten) zu extrahieren und zu klassifizieren.

Die inferenzielle Analyse (auch induktive Statistik) schließt von den Eigenschaften einer Teilmenge (z.B. Stichprobe) auf die Gesamtheit der Daten.


Data Science-Verfahren

Aggregation: Statistikberechnung
z.B. Summe der Verkäufe, Durchschnittswerte

Data Mining: nützliche Regeln finden
z.B. 40% aller Kunden, die X kauften, kauften auch Y

Clustering/Klassifizierung: ähnliche Datensätze gruppieren
z.B. Patienten nach ähnlichen Eigenschaften wie Größe, Gewicht, Symptome

Machinelles Lernen: Aufgaben lösen durch große Anzahl an Fallbeispielen
Das traditionelle wissenschaftliche Vorgehen, zu einer Hypothese ein  theoretisches Modell auszuarbeiten und dieses zu testen, wird mit Big  Data zunehmend obsolet. Stattdessen arbeitet man bei maschinellem Lernen  mit Systemen, die mit genügend großen Datenmengen trainiert wurden, bis  sie mit einer gewünschten Genauigkeit Aufgaben lösen können. Ein Modell  existiert bei diesem Ansatz nicht.


Anwendungen von Data Science

Internetsuche: Suchmaschinen verwenden Data Science-Algorithmen, um in Sekundenbruchteilen die besten Suchergebnisse für Suchanfragen zu erzielen.

Internetwerbung: Bei der zielgruppengerechten Platzierung digitaler Werbung kommt Data Science zum Einsatz.

Empfehlungssysteme: Produkte werden entsprechend persönlicher Anforderungen und Relevanz vorgeschlagen, basierend auf dem bisherigen Verhalten des Nutzers.

Finanzdienste: Zur Analyse von Betriebs-, Kunden-, Compliance- und Betrugsanalyse  führen Finanz- und Versicherungsunternehmen große Datenmengen aus unterschiedlichen Systemen zusammen.

Telekommunikationsdienste:
Zur Kundenbindung und -neugewinnung kombinieren und analysieren Kommunikationsdienstleister die großen Datenmengen, die von Kunden und maschinell täglich generiert werden.

Einzelhandel: Um den einzelnen Kunden besser zu verstehen und zu bedienen, führen Einzelhändler Daten aus disparaten Quellen wie Transaktionen, Social Media-Profilen und Treueprogrammen zusammen und analysieren sie.

Gesundheitswesen: Data Analytics hilft, Patienten besser, aber auch kostengünstiger zu behandeln und die Einsatzmittel zu optimieren.


Analyse von Zeitreihen

Flying through the water!
Photo by Josh Calabrese / Unsplash

Die meisten im Big Data-Rahmen anfallenden Daten können als Zeitreihendaten aufgefasst werden. Zeitreihen bestehen aus Daten, die in regelmäßigen Zeitabständen generiert werden. Dabei haben die Daten die Eigenschaft, nicht voneinander unabhängig zu sein. Bei Finanzkurs- oder  Temperaturmessreihen beispielsweise ist ein Wert nicht unabhängig von seinem zeitlichen Vorgänger- und Nachfolgewert.

Zeitreihenanalyse beschäftigt sich mit dem Aufspüren von Regelmäßigkeiten und Mustern in der zeitlichen Abfolge der Daten. Ziel ist es, die Ursachen für die Verläufe besser zu verstehen sowie den kommenden Verlauf vorherzusagen. Die Werte einer Zeitreihe werden von vielen Faktoren beeinflusst, die häufig zu komplex zu erfassen oder gänzlich unbekannt sind. Die Analyse von Zeitreihen der Finanzmärkte zur  Generierung von zukünftigen Prognosen ist eines der spannensten Anwendungsfelder.

Eigenschaften von Zeitreihenabschnitten sind der generelle Trend,  saisonale und zyklische Schwankungen sowie irreguläre Schwankungen (Noise). Eine Big Data-Aufgabe besteht darin, die Information vom Noise  zu trennen. Die Fülle von (häufig Echtzeit-) Daten muss dazu aggregiert und gefiltert werden.

Zu den Methoden der Zeitreihenanalyse gehören Glättungsverfahren; diese ersetzen zufällige Schwankungen der Zeitreihenwerte durch Näherungen. Regressionsverfahren erlauben die Bestimmung zeitlicher Trends und saisonaler Einflüsse.

Künstliche neuronale Netze sind ein neues mächtiges Mittel, die zeitliche Entwicklung nichtlinearer dynamischer Systeme wie Zeitreihen vorherzusagen. Derartige machinelle Lernverfahren auf Big Data-Basis können Komplexität in nicht dagewesener Größenordnung einbeziehen.

Spezialisierte Datenbanken für Zeitreihen, wie eXtremeDB, ermöglichen die effiziente Speicherung, Verwaltung und Analyse von Zeitreihen.


Ausblick

Vor dem Hintergrund heutiger digitaler Datenmengen wurde die Notwendigkeit einer neuen Wissenschaft durch den Übergang von der  Statistik zu einer Fusion mit neuen Disziplinen zunehmend anerkannt.
Data Science, Big Data und Advanced Analytics werden so zunehmend die treibenden Kräfte der nächsten technologischen Generation für Innovation, Wirtschaftlichkeit und Bildung.