Die Facetten des Berufs Data Scientist

4.6.2018

Data Scientists gehören zurzeit zu den besonders gefragten Experten. Die Digitalisierung verschärft den Wettbewerb in der Wirtschaft. Wer schnell ist, kann sich Vorteile verschaffen. Viele Unternehmen möchten datengetrieben oft erst ihre Prozesse optimieren und dann aber auch ihre Geschäftsmodelle um- und ausbauen. Dafür benötigen sie Spezialisten, die nicht nur Daten sammeln, sondern damit auch die richtigen Fragen beantworten können. Ein Aufgabenfeld, das nicht von einer einzelnen Person bewältigt werden kann. In den meisten Unternehmen arbeiten Teams von Data Scientists.

 

Die Rollen in einem Data Scientist Team

In diesen Teams finden sich oft Spezialisten mit vier verschiedenen Profilen: Data Analyst, Data Architect, Data Manager und Data Business Developer. Der Data Business Developer ist das betriebswirtschaftliche Bindeglied: Er entwickelt die Business Cases und beurteilt die Lösungen. Der Data Analyst bereitet die Daten auf und identifiziert Muster, mit denen die Aufgabenstellung beantwortet werden kann. Data Architects kommen ins Spiel, wenn die Datenmengen für die normale IT zu groß werden. Data Manager werden hinzugezogen, wenn die Datenqualität nicht punktuell in jedem Projekt, sondern langfristig  verbessert werden soll.

Natürlich sind diese Rollen nicht immer strikt getrennt und werden teilweise in Personalunion ausgeübt. Aber je mehr Projekte ein Unternehmen durchführt, umso effizienter werden Teams mit Spezialisten.

Basiswissen für Data Scientists

Natürlich gibt es gewisse Basiskenntnisse für Data Scientists. Diese vermittelt die Fraunhofer-Allianz Big Data in einer ihrer Schulungen. Es geht darum, eine gemeinsame Sprache und ein Verständnis für die Herangehensweisen und Methoden der anderen Experten aufzubauen.  Zum Beispiel, wie man mit einer Potenzialanalyse abschätzen kann, welche von mehreren Projektideen gerade am attraktivsten und trotzdem nicht zu riskant ist. Oder, wie man die Daten möglichst beim Eintreffen auf Stimmigkeit prüfen und mit wichtigen Zusatzinformationen anreichern kann.  Oder, wie man beliebig große Datenmengen ausfallsicher speichern und parallel verarbeiten kann. Und schließlich, wie man aus Daten Regeln, Entscheidungsbäume oder künstliche neuronale Netze gewinnen kann, die in der Anwendung die gesuchten Vorhersagen und Empfehlungen liefern.

 

Verschiedene Datentypen erfordern weitere Spezialkenntnisse

Datenanalysten werten die Daten nicht nur visuell aus, sondern nutzen Verfahren des Maschinellen Lernens. Speziell das Trainieren von künstlichen neuronalen Netzen hat in den letzten Jahren zu enormen Fortschritten in der Bild-, Sprach- und Textverarbeitung geführt. Wir kennen sie aus den Sozialen Netzwerken und von den Assistenten auf unseren Smartphones. Die Verfahren, das sind die in den Medien oft zitierten „Algorithmen“, ermöglichen immer intelligentere Lösungen. Unter den Datenanalysten sind deshalb besonders die Spezialisten für Maschinelles Lernen in den Einsatzgebieten der Künstlichen Intelligenz dringend gesucht.

Je nach Datentyp und Anwendungskontext sind verschiedene Verfahren nötig und es entstehen laufend speziellere Arten von künstlichen neuronalen Netzen. Wenn Unternehmen etwa für den Service- und Supportbereich automatisieren oder im Marketingfeld Kundenreaktionen auswerten möchten, dann müssen vor allem Texte analysiert werden, also zum Beispiel Stichwörter und Schlüsseldaten extrahiert oder Tonalitäten erkannt werden. Im Trendbereich Sprachassistenten geht es um die Erkennung von Absichten und die Generierung von Antworten – und darum, dass die Software aus dem Kontext heraus Befehle verstehen und adäquat reagieren muss.

Im Bereich der Industrie 4.0 sind die Unternehmen zumeist mit großen Datenströmen aus Sensoren und Maschinen konfrontiert. Hierfür benötigen Data Scientists hauptsächlich Methoden der Zeitreihenanalyse. Aus historischen Daten müssen Modelle entstehen, die zukünftige Ereignisse basierend auf aktuellen Daten prognostizieren können – etwa den anstehenden Ausfall eines Teils oder einer Maschine.

Wieder andere Verfahren benötigen Data Scientists für die Analyse von Bildern und Videos. Auch hier ist es eine typische Aufgabe, Schäden und potenziell entstehende Probleme zu erkennen – sowohl in der Medizin als auch in der Fertigung und dann im Betrieb von vernetzten Geräten.

Das Maschinelle Lernen mit seinen vielen Anwendungsmöglichkeiten in der Datenanalyse und Künstlichen Intelligenz ist überaus dynamisch und die Lernplattformen von Google, Amazon, Microsoft & co entwickeln sich so schnell weiter, dass man neben dem Alltagsgeschäft kaum den Durchblick behalten kann. Darum hat die Fraunhofer-Allianz in diesem Jahr eine neue Schulung aufgesetzt. Es geht um aktuelle Methoden für das Maschinelle Lernen und ihre Einsatzgebiete. Wie bei der vorhin erwähnten Basisschulung können die Teilnehmer auch hier ein Zertifikat erwerben. Durch Vorstellung einer Projektarbeit können sie mit den beiden Zertifikaten zusammen den Titel „Senior Data Scientist“ erlangen.