Aktuelle Data Science Trends – Eindrücke von den German Data Science Days 2019

Die Themen Data Science und Künstliche Intelligenz sind im Moment in aller Munde. Mit ihrem Einsatz sind riesige Erwartungen verbunden. Andererseits stellt deren Einführung Unternehmen auch vor große Herausforderungen. Wie erreicht man zum Beispiel, dass Data Science Teams und Fachabteilungen effizient zusammenarbeiten? Welche Tools und Algorithmen eignen sich am besten für verschiedene Anwendungsfälle? Wie geht man mit Risiken für Datenmissbrauch um, die im Zeitalter von Big Data immer größer werden? Diese und weitere Themen wurden bei den German Data Science Days 2019 an der LMU München diskutiert. Die Konferenz versammelt jährlich die deutsche Data Scientist Community und bietet eine Plattform für den Austausch zwischen Teilnehmern aus Wissenschaft, Industrie und Wirtschaft. Und wir von SCHICKLER waren mit dabei.

Teilnehmer in der großen Aula der LMU (Foto: LMU)



Interaktion zwischen Data Science Teams und Fachabteilung

Data Scientists verfügen über technisches Expertenwissen, Mitarbeiter in den Fachabteilungen über Expertenwissen in den jeweiligen Fachbereichen. Für die Entwicklung erfolgreicher Data Science Lösungen ist das Know-how aus beiden Bereichen wichtig. Viele Projekte scheitern daran, dass nicht genug oder nicht erfolgreich miteinander kommuniziert wird. Zwar kann ein Data Scientist auch eigenständig technisch gut funktionierende Lösungen entwickeln. Wenn sein Verständnis der Problemstellungen aber nicht exakt ist, schießen diese nicht selten am realen Problem vorbei. Andererseits werden gut funktionierende Lösungen von den Fachabteilungen abgelehnt, weil diese aufgrund fehlenden Verständnisses falsch verwendet werden und schlechte Ergebnisse liefern. Wie relevant dieses Thema ist, zeigte sich dadurch, dass die Mehrheit der Publikumsfragen an die Vortragenden hierauf abzielte. Als Antwort darauf berichtete Dr. Andreas Wagner vom Fraunhofer ITWM von Erfahrungen aus einem Projekt zur Untersuchung der Schadensabwicklung in KFZ-Hersteller-Garantien. Dort wurden Mitarbeiter aus der Fachabteilung als feste Mitglieder in Data Science Projektteams aufgenommen. So konnte bei jeder (auch technischen) Entscheidung im Projektverlauf direkt deren Einfluss hinsichtlich der fachlichen Anforderung und Nutzbarkeit geprüft werden.

Ein weiterer Ansatz die Kluft zwischen Entwickler und Nutzer der Data Science Lösungen zu verkleinern, liegt in dem zunehmenden Einsatz von Self Service Tools. Hier entwickelt der Data Scientist keinen Algorithmus, der dem Fachmitarbeiter eine Entscheidung komplett abnimmt. Stattdessen entwickelt er ein Tool, das dem Fachmitarbeiter durch die automatisierte Bereitstellung passender Informationen bei der Entscheidung unterstützt. Dr. Mihael Ankerst von der Allianz Deutschland stellte hierzu ein Projekt vor, bei dem ein interaktives Dashboard entwickelt wurde. Hiermit können Versicherungsvertreter selbstständig durch Anpassung verschiedener Visualisierungen Daten analysieren. Dabei entdecken sie eigenständig Kundenmuster und Upselling-Chancen. Gegenüber einem intelligenten Algorithmus, der trainiert wurde um eine spezielle Fragestellung zu beantworten, ist dieses Tool deutlich flexibler einsetzbar. Durch die Interaktion mit dem Fachmitarbeiter fließt zudem dessen Expertenwissen direkt in die Entscheidung mit ein. Gängige Machine Learning Algorithmen verhalten sich dagegen wie eine Black Box, die ein Ergebnis ausspuckt ohne dass für den Nutzer erkennbar ist, wie der Algorithmus zu diesem Ergebnis gelangt ist. Ist der Versicherungsvertreter dagegen wie hier selbst aktiv an der Entscheidungsfindung beteiligt, so steigt die Akzeptanz der Ergebnisse. In großen Konzernen geht man sogar noch einen Schritt weiter, wie Dr. Andreas Nawroth, Head of Analytics bei der Munich Re, und Dr. Martin Appl, Head of Data Science bei der BMW Group, berichteten. Dort werden nicht nur interaktive Tools für einzelne Fachbereiche entwickelt. Stattdessen wurde ein zentraler Fachbereich geschaffen, der Data Science Software Lösungen wie ein externer Dienstleister den anderen Fachbereichen zur Verfügung stellt. Die konkrete Anwendung der Algorithmen und Analyse der Daten verbleibt großteilig in den Fachbereichen.

E-Commerce Unternehmen bleiben Vorreiter

Die bekanntesten Anwendungsfälle von künstlicher Intelligenz stammen aus dem Online- und E-Commerce-Bereich. Durch die Vielzahl der Interaktionen von Nutzern mit Online-Inhalten fallen hier besonders große Datenmengen an. Motiviert durch den Erfolg von KI Lösungen im Online Bereich und unterstützt durch Trends wie Internet of Things gründen aber auch immer mehr Offline-Unternehmen Data Science Fachbereiche. Die Vorträge bei den German Data Science Days haben allerdings gezeigt, dass viele gerade der großen Unternehmen noch dabei sind hier Grundlagenarbeit zu leisten. E-Commerce-Unternehmen, bei der Konferenz durch Scout24 und Check24 vertreten, dagegen nutzen Data-Science-Lösungen über alle Unternehmensbereiche hinweg und die Qualität ihrer Produkte wird wesentlich durch die Qualität von KI Algorithmen bestimmt.



Dr. Markus Ludwig stellt KI Anwendungsfälle bei Scout24 vor (Foto LMU)

Insbesondere für Medienunternehmen interessant war der Vortrag von Alwin Viereck von der United Internet Media GmbH zum Thema Programmatic Advertising. Beim Programmatic Advertising werden in Echtzeit Ad Impressions gehandelt. Der Werbetreibende hat so die Möglichkeit seine Werbung genau den Website-Besuchern zu zeigen, die für sein Produkt am interessantesten sind. Der Werbeplatzanbieter kann seine Ad Impressions teurer verkaufen, da diese immer an den Werbetreibenden gehen, der diesen den höchsten Wert beimisst. Die Entscheidung welche Werbung bei welchen Usern die höchsten Chancen hat und welche Preise geboten werden, wird dabei zunehmend von intelligenten Algorithmen übernommen. Bereits heute liegt der Programmatic Advertising Anteil bei Online-Werbung in Deutschland laut eMarketer bei 74% (https://www.emarketer.com/content/what-programmatic-advertising-looks-like-in-germany) und Alwin Viereck prognostiziert, dass in wenigen Jahren quasi der gesamte deutsche Online-Werbemarkt Programmatic sein wird.

Neue Probleme fordern neue Algorithmen

Wir sind noch weit davon entfernt, künstliche Intelligenzen zu schaffen, die wirklich intelligent ein breites Spektrum von Problemen bearbeiten können. Stattdessen sind heutzutage eingesetzte Machine Learning Algorithmen größtenteils hoch spezialisiert. Sie wurden darauf trainiert eine ganz konkrete Aufgabe erfolgreich auszuführen. So speziell wie die Anwendungsbereiche sind oft auch die Machine Learning Algorithmen. Entsprechend große Chancen bieten sich auch kleineren Unternehmen für den Einsatz von KI Lösungen. Sie müssen nicht mit großen Tech-Giganten um die besten allgemeinen Lösungen konkurrieren. Stattdessen können sie sich darauf konzentrieren, spezielle Algorithmen zu entwickeln, die optimal an ihre konkreten Anwendungsfälle angepasst sind.

In mehreren Vorträgen wurden derartige Lösungen präsentiert. Felix Meyer von der Swiss International Air Lines AG stellte zum Beispiel ein Modell zur optimalen Bestimmung von Flugpreisen vor. Hierfür wurde ein mathematisches Modell adaptiert, das normalerweise zur Modellierung von Warteschlangen verwendet wird. Von einem weiteren spannenden Ansatz zur frühzeitigen Erkennung von Maschinen-Fehlfunktionen berichtete Andrei Ciobotar von Relayr. Spezielle neuronale Netze, sogenannte Encoder-Decoder Systeme, lernen zeitgleich Maschinendaten zu komprimieren und aus den komprimierten Daten die ursprünglichen Daten zu rekonstruieren. Dies funktioniert für normale Datensätze sehr gut. Bei anomalen Datensätzen, die auf eine Fehlfunktion hindeuten, funktioniert dies dagegen sehr schlecht. So kann ein System automatisch Anomalitäten erkennen, ohne dass ihm jemals vermittelt werden musste, wie der Normalzustand des Systems aussieht. Wie alles im Leben verändern sich auch Datenmuster im Laufe der Zeit. Zudem sammeln viele intelligente Systeme während der Nutzung weitere Daten, die zu ihrer eigenen Verbesserung verwendet werden können. Wie aber entscheidet man welche Datenpunkte zum Training des Machine Learning Algorithmus noch verwendet werden können und welche veraltet sind? Und wie aktualisiere ich ein intelligentes System, wenn es neue Daten sammelt? Prof. Dr. Barbara Hammer von der Universität Bielefeld berichtete von Forschungsergebnissen zur Lösung derartiger Probleme.

Datenethik und Datenschutz

Neben großen Chancen birgt das Sammeln von großen Datenmengen auch erhebliche Risiken. Wenn persönliche Daten in die falschen Hände geraten, können dadurch einzelnen Personen erhebliche Schäden entstehen. Zudem verfügt man als Data Scientist über mächtige Methoden zur Aufdeckung von Mustern. So können Algorithmen erkennen, dass Faktoren wie Geschlecht, Alter oder ein Name, der auf Migrationshintergrund hindeutet, mit der Arbeitsproduktivität oder der Zahlungswahrscheinlichkeit von Schuldnern korrelieren. Wird mit diesen Informationen falsch umgegangen, können Algorithmen ganze Bevölkerungsgruppen systematisch diskriminieren. Beim Data Scientist liegt eine entsprechend hohe Verantwortung, solchen Entwicklungen entgegen zu wirken. Ansätze wie mit solchen und ähnlichen Situationen umzugehen ist, stellte Dr. Sebastian Wernicke von der ONE LOGIC GmbH in einem Vortrag zur Datenethik vor.

Auch die neue Datenschutzgrundverordnung (DSGVO) und deren Implikationen wurden in mehreren Vorträgen diskutiert. Die DSGVO legt fest, dass personenbezogene Daten nur dann für bestimmte Zwecke verwendet werden dürfen, wenn die betreffende Person explizit ihre Zustimmung dazu gegeben hat. Der Data Scientist muss also immer prüfen, welche Daten für eine Machine Learning Lösung verwendet werden dürfen und dafür auch alle späteren Nutzungsmöglichkeiten abschätzen. Allerdings ist es für den Data Scientist nicht immer leicht einzuschätzen, was erlaubt ist und was nicht. Wie Prof. Dr. Nikolaus Forgó von der Universität Wien eindrucksvoll darlegte, lassen sich die juristischen Regelungen aus der DSGVO oft nur schlecht auf aktuelle technische Fragestellungen anwenden und es ergeben sich viele Grauzonen.

Haben Sie Fragen zu Themen aus dem Blog-Artikel oder interessieren sich für Data Science Anwendungen in Ihrem Unternehmen? Wenden Sie sich dazu gerne jederzeit an das Schickler Data Science Team: datasciene@schickler.de(Link)

Die German Data Science Days(https://www.gdsd.statistik.uni-muenchen.de/index.html) werden jährlich als zwei-tägige Konferenz an der Ludwig-Maximilians-Universität München ausgetragen. Ihr Ziel ist es Data Scientists aus dem deutschsprachigen Raum zu versammeln und den Austausch zwischen Wissenschaft, Industrie und Wirtschaft zu fördern. Die Vorträge beschäftigen sich mit aktuellen Trends und Herausforderungen im Bereich Data Science. Für Schickler nahmen die beiden Data Scientists Amr Rekaby Salama und Ole Martin an der Konferenz teil.