Aktuelle Data Science Trends – Eindrücke von den German Data Science Days 2019

Die Themen Data Science und Künstliche Intelligenz sind im Moment in aller Munde. Mit ihrem Einsatz sind riesige Erwartungen verbunden. Andererseits stellt deren Einführung Unternehmen auch vor große Herausforderungen. Wie erreicht man zum Beispiel, dass Data Science Teams und Fachabteilungen effizient zusammenarbeiten? Welche Tools und Algorithmen eignen sich am besten für verschiedene Anwendungsfälle? Wie geht man mit Risiken für Datenmissbrauch um, die im Zeitalter von Big Data immer größer werden? Diese und weitere Themen wurden bei den German Data Science Days 2019 an der LMU München diskutiert. Die Konferenz versammelt jährlich die deutsche Data Scientist Community und bietet eine Plattform für den Austausch zwischen Teilnehmern aus Wissenschaft, Industrie und Wirtschaft. Und wir von SCHICKLER waren mit dabei.

Teilnehmer in der großen Aula der LMU (Foto: LMU)



Interaktion zwischen Data Science Teams und Fachabteilung

Data Scientists verfügen über technisches Expertenwissen, Mitarbeiter in den Fachabteilungen über Expertenwissen in den jeweiligen Fachbereichen. Für die Entwicklung erfolgreicher Data Science Lösungen ist das Know-how aus beiden Bereichen wichtig. Viele Projekte scheitern daran, dass nicht genug oder nicht erfolgreich miteinander kommuniziert wird. Zwar kann ein Data Scientist auch eigenständig technisch gut funktionierende Lösungen entwickeln. Wenn sein Verständnis der Problemstellungen aber nicht exakt ist, schießen diese nicht selten am realen Problem vorbei. Andererseits werden gut funktionierende Lösungen von den Fachabteilungen abgelehnt, weil diese aufgrund fehlenden Verständnisses falsch verwendet werden und schlechte Ergebnisse liefern. Wie relevant dieses Thema ist, zeigte sich dadurch, dass die Mehrheit der Publikumsfragen an die Vortragenden hierauf abzielte. Als Antwort darauf berichtete Dr. Andreas Wagner vom Fraunhofer ITWM von Erfahrungen aus einem Projekt zur Untersuchung der Schadensabwicklung in KFZ-Hersteller-Garantien. Dort wurden Mitarbeiter aus der Fachabteilung als feste Mitglieder in Data Science Projektteams aufgenommen. So konnte bei jeder (auch technischen) Entscheidung im Projektverlauf direkt deren Einfluss hinsichtlich der fachlichen Anforderung und Nutzbarkeit geprüft werden.

Ein weiterer Ansatz die Kluft zwischen Entwickler und Nutzer der Data Science Lösungen zu verkleinern, liegt in dem zunehmenden Einsatz von Self Service Tools. Hier entwickelt der Data Scientist keinen Algorithmus, der dem Fachmitarbeiter eine Entscheidung komplett abnimmt. Stattdessen entwickelt er ein Tool, das dem Fachmitarbeiter durch die automatisierte Bereitstellung passender Informationen bei der Entscheidung unterstützt. Dr. Mihael Ankerst von der Allianz Deutschland stellte hierzu ein Projekt vor, bei dem ein interaktives Dashboard entwickelt wurde. Hiermit können Versicherungsvertreter selbstständig durch Anpassung verschiedener Visualisierungen Daten analysieren. Dabei entdecken sie eigenständig Kundenmuster und Upselling-Chancen. Gegenüber einem intelligenten Algorithmus, der trainiert wurde um eine spezielle Fragestellung zu beantworten, ist dieses Tool deutlich flexibler einsetzbar. Durch die Interaktion mit dem Fachmitarbeiter fließt zudem dessen Expertenwissen direkt in die Entscheidung mit ein. Gängige Machine Learning Algorithmen verhalten sich dagegen wie eine Black Box, die ein Ergebnis ausspuckt ohne dass für den Nutzer erkennbar ist, wie der Algorithmus zu diesem Ergebnis gelangt ist. Ist der Versicherungsvertreter dagegen wie hier selbst aktiv an der Entscheidungsfindung beteiligt, so steigt die Akzeptanz der Ergebnisse. In großen Konzernen geht man sogar noch einen Schritt weiter, wie Dr. Andreas Nawroth, Head of Analytics bei der Munich Re, und Dr. Martin Appl, Head of Data Science bei der BMW Group, berichteten. Dort werden nicht nur interaktive Tools für einzelne Fachbereiche entwickelt. Stattdessen wurde ein zentraler Fachbereich geschaffen, der Data Science Software Lösungen wie ein externer Dienstleister den anderen Fachbereichen zur Verfügung stellt. Die konkrete Anwendung der Algorithmen und Analyse der Daten verbleibt großteilig in den Fachbereichen.

E-Commerce Unternehmen bleiben Vorreiter

Die bekanntesten Anwendungsfälle von künstlicher Intelligenz stammen aus dem Online- und E-Commerce-Bereich. Durch die Vielzahl der Interaktionen von Nutzern mit Online-Inhalten fallen hier besonders große Datenmengen an. Motiviert durch den Erfolg von KI Lösungen im Online Bereich und unterstützt durch Trends wie Internet of Things gründen aber auch immer mehr Offline-Unternehmen Data Science Fachbereiche. Die Vorträge bei den German Data Science Days haben allerdings gezeigt, dass viele gerade der großen Unternehmen noch dabei sind hier Grundlagenarbeit zu leisten. E-Commerce-Unternehmen, bei der Konferenz durch Scout24 und Check24 vertreten, dagegen nutzen Data-Science-Lösungen über alle Unternehmensbereiche hinweg und die Qualität ihrer Produkte wird wesentlich durch die Qualität von KI Algorithmen bestimmt.



Dr. Markus Ludwig stellt KI Anwendungsfälle bei Scout24 vor (Foto LMU)

Insbesondere für Medienunternehmen interessant war der Vortrag von Alwin Viereck von der United Internet Media GmbH zum Thema Programmatic Advertising. Beim Programmatic Advertising werden in Echtzeit Ad Impressions gehandelt. Der Werbetreibende hat so die Möglichkeit seine Werbung genau den Website-Besuchern zu zeigen, die für sein Produkt am interessantesten sind. Der Werbeplatzanbieter kann seine Ad Impressions teurer verkaufen, da diese immer an den Werbetreibenden gehen, der diesen den höchsten Wert beimisst. Die Entscheidung welche Werbung bei welchen Usern die höchsten Chancen hat und welche Preise geboten werden, wird dabei zunehmend von intelligenten Algorithmen übernommen. Bereits heute liegt der Programmatic Advertising Anteil bei Online-Werbung in Deutschland laut eMarketer bei 74% (https://www.emarketer.com/content/what-programmatic-advertising-looks-like-in-germany) und Alwin Viereck prognostiziert, dass in wenigen Jahren quasi der gesamte deutsche Online-Werbemarkt Programmatic sein wird.

Neue Probleme fordern neue Algorithmen

Wir sind noch weit davon entfernt, künstliche Intelligenzen zu schaffen, die wirklich intelligent ein breites Spektrum von Problemen bearbeiten können. Stattdessen sind heutzutage eingesetzte Machine Learning Algorithmen größtenteils hoch spezialisiert. Sie wurden darauf trainiert eine ganz konkrete Aufgabe erfolgreich auszuführen. So speziell wie die Anwendungsbereiche sind oft auch die Machine Learning Algorithmen. Entsprechend große Chancen bieten sich auch kleineren Unternehmen für den Einsatz von KI Lösungen. Sie müssen nicht mit großen Tech-Giganten um die besten allgemeinen Lösungen konkurrieren. Stattdessen können sie sich darauf konzentrieren, spezielle Algorithmen zu entwickeln, die optimal an ihre konkreten Anwendungsfälle angepasst sind.

In mehreren Vorträgen wurden derartige Lösungen präsentiert. Felix Meyer von der Swiss International Air Lines AG stellte zum Beispiel ein Modell zur optimalen Bestimmung von Flugpreisen vor. Hierfür wurde ein mathematisches Modell adaptiert, das normalerweise zur Modellierung von Warteschlangen verwendet wird. Von einem weiteren spannenden Ansatz zur frühzeitigen Erkennung von Maschinen-Fehlfunktionen berichtete Andrei Ciobotar von Relayr. Spezielle neuronale Netze, sogenannte Encoder-Decoder Systeme, lernen zeitgleich Maschinendaten zu komprimieren und aus den komprimierten Daten die ursprünglichen Daten zu rekonstruieren. Dies funktioniert für normale Datensätze sehr gut. Bei anomalen Datensätzen, die auf eine Fehlfunktion hindeuten, funktioniert dies dagegen sehr schlecht. So kann ein System automatisch Anomalitäten erkennen, ohne dass ihm jemals vermittelt werden musste, wie der Normalzustand des Systems aussieht. Wie alles im Leben verändern sich auch Datenmuster im Laufe der Zeit. Zudem sammeln viele intelligente Systeme während der Nutzung weitere Daten, die zu ihrer eigenen Verbesserung verwendet werden können. Wie aber entscheidet man welche Datenpunkte zum Training des Machine Learning Algorithmus noch verwendet werden können und welche veraltet sind? Und wie aktualisiere ich ein intelligentes System, wenn es neue Daten sammelt? Prof. Dr. Barbara Hammer von der Universität Bielefeld berichtete von Forschungsergebnissen zur Lösung derartiger Probleme.

Datenethik und Datenschutz

Neben großen Chancen birgt das Sammeln von großen Datenmengen auch erhebliche Risiken. Wenn persönliche Daten in die falschen Hände geraten, können dadurch einzelnen Personen erhebliche Schäden entstehen. Zudem verfügt man als Data Scientist über mächtige Methoden zur Aufdeckung von Mustern. So können Algorithmen erkennen, dass Faktoren wie Geschlecht, Alter oder ein Name, der auf Migrationshintergrund hindeutet, mit der Arbeitsproduktivität oder der Zahlungswahrscheinlichkeit von Schuldnern korrelieren. Wird mit diesen Informationen falsch umgegangen, können Algorithmen ganze Bevölkerungsgruppen systematisch diskriminieren. Beim Data Scientist liegt eine entsprechend hohe Verantwortung, solchen Entwicklungen entgegen zu wirken. Ansätze wie mit solchen und ähnlichen Situationen umzugehen ist, stellte Dr. Sebastian Wernicke von der ONE LOGIC GmbH in einem Vortrag zur Datenethik vor.

Auch die neue Datenschutzgrundverordnung (DSGVO) und deren Implikationen wurden in mehreren Vorträgen diskutiert. Die DSGVO legt fest, dass personenbezogene Daten nur dann für bestimmte Zwecke verwendet werden dürfen, wenn die betreffende Person explizit ihre Zustimmung dazu gegeben hat. Der Data Scientist muss also immer prüfen, welche Daten für eine Machine Learning Lösung verwendet werden dürfen und dafür auch alle späteren Nutzungsmöglichkeiten abschätzen. Allerdings ist es für den Data Scientist nicht immer leicht einzuschätzen, was erlaubt ist und was nicht. Wie Prof. Dr. Nikolaus Forgó von der Universität Wien eindrucksvoll darlegte, lassen sich die juristischen Regelungen aus der DSGVO oft nur schlecht auf aktuelle technische Fragestellungen anwenden und es ergeben sich viele Grauzonen.

Haben Sie Fragen zu Themen aus dem Blog-Artikel oder interessieren sich für Data Science Anwendungen in Ihrem Unternehmen? Wenden Sie sich dazu gerne jederzeit an das Schickler Data Science Team: datasciene@schickler.de(Link)

Die German Data Science Days(https://www.gdsd.statistik.uni-muenchen.de/index.html) werden jährlich als zwei-tägige Konferenz an der Ludwig-Maximilians-Universität München ausgetragen. Ihr Ziel ist es Data Scientists aus dem deutschsprachigen Raum zu versammeln und den Austausch zwischen Wissenschaft, Industrie und Wirtschaft zu fördern. Die Vorträge beschäftigen sich mit aktuellen Trends und Herausforderungen im Bereich Data Science. Für Schickler nahmen die beiden Data Scientists Amr Rekaby Salama und Ole Martin an der Konferenz teil.

Use Case: Optimierung der B2B-Verkaufsorganisation durch Einsatz eines Recommender-Systems

Der Verkauf von Werbeplätzen im B2B-Geschäft ist ein wesentliches Geschäftsfeld in Medienhäusern. Dementsprechend kritisch ist eine effiziente und erfolgreiche Verkaufsorganisation für deren Gesamtgeschäftserfolg. Recommender-Systeme basierend auf modernen Machine-Learning Ansätzen können dabei helfen, in der Verkaufsorganisation sowohl den Absatz zu erhöhen als auch die Effizienz zu steigern. Im Folgenden diskutieren wir die Erstellung eines Kunden-individuellen Produkte-Rankings als konkrete Einsatzmöglichkeit eines Recommender-Systems in der B2B-Verkaufsorganisation. Eine allgemeine Einführung in die Funktionsweise von Recommender-Systemen, deren Einsatzmöglichkeiten in Medienunternehmen und die Chancen, die sich durch deren Nutzung bieten, finden Sie unter “Andere Kunden kauften auch…” – mehr Umsatz durch Einsatz von Recommender-Systemen im B2C- und B2B-Sales.

Abbildung 1: Welche Produkte sollen dem Kunden angeboten werden? 

Wie werden Entscheidungen in der Verkaufsorganisation getroffen?

Versetzen wir uns zunächst in folgende alltägliche Situation in Verkaufsorganisationen von Medienhäusern: Ein Verkaufsmitarbeiter besucht Firma 1 und bietet ihr Werbeplätze in Zeitung X und Online-Portal X an. Den Werbeplatz in Zeitung X konnte er bereits im letzten Jahr erfolgreich an Firma 1 verkaufen und da Zeitung X und Online-Portal X sehr ähnliche Inhalte haben, entschließt er sich dazu auch einen Werbeplatz bei Online-Portal X anzubieten. Der Verkaufsmitarbeiter stützt sich dabei hauptsächlich auf seine eigenen umfassenden Verkaufserfahrungen. Er weiß jedoch nicht, dass ein anderer Verkaufsmitarbeiter gerade bei der Firma 2, die in der gleichen Branche wie Firma 1 aktiv ist, erfolgreich Werbeplätze in Zeitung X, Zeitung Y und Zeitung Z verkaufen konnte und ein dritter Verkaufsmitarbeiter bei der Firma 3 nicht erfolgreich dabei war, zusätzlich zu Zeitung Z auch Online-Portal Z anzubieten.

Kunde Zeitung X Zeitung Y Zeitung Z Online- Portal X Online- Portal Z
Firma 1 Interessiert ??? ??? ??? ???
Firma 2 Interessiert Interessiert Interessiert
Firma 3 Interessiert Nicht interessiert Nicht interessiert

Tabelle 1: Historische Verkaufsinformationen

Recommender-Systeme können die gesamten in der Organisation angefallen Informationen auswerten und dem Verkaufsmitarbeiter automatisiert vor seinem Termin bei Firma 1 eine Liste mit Produkten erstellen, für die sich Firma 1 mit hoher Wahrscheinlichkeit interessiert. Dabei kann das System sowohl Ähnlichkeiten zwischen Kunden

  • Firma 1 und Firma 2 haben beide Werbeplätze in Zeitung X und Firma 2 zusätzlich Werbeplätze in Zeitung Y und Zeitung Z gekauft, also empfehle Firma 1 auch Zeitung Y und Zeitung Z

und zwischen Produkten

  • Zeitung Y und Zeitung Z sind ebenfalls Print-Medien und wurden mit Zeitung X zusammen gekauft, Online-Portal X enthält ähnliche Inhalte wie Zeitung X, also empfehle auch Zeitung Y, Zeitung Z, Online-Portal X

berücksichtigen.

Wie liefert ein Recommender-System optimierte Produktvorschläge?

Recommender-Systeme automatisieren die obigen Überlegungen im großen Stil. Sie sind in der Lage selbstständig wesentliche Zusammenhänge zwischen Kunden und Produkten zu erkennen und damit zuverlässige Vorhersagen für den Abschlusserfolg zu generieren. Zusätzlich zu den in Tabelle 1 dargestellten historischen Verkäufen und Verkaufsversuchen können beliebige weitere Kunden- und Produktinformationen in die Modellbildung einfließen. Ein Recommender-System bietet hierbei den großen Vorteil, dass es im Gegensatz zum menschlichen Entscheider prinzipiell beliebig große Daten- und Informationsmengen umfassend auswerten kann. Somit kann es auch Muster berücksichtigen, die erst durch die Analyse einer großen Zahl von Datenpunkten sichtbar werden. Zusätzlich trifft das System Vorschlags-Entscheidungen rein basierend auf der Daten-Faktenlage und ist im Gegensatz zum Bauchgefühl der Verkaufsmitarbeiter immun gegenüber kognitiven Verzerrungen. Nichtsdestotrotz liefern die Erfahrung und das Bauchgefühl der Verkaufsmitarbeiter wertvolle Erkenntnisse und können in hybriden Entscheidungssystemen berücksichtigt werden. 

Abbildung 2: Technischer Aufbau eines Recommender-Systems

Das Kernstück des Recommender-Systems ist ein Machine-Learning Modell, das trainiert wird um aus der Eingabe von Kunde und Produkt einschließlich zugehöriger Merkmale einen Score, wie z.B. die Verkaufs-Wahrscheinlichkeit oder den beim Kunden zu generierenden Umsatz mit diesem Produkt, zu berechnen. Basierend auf diesem Modell wird für einen Kunden ein Produkte-Ranking erstellt, indem für diesen Kunden der Score mit jedem Produkt berechnet und die Produkte nach dem Score sortiert werden. Der Output des Recommender-Systems, der dem Verkaufsmitarbeiter als Grundlage für die Vorbereitung des Termins bei Firma 1 dienen kann, könnte dann zum Beispiel wie folgt aussehen:

Rank Produkt Verkaufs-Wahrscheinlichkeit
1 Zeitung X 92%
2 Zeitung Z 63%
3 Zeitung Y 57%
4 Online-Plattform X 23%
5 Online-Plattform Z 8%

Tabelle 2: Ranking-Output des Recommender-Systems

Wie stark automatisiert diese Rankings am Ende in die Prozesse der Verkaufsorganisation eingebunden werden, können das Medienhaus und die Verkaufsmitarbeiter selbst entscheiden. Es kann direkt verwendet werden um zentral zu planen, welche Kunden mit welchen Produkten angesprochen werden, oder aber den Verkaufsmitarbeitern als Ergänzung zu ihren eigenen Einschätzungen bei der Verkaufsplanung dienen.

Welche weiteren Vorteile bietet der Einsatz eines Recommender-Systems?

Zusätzlich dazu, dass ein Recommender-System automatisiert Verkaufs-Wahrscheinlichkeiten liefert, kann es auch dabei helfen das Kaufverhalten der Kunden besser zu verstehen. Anhand des Outputs und der Zwischenergebnisse des Machine-Learning Modells können Kaufmuster aufgedeckt und homogene Kunden- und Produkt-Cluster identifiziert werden. Das folgende Bild zeigt beispielhaft die von einem Neuronalen Netz gelernten Produkt-Vektoren, so dass nahe bei einander liegende Punkte Produkte repräsentieren, die von gleichen Kunden gekauft werden. Dies erlaubt tiefe Einblicke in die Struktur des Produktportfolios rein auf Basis des Kaufverhaltens.

Abbildung 3: Darstellung der gelernten Ähnlichkeiten der Produkte (Farben entsprechen Produktgruppen und Kreisgrößen dem Gesamt-Umsatz mit diesem Produkt)

Darüber hinaus können weitere Daten-Analyse- und Clustering-Methoden genutzt werden, um das Kaufverhalten der Kunden besser zu verstehen. Besonders hervorzuheben ist dabei die Methode der Assoziationsanalyse, bei der automatisiert Regeln der Form „Wenn Zeitung X und Zeitung Y gekauft wurden, wird mit Wahrscheinlichkeit 87% auch Zeitung Z interessant sein“ gelernt werden können. Basierend auf diesen Regeln kann der Algorithmus dann Empfehlungen generieren. Zum Beispiel würde er Kunden, die Zeitung X und Zeitung Y gekauft haben, auch Zeitung Z vorschlagen. Dieser Algorithmus erstellt also nicht nur Empfehlungen “Kaufen Sie Zeitung Z”,  sondern er kann auch zusätzlich Begründungen “Wenn Zeitung X und Zeitung Y gekauft wurden, wurde oft auch Zeitung Z gekauft” für diese Empfehlungen liefern. Somit können tiefe Einblicke in die Kaufmuster gewonnen werden und die Produktempfehlungen sind einfacher zu plausibilisieren.

Recommender-Systeme und Machine-Learning-Tools können über die oben diskutierte Erstellung von Kunden-individuellen Produkte-Rankings hinaus noch weitere Aufgaben in der Steuerung der Verkaufsorganisation übernehmen. So kann zum Beispiel auch vorhergesagt werden, wann welche Kunden kontaktiert werden sollten, mit welcher Frequenz Kunden betreut und über welche Kanäle (Tele-Sales, persönlicher Besuch) optimal angesprochen werden können. Zudem können Kunden-individuell optimierte Preise und Rabatte bestimmt werden. Die Qualität dieser Vorhersagen hängt dabei stark von der vorhandenen Datenlage ab. Solange aber die endgültigen Entscheidungen bei menschlichen Entscheidungsscheidungsträgern liegen und der Output von Recommender-Systemen lediglich bei der Entscheidungsfindung unterstützt, können von Algorithmen aufgedeckte Zusammenhänge die Verkaufsplanung verbessern, ohne dass nicht erkannte Muster, die jedoch den Verkäufern durch ihre Erfahrung bekannt sind, ignoriert werden. Ein großer Vorteil von Machine-Learning Systemen ist auch, dass diese sich mit der Zeit weiterentwickeln, d.h. mit dem Zufluss neuer Daten lernen sie Zusammenhänge immer besser zu erkennen und Vorhersagen immer präziser zu treffen.

#DataDeepDive – dpa Hackathon mit Schickler Data Science Team

Unter dem Motto #DataDeepDive fand vom 29. November bis 1. Dezember bereits zum dritten Mal der dpa Hackathon im Newsroom der deutschen Presseagentur (dpa) in Berlin statt. Ziel war es, datengetriebene Lösungen zu entwickeln, um die Arbeit der Journalisten im dpa-Newsroom zu erleichtern und neue datenbasierte Produkte oder Produktverbesserungen für die Nachrichtenagentur zu kreieren. Die behandelten Themen umfassten unter anderem die automatisierte Erstellung von journalistischen Inhalten in Text und Graphiken (Robot Journalism), die Auswertung und Erkenntnisgewinnung aus öffentlichen Datenquellen (Public Data) und die Verwendung von Nutzerdaten zur optimalen Ausspielung von Inhalten (DataDriven-Publishing).

Abbildung 1: Logo des Hackathons

Das Format des Hackathons und die bunte Mischung von circa 80 Teilnehmen aus den Bereichen Software-Entwicklung, Journalismus und Data Science boten optimale Voraussetzungen für die Entwicklung innovativer Ideen. Zudem bekamen die Teilnehmer von den dpa-Mitarbeitern im Newsroom direkte Einschätzungen zur Umsetzbarkeit und zum Nutzen ihrer Konzepte.
Nur 50 Stunden hatten die Teilnehmer Zeit um von den ersten Ideen bis zum finalen Pitch tragfähiger Konzepte und zur Vorstellung funktionsfähiger Prototypen zu gelangen. Trotzdem haben sich insgesamt 11 Teams gefunden, denen es in dieser kurzen Zeit gelungen ist 11 Projekte zu erarbeiteten, die aufzeigen wie die Zukunft redaktioneller Arbeit und journalistischer Produkte aussehen könnte.

Mit Robot Journalism werden automatisiert Texte und Graphiken erstellt

Die Teams Regio Reports und Loki beschäftigten sich mit der Frage, wie Lokaljournalisten aus großen öffentlichen Datensätzen, wie sie zum Beispiel das statistische Bundesamt regelmäßig veröffentlicht, mit geringem Aufwand für ihre Region relevante Einsichten gewinnen können. Sie entwickelten Algorithmen, die automatisiert Zusammenfassungen und Graphiken für jede Region erstellen und diese an die Lokalredaktionen versenden. Das Team Loki programmierte zudem einen Chatbot, über den Journalisten entsprechende Inhalte anfragen können und der diese dann automatisiert bereitstellt. Das Team Regio Reports wurde für sein Konzept mit dem Preis Best of API Prototype ausgezeichnet.

Abbildung 2: Das Team VizGov gewinnt den Preis Best Overall (Foto dpa)

Das Team VizGov, das mit dem Preis Best Overall ausgezeichnet wurde, konnte die Jury mit einem Programm überzeugen, das automatisiert Bundestagsprotokolle auswertet. So kann das Tool zum Beispiel feststellen, welche Fraktion für die meisten Zwischenrufe verantwortlich ist oder welcher Abgeordnete bei seinen Redebeiträgen den meisten Applaus oder die meisten Lacher erntet. Auch das Team VizGov programmierte einen Chatbot, dem Journalisten solche Fragen stellen können und der dann automatisiert die erfragte Information aus den Protokollen extrahiert.
Journalisten bietet sich eine Vielzahl von Möglichkeiten einen Text oder eine Graphik zu gestalten. Oft jedoch fehlt die nötige Information darüber, welche Form dem Leser am besten gefallen wird. Einen interessanten Workaround für dieses Problem entwickelte das Team Fluid Articles. Es kreierte ein Tool zur Erstellung interaktiver Graphiken, die der Nutzer selbst verändern kann. Anhand der Veränderungen der Graphik durch die Nutzer lernt der Algorithmus welche Darstellung den Nutzern am besten gefällt und präsentiert neuen Nutzern eine überarbeitete Darstellung. Potentiell ist ein ähnliches Konzept auch für Textinhalte denkbar. So können zum Beispiel Textteile, bei denen ein Nutzer das Lesen abbricht, automatisiert überarbeitet werden.

Smarte Algorithmen erleichtern die Arbeit in der Redaktion

Redaktionen stehen bei der Erstellung journalistischer Inhalte permanent unter Zeitdruck. Viele Teams suchten deswegen nach Lösungen um die Arbeit der Journalisten zu erleichtern und zu beschleunigen. Das Team Robocop beschäftigte sich mit dem Problem, dass täglich hunderte von Pressemitteilungen in Redaktionen eingehen und manuell die berichtenswerten Mitteilungen herausgefiltert werden müssen. Für die Entwicklung eines Algorithmus, der automatisiert Polizeiberichte scannt und nach ihrer Wichtigkeit sortiert, wurde das Team mit dem Preis Most Innovative ausgezeichnet. Weitere denkbare Anwendungen des Algorithmus umfassen die automatisierte Prüfung beliebiger Pressemitteilungen auf Relevanz oder das Durchsuchen von Social Media Feeds nach berichtenswerten Ereignissen.

Abbildung 3: Das Team Robocop bei der Arbeit (Foto dpa)

Um Journalisten bei der Recherche zu unterstützen, entwickelte das Team Context ein Programm, das die Berichterstattung über eine Person auswertet und visualisiert. So wird auf einen Blick deutlich, in welchem Kontext eine Person in der Vergangenheit im öffentlichen Interesse stand. Der Algorithmus kann zudem angepasst werden um die Berichterstattung über Organisationen, Länder, Orte und ganz allgemein Themen zu visualisieren.
Ein weiterer wichtiger Punkt für die Produktion qualitativ hochwertiger journalistischer Inhalte ist die Verifizierung von Quellen. Das Team veri easy entwickelte hierfür einen Algorithmus, der die Echtheit von Fotos analysiert. Mit dem Ziel Nachrichtenhäusern Fotos und Videos schneller zur Verfügung zu stellen kreierte das Team Crowdforce eine App, über die sowohl professionelle Fotografen als auch Amateure ihr Bildmaterial anbieten können. Journalisten können in der App dann mit Hilfe von Stichworten, Zeit- und Ort-Restriktionen passendes Material finden.

Durch DataDriven-Publishing werden Leser optimal angesprochen

Bei digitalen Medieninhalten besteht die Möglichkeit eine Vielzahl an Nutzungsparametern wie Leserzahl, Lesedauer und Lesetiefe zu erfassen. Basierend auf diesen Werten können Inhalte optimiert oder Leser-individuell ausgespielt werden. Im Gegensatz zu den Medienhäusern, die die Inhalte direkt an die Leser weitergeben, verfügt die dpa als Nachrichtenagentur, die ihre Inhalte an die Medienhäuser verkauft, allerdings nicht über diese Informationen. Deswegen entwickelte das Team HillSight ein Kooperationsmodell zur Weitergabe relevanter Performance-Parameter von den Medienhäuser an die dpa. Die dpa kann mit Hilfe dieser Informationen ihre Inhalte optimieren und ein werthaltigeres Produkt anbieten. Die Medienhäuser profitieren von der Kooperation dadurch, dass sie für die Erreichung ihrer strategischen Ziele wie Reichweite und Paid-User-Conversion maßgeschneiderte Inhalte erhalten.
Um möglichst vielen Artikeln eine interessierte Leserschaft zu verschaffen, entwickelte das Team Fair chance ein Recommender System für Online-Artikel. Das Team Vor der Tür entwickelte ein Content-Portal, auf dem auf Nachbarschaftsebene interessante Nachrichten gesammelt werden. Über das Portal können lokal relevante Nachrichten, Veranstaltungsinformationen und viele weitere Inhalte sowohl von kommerziellen Anbietern als auch von Privatpersonen geteilt werden. Die Nutzer können selbst steuern über welche Inhalte sie durch das Portal informiert werden möchten.

Schickler begleitete den Hackathon als Sponsor und war mit dem Data Science Team vor Ort. Amr Rekaby Salama und Ole Martin fungierten als Mentoren und unterstützten die Teams bei technischen und konzeptionellen Fragestellungen. Dr. Christoph Mayer war als Jury-Mitglied bei der Auswahl der besten Beiträge beteiligt.

“Andere Kunden kauften auch…” – wie Recommender-Systeme zu mehr Umsatz führen

Amazon generiert 35% seines Umsatzes und Netflix 75% der Reichweite seiner Inhalte ausschließlich durch die Nutzung von Recommender-Systemen! Lernen Sie im folgenden Artikel, was Recommender-Systeme sind, was für Einsatzmöglichkeiten sich für Recommender-Systeme in Medienunternehmen bieten und welche Chancen durch ihre Nutzung realisiert werden können.

Was sind Recommender-Systeme?

Kunden oder Nutzer stehen häufig vor einer großen Auswahl an Produkten oder Inhalten. Ihre Kauf- oder Nutzungsentscheidung hängt dann maßgeblich davon ab, dass sie die für sie interessanten Produkte und Inhalte möglichst schnell und mit geringem Aufwand herausfiltern können.  Dabei helfen Recommender-Systeme (dt. Empfehlungsdienste oder Vorschlagssysteme). Das sind algorithmenbasierte Systeme, die für jeden Kunden automatisiert die Produkte auswählen können, die ihn mit hoher Wahrscheinlichkeit interessieren. Die Systeme lernen aus historischen Verkaufsdaten, Kunden- und Produktinformationen, für welche Kunden welche Produkte oder Inhalte besonders interessant sind. Sie erstellen automatisiert für jeden Kunden Rankings und können so den Prozess der optimalen Zuordnung von Kunde und Produkt bzw. Inhalt unterstützen.

Abbildung 1: Prinzipielle Funktionsweise von Recommender-Systemen

Amazon und Co. – die Großen machen es vor

Prominente Unternehmen zeigen, was für ein enormes Potential Recommender-Systeme bieten: Amazon zum Beispiel generiert 35 Prozent seines Umsatzes über Käufe, die durch Produktvorschläge ausgelöst wurden. 75 Prozent der Filme und Serien bei Netflix werden gesehen, weil sie das hauseigene Recommender-System vorgeschlagen hat. Die Online-Werbeeinnahmen von Medienunternehmen skalieren hauptsächlich mit der Reichweite und Nutzungsdauer von Online-Inhalten. So zeigt insbesondere das Netflix-Beispiel, welche Chancen Recommender-Systeme Medienunternehmen bieten, ihre Umsätze zu steigern. Heutzutage nutzen die meisten Menschen täglich Suchmaschinen wie Google. Sie sind im Wesentlichen nichts anderes als riesige Recommender-Systeme, die zu Suchbegriffen passende Webseiten vorschlagen. Die meisten Kunden von Medienhäusern sind zudem mit Vorschlagssystemen aus dem Onlinehandel und von Unterhaltungsplattformen wie Netflix, Youtube und Spotify bestens vertraut – und schätzen deren Vorzüge. Folglich ist das Risiko, dass eigene Systeme wenig oder schlecht angenommen werden, verhältnismäßig gering.

Abbildung 2: Artikelvorschlagssystem von Amazon

Die Einsatzbereiche in Medienhäusern sind vielfältig

Gerade in Medienhäusern ist mit Recommender-Systemen viel möglich: So können zum Beispiel Cookies oder User-Accounts tracken, welche Nutzer welche Inhalte auf Online-Nachrichtenseiten lesen. Basierend auf diesen Informationen können dann automatisiert nutzerspezifische Inhalte vorgeschlagen werden – so dass für den Nutzer beispielsweise am Ende eines Artikels weitere für ihn interessante Artikel verlinkt sind oder individuelle Startseiten für ihn erstellt werden. Weiterhin können Recommender-Systeme dabei helfen, welche Nutzer welche Werbung über Pop-Ups oder Banner zu sehen bekommen. Werbung, die mit hoher Wahrscheinlichkeit für den Nutzer relevant ist, kann die Click-Through-Raten und damit auch die Werbeeinnahmen massiv erhöhen. Im Kundenservice können Recommender-Systeme automatisiert Lösungen für eingehende Anliegen vorschlagen. Sie können dann entweder direkt an den Kunden gesendet werden oder den Service-Mitarbeiter bei der Kundenberatung unterstützen. Weiterhin stehen Mitarbeiter in der Verkaufsorganisation von Medienhäusern täglich vor der Entscheidung, an welche Kunden sie mit welchen Produkten herantreten. Oft entscheiden sie dann basierend auf persönliche Erfahrungen. Ein Recommender-System kann die Erfahrungen aller Mitarbeiter für die gesamte Organisation zugänglich machen, den Mitarbeitern bei der Entscheidung helfen und neue Zusammenhänge aufdecken (Vgl. Christoph Mayer, Künstliche Intelligenz und Maschinelles Lernen: Hintergrund, Anwendungsfälle und Chancen für Medienunternehmen, erschienen in MedienWirtschaft 03/2018).

Immer niedriger: die technischen Hürden

Obwohl man den Einsatz hochentwickelter Machine-Learning-Methoden, wie sie bei Recommender-Systemen verwendet werden, hauptsächlich mit führenden Technologie-Unternehmen aus dem Silicon Valley verbindet, sind die Hürden für die Einführung von Recommender-Systemen überraschend niedrig. Als Datengrundlage reichen bereits einfache Aufzeichnungen darüber, welcher Kunde in der Vergangenheit welche Produkte gekauft bzw. welche Inhalte konsumiert hat. Die Einbeziehung weiterer Kunden- und Produktinformationen kann die Qualität von Recommender-Systemen zusätzlich verbessern. Schickler-interne Untersuchungen basierend auf realen Datensätzen haben aber gezeigt, dass bereits ausschließlich auf der Verkaufshistorie trainierte Systeme sehr gute Ergebnisse liefern können. Zudem können Systeme variabel aufgesetzt werden, so dass neu verfügbare Kunden- und Produktdaten später ergänzt werden können. Zusätzlich dazu, dass die benötigten Daten oft schon vorhanden sind, wird auch das Aufsetzen der Algorithmen immer einfacher. Zum einen gibt es mittlerweile eine sehr hohe Verfügbarkeit von Machine-Learning APIs, die viele vorgefertigte Programmbausteine beinhalten und somit die Entwicklung entsprechender Recommender-Systeme massiv beschleunigen können. Zum anderen stehen Cloud-Services wie Amazon Web Services für einen flexiblen und kostengünstigen Betrieb dieser Systeme zur Verfügung.

Fazit: Ergreifen Sie die Chancen

Medienhäusern bieten sich durch den Einsatz von Recommender-Systemen vielseitige Möglichkeiten um Umsätze zu erhöhen und Prozesse effizienter zu gestalten. Zusätzlich können dabei die Kundenzufriedenheit durch ein individuelleres und gezielteres Angebot gesteigert und Mitarbeiter in ihrer Arbeit entlastet und unterstützt werden. Die oben genannten Anwendungsbeispiele umfassen nur einen Ausschnitt potentieller Einsatzmöglichkeiten von Recommender-Systemen. Viele weitere Anwendungen insbesondere auch unter Einbeziehung weiterer Data-Science Methoden sind denkbar. Im Zeitalter der Daten sind, zumindest unter der Voraussetzung von entsprechender Datenverfügbarkeit und Integrierbarkeit von automatisierten Lösungen in bestehende Systeme, weiteren Anwendungen kaum Grenzen gesetzt.

Wenn Sie neugierig geworden sind, Fragen haben oder einfach mehr wissen möchten, steht Ihnen das Schickler Data-Science-Team gerne zur Verfügung: datascience@schickler.de