Center-Based Clustering: KI-Regeln für Fair Play

Künstliche Intelligenz, Data Science

Faires-Clustering-Center-based-bild

Künstliche Intelligenz (KI) erleichtert uns in immer mehr Fällen das Leben. Gerade wenn es um große Datenmengen geht, können Algorithmen diese gut clustern und uns passende Ergebnisse und Analysen liefern. Doch wer sagt eigentlich, dass KIs immer fair und unabhängig sind? Unser Kollege Mustafa Yalciner erklärt die Problematik und stellt mit dem Center-Based Clustering bzw. Fair Clustering einen Lösungsansatz vor.

Haben Sie mal für „deutsche Frauen“, „Flugbegleitung“ oder „CEO“ eine Google-Bildersuche durchgeführt?

Sie werden sehen, dass die „deutsche Frauen“ fast ausschließlich blond sind und nicht selten mit Bierkrug in der Hand. Zwar bezeichnen in Deutschland (je nach Region) zwischen 40 und 50 Prozent der Frauen ihre Haarfarbe als blond, das ist jedoch kein Grund dafür, dass die übrigen 50 bis 60 Prozent mit braunen, schwarzen, roten oder andersfarbigen Haaren gar nicht oder nur sehr marginal vorkommen.

Glaubt man den Ergebnissen der Google-Bildersuche, sind Flugbegleitungen auch fast ausschließlich weiblich, obwohl inzwischen ca. 30 % der Flugbegleiter männlich sind und für das Suchwort „CEO“ gab es 2015 in den USA eine Studie, die sich mit der ungleich höheren Sichtbarkeit von Männern im Vergleich zu Frauen bei Google-Bildern in beschäftigt hat.

Dies sind vergleichsweise harmlose Beispiele dafür, wie künstliche Intelligenzen über eine getroffene Auswahl aus Datensätzen Einfluss nehmen können.

Die Gründe für diese unfairen, teilweise diskriminierenden Ergebnisse der KI sind nicht bekannt, da in diesem Beispiel die Arbeitsweisen und Ziele des Google-Algorithmus nicht bekannt sind. Es gibt jedoch vielfältige Möglichkeiten: Zum Beispiel bereits bestehende Verzerrungen im verfügbaren Datensatz insgesamt oder der Algorithmus orientiert sich historischen Klickverhalten der User – in diesem Fall würden gesellschaftliche Vorurteile („deutsche Frauen sind blond“) dazu führen, dass oft Bilder mit blonden Frauen angezeigt werden. Und dann würden in Zukunft immer seltener Bilder mit nicht-blonden Frauen bei diesem Suchbegriff angezeigt. Ein Teufelskreis.

Generell gilt, wenn Einträge einer Datenbank einen Bezug zu echten Menschen haben, dann können Entscheidungen einer KI das Leben dieser Menschen nachhaltig beeinflussen. Dies ist kein neues Problem und in Bezug auf überwachtes maschinelles Lernen gibt es bereits jahrelange Forschung und auch praktische Umsetzung.

Moderne Algorithmen setzen jedoch auf unüberwachtes Maschinelles Lernen (Maschine Learning, ML). In diesem Bereich sind Fairnessgarantien noch relativ neu. Im Bezug auf das unüberwachte maschinelle Lernen spricht man von Clustering. In der aktuellen Forschung liegt der Fokus vor allem darauf, die klassischen, sogenannten Center-Based-Clustering-Algorithmen, um die Fairnessgarantie zu erweitern.

Was ist Center-Based-Clustering?

Das Ziel beim Center-Based-Clustering (auch Fair Clustering) ist es, eine Teilmenge der Datenpunkte zu finden, die den gesamten Datensatz am besten repräsentiert. Diese Teilmenge nennt man Center. Jedes Center repräsentiert eine Teilmenge des Datensatzes, auch Cluster genannt.

Im Jahre 2017 wurde zum ersten Mal von Wissenschaftlern bei Google und der Universität Sapienza, Clustering mit einer spezifischen Fairnessanforderungen betrachtet. Unter der Annahme, dass für alle Datenpunkte (welche Menschen repräsentieren) zusätzlich eine Zugehörigkeit zu einem sogenannten geschützten Attribut vorhanden ist, bspw. Hautfarbe / Religionszugehörigkeit / Geschlecht, wurde die Fairnessanforderung so formuliert, dass jedes Cluster ungefähr die gleiche Diversität hinsichtlich des geschützten Attributs aufweist. Das Attribut kommt also innerhalb der Auswahl ähnlich oft vor wie in der Grundgesamtheit des gesamten Datensatzes.

Vereinfacht ausgedrückt sollte eine Google-Suchanfrage für „Flugbegleitung“ wie eingangs erwähnt ca. 30 % männliche Flugbegleiter zeigen, da dies deren Anteil in der Realität widerspiegelt. Dabei ist natürlich eine Herausforderung, dass der Ausgangsdatensatz repräsentativ ist.

Dies ist nur ein Beispiel dafür, wie eine Fairnessanforderung an einen Clustering-Algorithmus definiert werden kann.

Die Forschung liefert, die Praxis schläft (noch?)

Generell setzt sich die Forschung zum Thema faires Clustering aus zwei Fragen zusammen:

Wie definiere ich Fairness?
Wie garantiere ich diese Fairnessanforderung?

Ist der erste Schritt gemacht und eine Fairnessanforderung erst mal definiert und publiziert, entsteht in vielen Fällen schnell ein Rennen um den besten Algorithmus unter Wissenschaftler:innen. Folglich gibt es in der wissenschaftlichen Community für viele der bisher veröffentlichten Fairnessanforderungen auch effiziente Algorithmen, die als Proof of Concept auch in der Praxis eingesetzt werden könnten (1,2,3,Übersicht)

Genau diese Umsetzung in der Praxis ist jedoch aktuell der Schwachpunkt. Das war zumindest das Fazit führender Wissenschaftler:innen auf der diesjährigen 25. internationalen Konferenz zu künstlicher Intelligenz und Statistik (AISTATS 2022) in Valencia. Das Bedürfnis nach Fairness und damit die Fairnessanforderungen sind zwar aus wissenschaftlicher Sicht sinnvoll und gut durchdacht, ist jedoch selten aus der Praxis motiviert. Die Folge: Die Arbeiten werden nicht in praktische Projekte umgesetzt, sie „verstauben“ nach der Veröffentlichung in digitalen Archiven und Algorithmen arbeiten weiter unfair und unter Umständen diskriminierend. Zudem kann es juristisch relevant werden (1,2) oder Produkte auch hier wie bei klassischen ML-Algorithmen generell bekannt ist, für bestimmte Bevölkerungsgruppen nicht richtig funktionieren und ein mediales Echo verursachen (Face-ID in China).

Fazit: Jetzt sind die Unternehmen am Zug

Künstliche Intelligenz bietet unwahrscheinlich viele Möglichkeiten für die Wirtschaft und die Gesellschaft. Doch viele Entscheider:innen in Unternehmen sind auch skeptisch gegenüber den Algorithmen und ihrer auf den ersten Blick undurchsichtigen Arbeitsweise. Daher ist es wichtig, KI bewusst einzusetzen. Neben dem auf Fairness ausgerichteten Center-Based-Clustering ist auch Explainable AI (XAI) ein Ansatz, der das systematische Erklären und Validieren des maschinellen Lernens unter Einbeziehung der Anwender:innen verfolgt und so für Transparenz und nachvollziehbare Entscheidungen sorgt.

Bei allen Fragen rund um den Einsatz von Künstlicher Intelligenz steht Ihnen die viadee gerne als Ansprechpartner zur Verfügung. Als ersten Schritt empfehlen wir unsere Seminare Künstliche Intelligenz verstehen für IT- und BI-Architekten und Prozessanalysten sowie Künstliche Intelligenz – was Führungskräfte wissen müssen.

Forschung und Praxis verbinden: Arbeiten bei der viadee

Der Autor Mustafa Yalciner hat schon als Student wissenschaftlich an dem Thema individuelles faires Clustering (Videopräsentation) gearbeitet, auch als IT-Berater der viadee beschäftigt er sich weiter mit dem Themengebiet . Für interessierte Studierende bietet die viadee regelmäßig Praktika, Werksstudent:innen-Stellen und Themen für betreute Abschlussarbeiten. Mehr und alle ausgeschriebenen Stellen finden Sie im Bereich Karriere.