Machine Learning ist berüchtigt dafür Geschlechter-Vorurteile weiterzutragen. Brechen wir doch mal eines auf.
Amazons Recruiting-KI hat nachweisbar Bewerberinnen diskriminiert, weil sie in der Unterzahl waren. Fairness gilt es aber nicht nur bei großen Projekten dieser Art einzufordern, sondern im Alltag: zum Beispiel bei jedem geschriebenen Text. Welchen Lösungsbeitrag können moderne NLP-Verfahren hier leisten?
Problem: Gewohnheiten überwinden
Das generische Maskulinum kommt oft nicht so generisch an, wie es gemeint ist. Während die Debatte um die gendergerechte Sprache und verschiedene Schreibeweisen von möglichst inklusiven Begriffen noch emotional geführt wird, möchten wir gern das grundlegende Problem adressieren: Zunächst fehlt es an Aufmerksamkeit und die eigenen Gewohnheiten stehen uns im Wege, auch wenn wir uns mit unseren Texten an alle Geschlechter in fairer Weise richten möchten.
Gerade in der IT produzieren wir große Mengen von Texten, die unter Fairness-Aspekten zu hinterfragen sind. Besonders brisant:
- Dokumentierte Geschäftsprozesse
- Fachkonzepte
- User-Stories
- Dokumentation und Hilfetexte
- Teile von User-Interfaces
- Automatische Benachrichtigungen aller Art
- Rollen und Rechte-Konzepte
- ...
Viele der Texte, die in der IT entstehen, sind besonders wirksam darin, den Alltag von anderen Menschen zu formen: Sie gestalten die Geschäftsprozesse und Apps, in denen digitaler Alltag stattfindet und viele unserer Arbeitsplätze. Oft beginnt man hier auch nicht auf der grünen Wiese und erbt Altlasten gleich mit. Diese Texte verdienen besondere Aufmerksamkeit – aus ethischen Gründen und um nicht 50% der Kundschaft abzuschrecken.
Lösungsansatz: Fairtext mit NLP?
Wir im F&E-Bereich Data Science der viadee haben uns dazu etwas ausgedacht: Wir markieren durch KI-Verfahren in Texten die Stellen, an denen es sich lohnt über Fairness nachzudenken. Wir verändern aber erst einmal nichts am Text:
Beispiel:
Die Berater unterstützen den Kunden zuverlässig bei den Projekten.
Auf diese Weise lassen sich:
- größere Mengen Texte insb. auf Gendering-Optionen durchsuchen und bewerten (Batch)
- gerade entstehende Texte prüfen und eigene Gewohnheiten positiv zu verändern (interaktiv)
Die Entscheidungshoheit bleibt da, wo sie hingehört. Es wird aber Zeit und Geld für ein Lektorat gespart, das im Zweifel nicht auf Dokumentenmengen dieser Art anwendbar gewesen wäre.
Der Prototyp ist aus einer Werkstudierenden-Tätigkeit entstanden. Im Video erklären Luzia Tinten und Lennart Seeger alles noch einmal im Zusammenhang:
Nächste Schritte - Ihr Anwendungsszenario
Die Lösung liegt aktuell als aufrufbarer Web-Service vor. Wir planen jetzt die nächsten Schritte und verstehen diesen Blogpost als Produkt-Pitch: Wir brauchen Ihr Feedback, um zu entscheiden, wie es mit dem Prototypen weitergeht!
Der Nutzen der Idee wäre vermutlich maximal, wenn sie direkt in die Werkzeuge integriert wäre, in denen die für Sie relevanten Textelemente entstehen – vermutlich ist eine Integration einfach möglich:
- In ein Confluence-Plugin, weil die meisten IT-Konzepte, Prozesse und User-Stories ohnehin dort entstehen?
- Als Wordpress-Plugin für Ihre Außenkommunikation auf Webseiten und im Content-Management?
- In Ihrer Individualsoftware für Sachbearbeiter:innen und Service-Kräfte?
Es könnte ein Produkt oder ein per-use-Cloudservice daraus werden oder etwas Individuelles... sprechen wir über Ihre Ideen dazu!
Hinter den Kulissen - Fair Stemming?
Die verwendeten KI-Verfahren sind etablierte Tools, oft aus der Open Source-Community. Eine sehr grundlegende Funktion, die man als ersten Verarbeitungsschritt für Anwendungen dieser Art braucht, ist das sog. Stemming. Das sind Algorithmen zur Reduzierung von Wörtern auf ihren Wortstamm. Das Ziel ist es Wörter, wie beispielsweise „Kunde“ und „Kundin“, auf den gemeinsamen Wortstamm „kund“ zu reduzieren - und nur diesen zu interpretieren und in nachgelagerten Schritten darauf automatisch zu reagieren.
Einer der maßgeblich prägendsten Algorithmen in dem Bereich ist der Stemmer von Porter aus dem Jahr 1980. Die Idee ist, dass jedes Wort hinter dem Grundstamm noch optional unterschiedliche Endungen haben kann. Das Verfahren besteht daher aus einer endlichen Anzahl an Regeln. Diese werden nacheinander geprüft und angewendet. Beispielsweise besteht der erste Schritt der Ursprungsveröffentlichung daraus, folgende Sequenzen umzuwandeln: "sses" ==> "s", "ies" ==> "i" und "s" ==> "" Diese Regeln sind in Gruppen zusammengefasst, aus denen immer jeweils nur eine Regel auf ein Wort angewendet wird. Dies gewährleistet, dass Gruppen aufeinander aufbauen können und immer nur eine Endung pro Schritt entfernt wird. Wörter, deren Wortstamm zufällig auf eine der im Stemmer betrachteten Endungen endet, werden nicht mit reduziert.
- Haus ==> hau
- Mitarbeiter ==> mitarbeit
- Berater ==> berat
- großartiger ==> großartig
- locker ==> locker
Beim Bau des Prototypen haben wir allerdings ein paar spannende Beobachtungen gemacht.
Problemstellung – Femininer Genus wird nicht korrekt verarbeitet
Der Porter-Stemmer ist der "Klassiker" und legte den Grundstein für viele weitere Stemming-Verfahren. Ursprünglich für die englische Sprache entwickelt, ist es leicht ihn an andere Sprachen zu adaptieren. Es müssen lediglich die Regeln angepasst werden. Somit wurden in den letzten Jahren immer wieder neue Stemming-Algorithmen auch für die deutsche Sprache präsentiert. Während sie grundsätzlich solide Ergebnisse liefern, berücksichtigen sie einen Bestandteil deutscher Sprache nicht: weibliche Wortformen. Besonders heutzutage eine Eigenschaft, die nicht mehr vertretbar ist.
Um das Ausmaß des Problems der Stemming-Algorithmen aufzuzeigen, haben wir das Verfahren zum Stemming von Porter und das darauf aufbauende Snowball-Stemming, ein eigentlich für die deutsche Sprache optimiertes Verfahren basierend auf dem Porter-Stemmer, und einem neueren Ansatz der Universität München namens CISTEM verglichen.
Ein Experiment - Wie groß ist das Problem?
Als Datengrundlage für den Vergleich wird die aktuelle Liste der Ausbildungsberufe der Agentur für Arbeit mit insgesamt 347 anerkannten Ausbildungsberufen in Deutschland mit den jeweiligen weiblichen und männlichen Jobbezeichnungen herangezogen.
Ziel eines Stemmers ist es, Wörter auf ihre einheitliche Grundform zu reduzieren. Zu erwarten wäre also, dass nach dem Stemming sowohl die weibliche als auch die männliche Form auf den identischen Wortstamm reduziert wurden. Hierbei muss man sagen, dass nicht zwangsläufig immer der Wortstamm kürzer sein muss als die männliche beziehungsweise weibliche Form eines Begriffs. Es kann vorkommen, dass der Wortstamm exakt mit einer dieser beiden Formen übereinstimmt. Nichtsdestotrotz ist es ein erstes gutes Indiz, ob ein Wort überhaupt vom Stemmer verändert wurde oder unverändert geblieben ist.
Schauen wir uns ein paar Beispiele der 347 Berufsbezeichnungen deutscher Ausbildungsberufe an:
- Identisch reduziert (fehlerfrei)
- Trivial
- Produktionsfachkraft
- Porter, Snowball, Cistem
- Verwaltungsfachangestellter → verwaltungsfachangestellt
- Verwaltungsfachangestellte → verwaltungsfachangestellt
- Trivial
- Männliche Form verändert, weibliche nicht
- Porter
- Keramiker → keramik
- Keramikerin → keramikerin
- Porter
- Weibliche Form verändert, jedoch fehlerhaft
- Cistem
- Winzerin → winzeri
- Cistem
Das Gesamtbild erhält man die in der nachfolgenden Tabelle:
identisch reduziert | männliche Form verändert | weibliche Form verändert | |
Porter | 15 | 259 | 16 |
Snowball | 15 | 223 | 16 |
Cistem | 15 | 251 | 317 |
Die Ergebnisse zeigen, dass für den weit verbreiteten Porter-Stemmer und die für die deutsche Sprache angepasste Version (Snowball-Stemmer) kaum ein Unterschied bei der Anzahl der reduzierten weiblichen Berufsbezeichnungen besteht. Der Cistem Stemmer hingegen schafft es 317/347 Wörter zu reduzieren. Die alleinige Tatsache, dass viele Wörter reduziert wurden, trifft jedoch leider noch keine Aussage in Bezug auf die Qualität der ermittelten Wortstämme. Betrachtet man zunächst die Wörter, welche identisch reduziert wurden, stellt man fest, dass dies vielfach Berufe mit genderneutralen Bezeichnungen sind (beispielsweise Servicefachkraft). Die einzigen korrekt reduzierten Begriffe mit unterschiedlicher männlicher und weiblicher Form enden in der weiblichen Form auf "e" und in der männlichen auf "er". Dies alleine wäre noch nicht problematisch, betrachtet man jedoch die Ergebnisqualität der reduzierten weiblichen und männlichen Formen getrennt, stellt man fest, dass die ermittelten Wortstämme der männlichen Berufsbezeichnungen eine gute Qualität haben. Das Problem ist die Reduzierung der weiblichen Formen.
Die Ergebnisse des Cistem-Stemmers scheinen zwar auch weibliche Endungen zu erkennen und reduzieren zu können, die Anzahl an Wörtern, bei denen auch wirklich auf den gleichen Wortstamm bei der männlichen und weiblichen Form reduziert wird, verdeutlicht jedoch schon, dass das Ergebnis noch weit davon entfernt ist zufriedenstellend zu sein. Das Hauptziel, die weiblichen und männlichen Berufsbezeichnungen auf den gleichen Wortstamm zu reduzieren, ist leider auch hier gescheitert. Bei näherer Betrachtung der weiblichen Formen und ihrer vom Stemming-Algorithmus vorgeschlagenen Reduzierungen, werden die erwarteten Fehler deutlich. Viele weibliche Berufsbezeichnungen haben die Endung "in". Diese wird vom Cistem-Stemmer jedoch nicht vollständig entfernt. Sie wird lediglich auf "i" reduziert. Somit werden die weiblichen Formen zwar erkannt, der nächste Schritt der korrekten Reduzierung findet aber leider nicht statt. Somit konnte in unserem Test keines der analysierten Verfahren im Hinblick auf die Genderfairness überzeugen.
Fazit - Ihre NLP-Pipeline ist vermutlich nicht auf faire, deutsche Texte vorbereitet
Das heißt leider: Je mehr wir deutsche Texte gendern oder im generischen Femininum formulieren, desto öfter stolpern klassische Algorithmen und darauf aufbauende KI-Anwendungen. Diese Algorithmen sind aber die, die man am häufigsten in englischsprachigen Tutorials, Büchern, Beispielen und Open-Source-Werkzeugen findet, auf denen i.A. auch die Cloud-Services für bspw. eine Sentiment-Erkennung aufsetzen.
In den Bereichen der NLP-Verfahren gab es in den vergangenen Jahren große Fortschritte, insbesondere für englische Texte. Während die Systeme technisch immer komplexer und fortschrittlicher werden, wurde der Fairnessaspekt weitgehend vernachlässigt: Wenn schon in Schritt 1 einer typischen NLP-Verarbeitungskette die gängigen, algorithmisch überschaubaren Stemming-Verfahren Ärzte und Ärztinnen, Expertinnen und Experten nicht als in der Sache gleiche Kompetenzträger aufbereiten können, werden die nachfolgenden Schritte es sicher auch nicht können. Genaues Hinschauen lohnt sich oft. Explainable AI auch.
zurück zur Blogübersicht