LLMs als Usability Tester:innen

Wissenschaftliche Arbeiten, Künstliche Intelligenz, Robotic Process Automation, Business Analyse & User Experience

Die Zufriedenheit der Nutzer:innen ist entscheidend für den Erfolg eines digitalen Produkts oder Services. Die User Experience (UX) beeinflusst maßgeblich, ob Nutzer:innen ein Produkt akzeptieren oder es sogar gerne verwenden. Ziel des UX-Designs ist es, unter anderem, digitale Produkte zu entwickeln, die intuitiv, effizient sowie ansprechend sind.

Die Bedeutung von Usability Testing und die Rolle von LLMs

Um eine hohe Benutzerfreundlichkeit sowie eine positive Nutzererfahrung sicherzustellen, ist das Testen der Produkte hinsichtlich dieser Dimensionen unerlässlich. Das kann allerdings sehr aufwendig sein: Während einige Aspekte - wie die Barrierefreiheit und Responsivität - bereits teilweise automatisiert geprüft werden können, erfordern andere Testformate nach wie vor menschliche Tester:innen. Qualitative Usability Tests werden meist mit 5-10 menschlichen Tester:innen durchgeführt, wobei sich diese basierend auf konkreten Aufgaben durch eine Anwendung navigieren und mit der Think-Aloud Methode Feedback zu der Anwendung kommunizieren. Neben dem kommunizieren und beobachten Feedback werden auch die Navigations-Pfade, die Tester:innen gewählt haben, ausgewertet.

Durch den Fortschritt im Bereich der Künstlichen Intelligenz (KI) und der wachsenden Fähigkeit von KI-Modellen, menschliches Verhalten nachzuahmen, lohnt sich eine Untersuchung, wie KI auch im Usability Testing eingesetzt werden könnte. Insbesondere Large Language Models (LLMs) bieten ein großes Potenzial, menschliches Verhalten zu simulieren und dabei sowohl visuelle als auch textuelle Inputs zu verarbeiten. In ihrer Masterarbeit hat Marie Griesbach in Zusammenarbeit mit der Forschungsgruppe “Computational Social Science and Systems Analysis” von der Uni Münster einen Prototypen erstellt.

Eine Prototyp zum Automatischen Usability-Testing

Um LLMs für die Durchführung von Usability-Tests zu nutzen haben wir einen Prototypen erstellt. Ausgehend von einer Webseite nutzt dieser Prototyp ein LLM, um zur Erfüllung einer Testaufgabe automatisch die Nächste von mehreren Interaktionsmöglichkeiten auszuwählen. Hierfür wird eine initiale URL benötigt, durch welche die zu testende Webapplikation erreicht wird. Auf Grundlage von Screenshots trifft das LLM iterativ Entscheidungen für eine Interaktion, wie zum Beispiel das Anklicken eines Buttons, welche dann automatisiert durchgeführt wird. Zu jeder Entscheidung gibt das LLM Introspektionen aus. In diesem Kontext repräsentieren Introspektionen beispielsweise Gedanken, Emotionen, Pain Points sowie positive Erfahrungen. Introspektionen können aber auch Ideen für Ansätze sein, wie die Aufgabe (besser) zu lösen ist. Zusammengefasst gibt das LLM eine Entscheidung für eine Interaktion und die dazugehörige Introspektion aus, wodurch die Ergebnisse hinsichtlich ihres Formats vergleichbar zu den Ergebnissen von Usability Tests mit menschlichen User:innen sind.

Prozess

👤Können LLMs menschliche Nutzer:innen simulieren?

Um zu bewerten, inwieweit die Entscheidungen und Wahrnehmungen von LLMs mit denen von menschlichen Tester:innen vergleichbar sind, wurden verschiedene Tests durchgeführt. Als erste Testinstanz wurde überprüft, inwieweit das LLM Webelemente erkennt, diese korrekt beschreibt und nachvollziehbare Entscheidungen trifft. Diese Tests waren erfolgreich: Es konnte festgehalten werden, dass LLMs genutzt werden können, um relativ verlässlich Aufgaben ohne ein festes Skript auszuführen.

Daraufhin wurde getestet, inwieweit das Verhalten von LLMs menschlichem Nutzerverhalten ähnelt. Zu diesem Zweck wurde der entwickelte Prototyp genutzt, um einen Usability Test durchzuführen, für welchen bereits Ergebnisse mit menschlichen Tester:innen vorliegen. Dabei zeigte sich, dass das LLM weitgehend nachvollziehbare Entscheidungen trifft und zielgerichtet durch die Anwendung navigiert. In den Fällen, in denen der Prototyp die gegebene Aufgabe nicht erfüllen konnte, konnten Usability Probleme identifiziert werden. Dies sind Probleme, die die Fähigkeit der Nutzer beeinträchtigen, ihre Ziele effektiv, effizient und zufriedenstellend zu erreichen.

Beim Vergleich der Ergebnisse der LLM-basierten Usability-Tests mit den Ergebnissen desselben Tests, der von menschlichen Tester:innen durchgeführt wurde, zeigte sich, dass die menschlichen Tester:innen überwiegend andere Usability Probleme identifizierten als die LLMs. Dennoch zeigten die aufgedeckten Probleme nachvollziehbare Fehler im UI, welche behoben werden sollten, da diese andere User verwirren könnten oder nicht dem Best Practice entsprachen. Somit lieferten die simulierten Testergebnisse wichtige Erkenntnisse.

Empfehlungen für den Einsatz von LLMs in Usability Tests

Die Ergebnisse zeigen, dass die Integration von LLMs in Usability Tests signifikante Vorteile bieten kann. Der Einsatz von LLMs sollte derzeit jedoch ergänzend zu menschlichen Tester:innen erfolgen, um ein vollständiges Bild der UX zu erhalten. LLMs könnten zunächst eingesetzt werden, um potenzielle Usability Probleme zu identifizieren, bevor menschliche Tester einbezogen werden. Dies würde Kosten sparen und die Qualität der menschlichen Tests erhöhen, da die Benutzer:innen ein Produkt testen, bei dem die durch LLM-gestützte Tests identifizierten Probleme bereits behoben wurden. Dies schließt auch Probleme ein, die Benutzer daran gehindert haben könnten, alle Aufgaben vollständig auszuführen und das Produkt vollständig zu testen, wie es im Usability Test vorgesehen war.

🔭 Ausblick

Die Ergebnisse zeigen, dass LLMs in der Lage sind, Webelemente zu erkennen und zielbasiert durch Applikationen zu navigieren. Teilweise ist jedoch die Bewertung von einzelnen Elementen herausfordernd. Neben Usability Tests werden Applikationen auch durch Analysen basierend auf Kriterien wie den Usability Heuristiken nach Nielsen getestet. Diese Heuristiken können von einem LLM vermutlich gut geprüft werden, um ergänzend zum Simulieren von Tester:innen aufschlussreiche Ergebnisse zu liefern. Darüber hinaus ermöglicht es der Einsatz von Personas (fiktive Personen, um mehr Perspektiven auf ein Produkt zu gewinnen), dem LLM unterschiedliche Rollen zuzuweisen, wodurch es besser in die Lage versetzt werden könnte, verschiedene Nutzergruppen abzubilden.

Es ist zu erwarten, dass immer mehr Models in der Lage sein werden, UIs zu verstehen und mit diesen zu interagieren. Am 22. Oktober 2024 hat Claude eine Beta Version des Claude 3.5 Sonnet für “Computer Use” veröffentlicht. Das Modell ist zur Automatisierung wiederkehrender Prozesse, zum Entwickeln und Testen von Software sowie zur Durchführung offener Aufgaben wie etwa Recherchen gedacht. Dabei kann das Modell zielbasiert mit Benutzeroberflächen interagieren, wodurch es die optimale Grundlage für den Einsatz im Usability Testing bietet. Zum jetzigen Stand betont Claude die Fehleranfälligkeit der Beta Version, erwartet jedoch schnelle Verbesserung der Fähigkeiten.

Möchten Sie Ihre Anwendungen auch gerne auf Basis von authentischem Nutzerfeedback verbessern und effizient zu aussagekräftigen Ergebnissen kommen?
Möchten Sie gezielt Verbesserungen schaffen, die die Kundenzufriedenheit steigern?