Kommentar zu BSI AIC4

Künstliche Intelligenz, Data Science

AIC4 Kommentar

Mit dem "Artificial Intelligence Cloud Services Compliance Criteria Catalogue" (AIC4) verfolgt das Bundesamt für Sicherheit in der Informationstechnik (BSI) die Absicht, die Informationssicherheit von Künstlicher Intelligenz durch nachvollziehbare Kriterien zu erhöhen – werfen wir einen kritischen Blick auf das Dokument.

Das Bundesamts für Sicherheit in der Informationstechnik (BSI) äußert sich mit dem Kriterienkatalog "Artificial Intelligence Cloud Services Compliance Criteria Catalogue" (AIC4) im Februar 2021 auf 54 Seiten zu den Anforderungen, die insbesondere an die Sicherheit von KI-Anwendungen in der Cloud zu stellen sind, und zu den Rahmenbedingungen einer Prüfung. Systeme mit Künstlicher Intelligenz (KI) werden vermehrt in der Praxis genutzt und bieten neue Angriffspunkte für neue Sicherheitsbedrohungen. Der Kriterienkatalog wurde entwickelt, um die Sicherheit dieser Systeme zu bewerten. Hierbei sollen KI-spezifische Kriterien eine Bewertung in allen Lebenszyklusphasen von KI-Systemen ermöglichen. Der Kriterienkatalog ist an den 2019 aktualisierten C5 Kriterienkatalog zur Sicherheit im Cloud Computing angelehnt. Es werden acht verschiedene Themenbereiche durch die Kriterien abgedeckt: Preliminary Criteria (C5 Kriterienkatalog), Security & Robustness, Performance & Functionality, Reliability, Data Quality, Data Management, Explainability und Bias. Zu diesen Themen werden Ziel, Kriterienvorschläge und weitere Informationen präsentiert.

Sicherheitsbewertung im gesamten Lebenszyklus oder ex-post Absicherung von Entscheidungsträgern?

Grundsätzlich ist die Auseinandersetzung mit dem Themenkomplex zu begrüßen. Doch das Dokument ist umfangreich, wird aber dann nicht konkret - es ist eben auch schwer der Vielzahl von kreativen Ideen und Nutzungsszenarien gerecht zu werden, aber auch den vielen verschiedenen Formen von Arbeits- und Verantwortungsteilung, die sich aus KI / Machine-Learning ergeben.

Allgemein nimmt das Papier implizit eine zu passive Rolle ein: Es gibt keinen Grund die Idee Security by Design nicht auch in KI- oder Cloud/KI-Projekten zu betreiben und in den Vordergrund zu stellen und dabei eine aktive, gestaltende Rolle einzunehmen. Das beschriebene Modell ähnlich einer Wirtschaftsprüfung impliziert dennoch (leider) das späte Ansetzen im Lebenszyklus eines Produktes und wird entsprechend hohe Änderungskosten bzw. kleine Handlungsspielräume nach sich ziehen. Während das Mischen von Datenschutz und Sicherheit schon die Komplexität und die Anforderungen an das für eine Prüfung einzusetzende Audit-Personal erhöht, wird zusätzlich vom Prüfungsteam 3 Jahre oder mehr Erfahrung in der Data Science gefordert. Dies wird voraussichtlich zu dem einen oder anderen Personalengpass und zu hohen Preisen einer Prüfung führen. Das Papier wird vermutlich also bei kleinen und mittleren Unternehmen ebenso seine Wirkung verfehlen wie bei kleinen und mittleren Projekten. Letzteres wäre in unseren Augen die relevante Messlatte für eine Unterstützung durch das BSI in diesem Themenkomplex: Sie sollten nicht der ex-post Absicherung für Entscheidungsträger:innen dienen, sondern Anschluss an die auf einer Projektebene früh zu treffenden Maßnahmen und Entscheidungen suchen.

"Wurde Feedback aus der Zielgruppe eingeholt und berücksichtigt?" Diese doch sehr menschliche Frage wäre in meinen Augen das nach Augenmaß wichtigste Audit-Kriterium für die Sicherheit von KI-basierten Anwendungen in dem im Katalog definierten Sinne. Mit diesem einfachen Schritt hätten sich einige peinliche Situationen, wie bspw. im Kontext der Einführung von Apple's Face-ID oder der KI-basierten Vorauswahl von Bewerbern durch Amazon, vermeiden lassen. Haftungsfragen und Lizenzrisiken werden im Kriterienkatalog ebenfalls nicht berücksichtigt. Diese sind für Open Source-Komponenten teils schon schwer zu bewerten. Für frei verfügbare Machine Learning-Modelle bspw. aus dem NLP-Bereich, die ggf. via Transfer-Learning auf individuelle Aufgaben angepasst werden, wird die Bewertung von Risiken noch anspruchsvoller. Wir hoffen auf klärende Rechtsprechung.

Ein Standard zur Prüfung Cloud basierter KI Services?

Beim ersten Lesen hatte ich eine andere Ausrichtung erwartet. Der Katalog orientiert sich am entsprechenden Katalog für Cloud-Services, was als Schnittmenge und Widerverwendung sinnvoll erscheint. Es ist aber kaum etwas enthalten, das spezifisch für die Schnittmenge von Cloud und KI-Technologien ist. Federated Learning zum Beispiel wäre so ein Aspekt gewesen. Ggf. lassen sich durch das kontrollierte Kombinieren von Datenmengen zu Lernzwecken neue Nutzungsszenarien erschließen. Dies in der Cloud zu tun liegt extrem nahe. Der Praxiseinsatz dieser recht neuen Ideen scheitert aber in meinen Augen vor allem an Unsicherheit und technischer Komplexität. Das Stichwort wird nur erwähnt und auf spätere Kataloge vertagt, die Technologie so nicht zugänglicher gemacht.

Erklärbarkeit von KI-Systemen

Der BSI Kriterienkatalog ruft zwar zur Förderung von Erklärbarkeit der KI Services unter Verwendung geeigneter Verfahren auf, gibt aber keinen Aufschluss darüber, wie das richtige Explainable AI (XAI) Verfahren zu wählen ist. Wie dort erwähnt, muss eine Erklärung abhängig vom Empfänger und dessen Know-How gewählt werden. Für den Erhalt einer plausiblen Erklärung müssen zudem spezifische Merkmale der angegebenen Eingabedaten berücksichtigt werden. Entsprechend setzt die Auswahl geeigneter XAI Methoden ein hohes Vorwissen in Bezug auf verfügbare Methoden, ihre Stärken und Schwächen sowie die Anwendung voraus. Hier fehlt eine Entscheidungsunterstützung, Richtline oder Handlungsempfehlung.

Fazit zu AIC4

Insgesamt scheint mir das Papier einen zu hohen Anspruch zu abstrakt zu formulieren. Dies könnte in einem ersten Schritt durch Beispiele angewandter Prüfkriterien verbessert werden: gute Services, schlechte Services; gute Dokumentation, schlechte Dokumentation. Es ist zu erwarten, dass sich best-practices eher bottom-up und schrittweise aus der Projekterfahrung bilden (bspw. hier) und mit den Ansprüchen der Gesellschaft abgeglichen werden, als mit einer top-down-Perspektive wie im Katalog impliziert. Dafür spricht auch, dass viele (leider) weiche Faktoren, wie eine gewisse Awareness und die Bereitschaft und Fähigkeit die Perspektive von Nutzer:innen einzunehmen, in einer wichtigen Rolle für die Erreichung der Ziele verantwortlich sind. Diese eignen sich kaum für ein Audit, aber uns fallen bestimmt Maßnahmen ein, um sie zu fördern.

Wir möchten die Verfahren rund um XAI zugänglicher machen und arbeiten aktuell an einem Empfehlungssystem, das XAI Methoden unter Berücksichtigung des Daten-, Modell- und Nutzungskontexts vorschlägt und somit eine Orientierung in diesem neuen, unübersichtlichen Themenfeld bietet. Lassen Sie uns gerne darüber sprechen!