Snowflake: Sind meine Daten im Cloud DWH sicher?

Business Intelligence, Künstliche Intelligenz, Cloud, IT-Sicherheit, Data Science

Snowflake: Sind meine Daten im Cloud DWH sicher?

Die Cloud bietet praktisch unbegrenzte Skalierbarkeit, doch wie sieht es mit der Sicherheit aus? Trotz großer Bemühungen und Zusicherungen der Anbieter haben viele Unternehmen noch vorbehalte sensitive Daten in die Cloud zu geben. Die Nutzung eines Cloud Data Warehouse (DWH) wie Snowflake braucht Vertrauen. Im ersten Teil unserer vierteiligen Blogreihe zur Sicherheit von Snowflake als Cloud DWH zeigen wir die relevanten Bedrohungsszenarien auf und erläutern Präventionsmaßnahmen, die gemäß dem Prinzip der geteilten Verantwortung von Anbieter und Kunde getroffen werden können.

Während die Bedeutung von Daten als Basis für Entscheidungen und neue Produkte stetig zunimmt gelten traditionelle Data Warehouses (DWH) oftmals als teuer und träge. Gleichzeitig laufen die Systeme an ihre Leistungsgrenzen, sodass Batchnächte zu kurz werden, das Warten auf neue Berichte lang und der Umgang mit großen und semi-strukturierten Daten schwierig. Eine Verlagerung von On-Premise in die Cloud vereinfacht den Betrieb und erlaubt weitere Skalierung, jedoch bisher ohne Verbesserung der Funktionalität und zu teils noch höheren Kosten.

Durch technologische Verbesserungen und Cloud-Native Konzepten, wie die Trennung von Rechenleistung und Datenspeicherung, hat sich eine neue Klasse von Cloud DWH Lösungen entwickelt, welche die Unzulänglichkeiten bisheriger Lösungen überwinden.

Das im Jahr 2012 gegründete Unternehmen Snowflake gilt als Vorreiter im Markt der Cloud DWHs, da die Lösung von Anfang an den Prinzipien der Cloud folgt. Die Abrechnung erfolgt vollständig verbrauchsabhängig, Ressourcen sind unbegrenzt skalierbar und der Betrieb wird komplett vom Anbieter übernommen.

Abbildung 1 - Was ist Snowflake?

Neben den Funktionen ist es als Softwareanbieter ebenso wichtig sich der Datensicherheit zu verschreiben, denn ob es nun ein Hacker-Angriff, ein internes Datenleck oder das Abbrennen einer Server-Halle ist, sobald man auch nur teilweise die Kontrolle über seine Daten abgibt, kommen ganz selbstverständlich Zweifel über die Datensicherheit auf. Da die große Menge an gesammelten Daten für viele Unternehmen einen kritischen Erfolgsfaktor darstellt, ist es von hoher Bedeutung sich mit der Modellierung von Bedrohungsszenarien zu beschäftigen und Maßnahmen zu ergreifen, die die Datensicherheit stärken. Dennoch ist es ein Irrglaube, dass vor allem cloudbasierte Lösungen, ein unzumutbares Risiko für die IT-Sicherheit darstellen und deswegen vermieden werden sollten. Um Vorurteile aus dem Weg zu räumen und aufzuzeigen welche Gefahren und Risiken tatsächlich am meisten Beachtung benötigen, werden im Folgenden verschiedene Problemklassen aufgeführt. Außerdem wird aufgezeigt, welche Maßnahmen von Snowflake zur Datensicherheit ergriffen werden. In weiteren Artikeln dieser Blog-Reihe werden zudem Empfehlungen gegeben, wie man am besten mit potenziellen Gefahren umgehen kann.

Welche Art von Bedrohungsszenarien gibt es?

Wenn es um den Schutz der eigenen Daten geht, denken viele Unternehmen zuerst an die Bedrohung durch organisierte Hackergruppen, doch wenn man sich die entscheidenden Gründe für Datenverluste anschaut, sind diese häufig auf vermeidbare Konfigurationsfehler zurückzuführen. In der nachfolgenden Tabelle sind einige Bedrohungsklassen aufgeführt, gegliedert nach dem Subjekt, von dem die Bedrohung ausgeht. Es wird deutlich, dass nicht alle Bedrohungen für die Datensicherheit von willentlichen Angriffen ausgehen und dass einige Bedrohungen darüber hinaus innerhalb des Unternehmens entstehen. Außerdem wird deutlich, dass Unternehmen eine Vielzahl von Möglichkeiten besitzen durch eigens getroffene Maßnahmen die Datensicherheit zu erhöhen. Dementsprechend sind in der Tabelle zwei Spalten dargestellt, einmal mit von Snowflake ergriffenen Maßnahmen zur Datensicherheit und einmal mit Handlungsmöglichkeiten für Nutzer:innen.

Abbildung 2 - Tabelle mit exemplarischen Bedrohungsszenarien

Dass Unternehmen eine Vielzahl von Handlungsmöglichkeiten zur Verstärkung der Datensicherheit besitzen, wird weiter verdeutlicht durch die Tatsache, dass es als Branchenstandard gilt, dem sogenannten „Prinzip der geteilten Verantwortung“ zu folgen. Dieses unterstreicht, dass die Verantwortung für die angestrebte Datensicherheit sowohl bei dem Cloud-Anbieter, sowie auch bei dem Kunden selbst liegt. Grundsätzlich bedeutet dies, dass (in diesem Fall) Snowflake für die Sicherheit der Cloud verantwortlich ist, während der Kunde für die Sicherheit innerhalb der Cloud Verantwortung trägt.

Artikel1_3

Abbildung 3 - Veranschaulichung des Prinzips der geteilten Verantwortung

Grundsätzlich fällt auf, dass Snowflake bei der Absicherung der Cloud vor allem dafür verantwortlich ist, Unternehmensdaten gegen Katastrophen und böswillige Angreifer:innen abzuschirmen. Währenddessen trägt das eigene Unternehmen die Verantwortung für Risiken, die intern entstehen, zum Beispiel durch gutgläubige oder auch böswillige Mitarbeiter:innen. Nun werden wir zuerst die durch Snowflake angestrebte Sicherheit der Cloud betrachten.

Sicherheit der Cloud

Wie bereits erwähnt trägt Snowflake einen Teil der Verantwortung, wenn es um die Absicherung von Daten geht. Grob kann dabei zwischen drei Bereichen unterschieden werden, die bereits tief in der Software-Architektur verankert sein müssen, um effektive Absicherung zu gewährleisten. Diese Bereiche sind namentlich die physische Sicherheit der Daten, die Netzwerk Absicherung und die Maßnahmen innerhalb der operationellen Sicherheit. Darüber hinaus ist es entscheidend, dass ebenfalls Sicherheitsmaßnahmen technisch bereitgestellt werden, die durch die Konfiguration von Kunden effektiv in Kraft treten können.

Physische Sicherheit

Unter dem Aspekt von physischer Sicherheit ist die Option zu fassen den Server-Standort und Cloud-Anbieter zu wählen. Gerade die Tatsache, dass es sich bei Snowflake um ein US-amerikanisches Unternehmen handelt, kann zu Bedenken führen, da ein Server-Standort in den USA durch abweichende Datenschutzrichtlinien vor Ort, zu Problemen führen kann. Grundsätzlich werden die Plattformen AWS, Google Cloud und Microsoft Azure mit Server-Standorten in den USA, Europa und Asien unterstützt. Da alle drei Dienste sogenannte Verfügbarkeitszonen bereitstellen, tragen diese ebenfalls zur Absicherung von Snowflakes Kundendaten bei. Verfügbarkeitszonen beschreiben dabei, dass innerhalb der gewählten Serverstandortregion die Server in räumlich isolierte Datenzentren aufgeteilt sind, wobei die Kundendaten immer über mehrere Standorte verteilt werden. Fällt eine Verfügbarkeitszone aus kann eine andere Zone nahtlos übernehmen, so dass Datenverlust vermieden und der Service nicht unterbrochen wird.

Netzwerk Absicherung

Eine weitere ergriffene Maßnahme ist die bewusste Restriktion vom Zugriff auf das Netzwerk. Das bedeutet, dass der Kunde nie direkten Zugriff auf die unterliegenden Clouddienste erhält, sondern ausschließlich über die bereitgestellte Service-Anwendungsschicht. Außerdem ist es möglich den Zugriff weiter durch IP-Zulassungs- und Sperrlisten einzuschränken und zu kontrollieren.

Abbildung 4 - Überblick Snowflake Architektur

Operationelle Sicherheit

Auch in dem Bereich der operationellen Sicherheit ergreift Snowflake konkret eine Vielzahl von technischen Maßnahmen, um diese zu gewährleisten. Am wichtigsten ist hierbei, dass alle Daten, die gespeichert werden Ende-zu-Ende verschlüsselt sind. Das bedeutet, dass im Fall von unbefugtem Datenzugriff keine unverschlüsselten Informationen verloren gehen und ebenfalls, dass Snowflake selbst keinen Zugriff auf die Klardaten besitzt.

Ebenfalls zur operationellen Sicherheit beitragend existieren zwei Funktionen, die den Datenverlust bei der versehentlichen oder mutwilligen Veränderung oder Löschung von Daten verringern. Die sogenannte Time-Travel Funktion baut darauf auf, dass geänderte Daten in der Datenhaltungsschicht von Snowflake nicht überschrieben werden, sondern neue Partitionen gespeichert werden. So kann in einem selbst definierbaren Zeitraum weiterhin auf alte Versionen der Daten zugegriffen werden. Nutzer benötigen dazu kein Wissen über die unterliegende Speicherung, sondern können auf alte Versionen genauso leicht zugreifen wie auf aktuelle Daten. Zusätzlich existiert ein Fail-Safe Mechanismus nach demselben Prinzip wie Time-Travel, als Wiederherstellungsoption, wenn aufgrund von beachtlichen Betriebsstörungen Daten verloren oder beschädigt scheinen.

Nicht zuletzt ist es erwähnenswert, dass Snowflake verschiedene Editionen anbietet, die mit unterschiedlichen, verstärkenden Sicherheitsmaßnahmen einhergehen. Die erwähnten Sicherheitsfunktionen, die in der Architektur von Snowflake enthalten sind, gehören zu den Standard-Maßnahmen, die für jeden Kunden gelten. Dennoch sind einige weitere Funktionen nur in höheren Editionen nutzbar.

Schlussendlich ist es jedoch vollkommen verständlich, dass kein großes Vertrauen in die eigenen Angaben eines einem selbst bislang unbekannten Unternehmen gelegt wird. Gerade um dieses fehlende Vertrauen entgegenzuwirken, existieren eine Reihe von Standards in der Branche, die durch externe Unternehmen validiert werden können. Durch derartig erlangte Gütesiegel und Zertifizierungen ist es transparent möglich nachzuvollziehen ob den geforderten Sicherheitsansprüche genüge getan wird. Besonders relevant innerhalb von Deutschland ist dabei die ISO27001- Zertifizierung, die die Sicherheit von Informationen im IT-Umfeld prüft. Über diese und weitere Zertifizierungen von Snowflake kann man sich hier informieren.

Fazit – Snowflake verstehen und richtig nutzen

Wie wir betrachtet haben, gibt es leider eine Vielzahl von Bedrohungsszenarien, sobald man mit unternehmensinternen Daten arbeitet, was auch gilt, wenn diese in der Cloud gespeichert werden. Dabei reichen die Bedrohungsszenarien über die einem sofort in den Sinn kommenden Angriffe von Hacker:innen hinaus, über zum Beispiel falsche Nutzung von Daten durch Mitarbeiter:innen hin zu Katastrophen, die die physischen Speicherorte beschädigen können.

Das bedeutet jedoch nicht, dass von der Nutzung von cloudbasierten Lösungen abgesehen werden muss, wenn man sich der Gefahren lediglich bewusst ist und präventiv Maßnahmen ergreift, um die Wahrscheinlichkeit der Kompromittierung der eigenen Daten zu senken. Bei einem Vergleich mit einem On-Premise Betrieb sollte man zudem ehrlich reflektieren, ob man in der Lage ist vergleichbare Absicherungen gegen Ausfälle umzusetzen.

Snowflake als Anbieter einer nativen Cloud-DWH-Lösung, hat die Datensicherheit tief im Geschäftsmodell verankert. Zur Veranschaulichung haben wir deshalb aufgeführt welche Maßnahmen seitens Snowflake umgesetzt werden, um Kundendaten bestmöglich zu schützen. Dennoch darf man nicht aus den Augen verlieren, dass cloudbasierte Serviceangebote auf dem Prinzip der geteilten Verantwortung aufgebaut sind. Das bedeutet, dass man nach der Entscheidung zur Nutzung von Snowflake, ebenfalls zusätzliche Maßnahmen ergreifen sollte, um die eigenen Daten abzusichern. Snowflake stellt hierfür eine Vielzahl an Methoden bereit, die die Authentifizierung von Nutzer:innen, Verwaltung von Zugriffsrechten und Monitoring Optionen ermöglichen, die auf jeden Fall von dem eigenen Unternehmen wahrgenommen werden sollten. Dennoch ist es ebenso wichtig dafür, dass ein Datensatz einen tatsächlichen Mehrwert bietet, die Daten für innovative Datenprodukte verfügbar zu machen. Somit muss die richtige Balance zwischen dem bestmöglichen Schutz der Unternehmensdaten und einer zu weiten Einschränkung der Nutzbarkeit gefunden werden. Deswegen stellt dieser Blog-Beitrag die Einleitung für weitere Artikel einer Reihe da, in welcher praxisorientierte Empfehlungen gegeben werden, wie jedes Unternehmen selbst die Datensicherheit innerhalb von Snowflake erhöhen kann, unter Abwägung der Nutzbarkeit.

Interessiert? Weitere Informationen gibt es auf unserer Seite zu Cloud Data Warehouse.