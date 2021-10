Herr Thomassen, wie bewerten Sie den Ausfall von Facebook?

Der Ausfall bei Facebook zeigt in erster Linie, dass das Internet ein fragiles Gebilde ist, das aus Myriaden von Komponenten und Kommunikationsverfahren (sog. „Protokollen“) besteht, die im Normalfall auch reibungslos zusammenarbeiten.

Zu dieser Kategorie von Infrastruktur gehört das Routing-Protokoll „BGP“, über das Zustellwege für Datenpakete im Internet zwischen den verschiedenen Netzdienstleistern ausgehandelt werden, und auch das Domain Name System (DNS), mit dessen Hilfe Domainnamen wie facebook.com in maschinentaugliche IP-Adressen übersetzt werden – ähnlich wie man früher ins Telefonbuch schaute, bevor man jemanden anrief. Das DNS ist dabei ähnlich selbstreferentiell wie eine Telefonauskunft, d.h., Sie können z.B. eine regionale Auskunft anrufen, um nach der Nummer des Auskunftsdienstes eines anderen Landes zu fragen.

Bei der Zustellung von Datenpaketen kommt in mehreren Etappen sowohl das BGP- als auch das DNS-Protokoll zum Einsatz, um binnen Millisekunden beim Verbindungsaufbau die verschiedenen Nachfragen an die richtigen Auskunftsstellen (DNS-Server) zu bringen und letztlich, nachdem alle benötigen Auskünfte eingeholt wurden, eine Verbindung zum eigentlich Ziel (z.B. WhatsApp oder Facebook) aufzubauen. Das läuft normalerweise natürlich alles automatisch ab, und wenn alles funktioniert, sind diese Systeme praktisch unsichtbar.

Bei dem gestrigen Ausfall hat Facebook nun unbeabsichtigt über das BGP-Protokoll sämtliche Zustellwege widerrufen, die benötigt werden, um den Facebook-eigenen DNS-Auskunftsdienst zu erreichen. Netzdienstleister, welche beim Zugriff auf Facebook/Instagram/WhatsApp die zugehörige IP-Adresse nachschlagen wollten, bekamen keine Antwort, und die Dienste waren down. Da hätte es auch nicht geholfen, wenn es Facebook gelungen wäre, die Webserver noch funktionsfähig zu halten – denn man konnte ihre IP-Adressen ja nicht in Erfahrung bringen. Aber auch die Webserver selbst sowie Facebooks interne Netzwerksysteme waren von diesem Ausfall betroffen.

Der Vorfall mit seinem enormen Impact zeigt also, dass es einige Komponenten gibt, deren Funktionsfähigkeit unverzichtbar ist für die Basisfunktionalität der Internet-Infrastruktur. Das Problem solcher lawinenartiger Auswirkungen ist natürlich nicht auf Facebook beschränkt: Man stelle sich nur vor, der DNS-Auskunftsdienst für den .de-Bereich des Internets wäre wegen eines BGP-Fehlers nicht erreichbar: Dann wären alle deutschen Webseiten, Mailserver, Banking und so weiter nicht erreichbar, ohne dass die Betroffenen das in der Hand hätten.

Wie kann das bei einem so riesigen und gut aufgestellten Unternehmen passieren?

Die vielen Teilsysteme des Internets sind eigentlich eine Stärke, da jedes Teilsystem sich auf eine bestimmte Funktionalität (z.B. Zustellwege, oder Nachschlagen von Domainnamen) konzentrieren kann. Problematisch wird es, wenn sich zwischen diesen Teilsystemen zirkuläre Abhängigkeiten einschleichen – wenn es also beispielsweise für den Zugang zu einem Serverraum nötig ist, dass das DNS funktionsfähig ist, um im Rahmen der Zugangsprüfung mit einer zentralen Benutzerdatenbank zu kommunizieren. In der Regel ist das kein Problem, es sei denn, Sie müssen in diesen Serverraum, um Ihre DNS-Systeme zu reparieren, stehen aber genau deswegen vor verschlossener Türe.

Durch solche Interdependenzen, die es natürlich noch in viel komplexerer Form gibt, können schnell Henne-Ei-Probleme entstehen, insbesondere wenn die beteiligten Entscheidungsträger wie z.B. Zugangsmanager und DNS-Administrator von der wechselseitigen Abhängigkeit gar nichts wissen. Je größer und komplexer das Unternehmen bzw. die Organisation, desto schwieriger ist es in gewisser Weise auch, nicht den Überblick über derartige Abhängigkeiten zu verlieren.

Natürlich gibt es aber auch Ansätze, systematisch Vorkehrungen gegen solche Verkettungen von Abhängigkeiten zu treffen, selbst wenn man nicht den Überblick über alles hat. Es wäre zum Beispiel möglich gewesen, dass Facebook seinen Auskunftsdienst nicht vollständig innerhalb des eigenen Netzwerks betreibt, sondern in einem sog. Multihoming-Setup bei zwei unabhängigen Dienstleistern. Zu den großen Playern, die diesen Weg gewählt haben, gehört amazon.com: Deren DNS-Dienst wird von zwei unabhängigen Firmen (Neustar und Oracle) betrieben – und das, obwohl Amazon auch selbst über seine Cloud-Sparte DNS-Dienste betreibt. Offenbar hat man sich dort aber bewusst gegen die Abhängigkeit von eigenen Dienstleistungen entschieden.

Man kann also resümieren, dass Facebook zwar ein großes Unternehmen ist, sich aber durchaus etwas vorausschauender hätte aufstellen können, was Fragen der Redundanz betrifft.

Welche Konsequenzen sollten wir in Deutschland/Europa daraus ziehen?

Das Internet ist ein supranationales Gebilde, und Fragen wie Verfügbarkeit und Redundanz hängen nur ganz sekundär von Landesgrenzen ab, wenn es z.B. um Engpässe bei Seekabeln oder regulatorische Einflüsse wie z.B. die Zensur gewisser Datenflüsse geht. Derartige Fragen sind aber anders gelagert als die Ursachen für den gestrigen Ausfall; ich würde also sagen, dass für Deutschland und Europa – aus technologischer Sicht – zunächst einmal nichts folgt.

Es stellen sich selbstverständlich die Fragen, ob es gut ist, dass so viel private und auch Geschäftskommunikation von ausländischen Unternehmen abhängt. So gibt es ja vor allem in Asien und Südamerika viele KMUs, die Aufträge via Facebook annehmen und abwickeln, ganz zu schweigen von all den WhatsApp-Kontakten, auf die mehrere Milliarden Menschen für einige Stunden verzichten mussten. Man kann sich schon fragen, ob man als Land nicht selbst weniger abhängig von solchen zentralen Kommunikationsplattformen sein möchte.

Ich denke aber auch hier, dass eine solche digitale Souveränität zwar mehr regionale Kontrolle brächte, aber dennoch nicht vor Ausfällen wie dem gestrigen schützt. Man stelle sich zum Beispiel vor, Facebook hätte in Europa keinen Fuß auf den Boden bekommen, und stattdessen liefe alles über StudiVZ und „WhatsVZ“. Das wäre dann zwar regional – aber wenn dort ein BGP-Fehler wie gestern bei Facebook passiert, ist trotzdem nichts mehr erreichbar.

Muss der Ausfall als Konsequenz nicht eine Debatte über eine dezentralere Infrastruktur auslösen?

Man sollte aus meiner Sicht sorgfältig zwischen Dezentralisierung und Diversifizierung unterscheiden. Dezentralisierung sorgt für kleineren Impact jedes einzelnen Ausfalls, gleichzeitig gibt es dann wegen der größeren Zahl an Akteuren aber auch mehr Gelegenheiten, etwas falsch zu machen, d.h. die Anzahl der zu erwartenden Ausfälle würde wahrscheinlich steigen. Schutz vor Ausfällen der beschriebenen Art erreicht man dagegen durch Diversifizierung und die Auflösung zirkulärer Abhängigkeiten; mit der Größe der beteiligten Akteure und dem Grad der Zentralisierung hat das nur wenig zu tun. Das ist vielleicht ganz gut vergleichbar mit Investitionen am Kapitalmarkt: Wenn man zirkuläre Abhängigkeiten umgehen möchte, dann empfiehlt es sich, nicht nur auf Aktien eines Autoherstellers und seiner regionalen Zulieferer, sondern am besten auf möglichst viele Pferde zu setzen.

Es gibt natürlich allerhand Gründe, um zentralisierten Systemen kritisch gegenüberzustehen – hier sei exemplarisch lediglich das Ausmaß genannt, in dem soziale Netzwerke und andere Big-Data-Firmen personenbezogenen Nutzerdaten sammeln und auswerten, Nutzerströme lenken, den gesellschaftlichen Diskurs beeinflussen und dadurch eine subtile Form von Macht ausüben. Darüber hinaus könnten andere Akteure aus Zivilgesellschaft, Wirtschaft und Politik sicher weitere Gründe anführen, warum eine dezentralere Infrastruktur erstrebenswert wäre. Der gestrige Ausfall jedenfalls gibt dazu keinen Anlass – aber er gibt Anlass zu Erhöhung von Diversifizierung und Redundanz.

Halten Sie es für denkbar, dass wir immer wieder mit solchen Ereignissen rechnen müssen?

Auf jeden Fall. Zählt man die Anzahl der betroffenen „Personenstunden“, d.h. Ausfalldauer multipliziert mit der Anzahl der Nutzer von Facebook-Diensten, dann war dieser der bisher größte Ausfall der Internetgeschichte. Zu solchen herausragenden Ereignissen kommt es natürlich nicht alle Tage, aber es spricht auch nichts dafür, dass es sich um ein singuläres Ereignis handelt.

Gegenmaßnahmen wie eine diversifiziertere Aufstellung sind aber natürlich mit höheren Kosten verbunden, da sich Skalierungseffekte weniger stark ausnutzen lassen und außerdem die operative Komplexität, insbesondere bei der Inbetriebnahme solcher Systeme, nicht zu unterschätzen ist.

Unternehmen wägen solche Investitionen natürlich gegen den erwartbaren Schaden ab. Dieser steigt mit der Wahrscheinlichkeit eines Ausfalls, der Trick liegt also darin, diese Wahrscheinlichkeit zu minimieren. Aus der Erfahrung mit unseren Klienten wissen wir aber, dass insbesondere die Wahrscheinlichkeit für einen Ausfall oft falsch eingeschätzt wird. Dabei muss man auch zugeben, dass sie schwer einschätzbar ist und bleibt, da die statistische Grundlage für solche Einschätzung wegen der Seltenheit solcher weitreichenden Ausfälle ja auch sehr unzureichend ist.

Unterm Strich wird es daher immer Unternehmen geben, die die Eintrittswahrscheinlichkeit grob unterschätzen (so wie es auch welche gibt, die sie überschätzen) – mit dem Ergebnis, dass es auch in Zukunft hin und wieder zu Ausfällen von enormer Größenordnung kommen wird.

Sollte es sicherheitsrelevante Bereiche geben, die grundsätzlich in Deutschland verortet sein müssen?

Ja, das denke ich auf jeden Fall, insbesondere mit Blick auf die Speicherung von schützenswerten Daten aus dem Bereich der Industrie, der Sicherheitspolitik und so weiter. Cloud-Speicheranbieter haben unabhängig von rechtlichen Vorgaben dennoch nahezu immer die technische Möglichkeit, auf die bei ihnen gespeicherten Daten zuzugreifen, auch wenn sie es nicht tun dürfen. Auf dem Spektrum der Schutzbedürftigkeit von Daten gibt es nach meiner Einschätzung eine „Sensibilitätsschwelle“, und wenn die erreicht ist, dass sollte man die Daten schlicht nicht in Hände geben, zu denen kein bedingungsloses Vertrauensverhältnis besteht. Das wird über Staatsgrenzen hinweg in der Regel nicht der Fall sein.

Welche Daten das genau sein könnten, haben andere zu entscheiden. Ich finde es aber ganz essentiell, dass ein souveräner Staat für die Bereitstellung derart elementarer Fähigkeiten der digitalisierten Welt nicht auf andere Akteure angewiesen ist. Die Berichterstattung über Datenleaks reißt ja nicht ab – es wäre naiv anzunehmen, dass man in diesem Zusammenhang als Staat nicht selbst in der Verantwortung steht.

Dr. Peter Thomassen ist Senior Security Expert bei der Berliner Firma SSE Secure Systems Engineering GmbH. An diesem Unternehmen hält auch die Eigentümergesellschaft der Berliner Zeitung indirekt Anteile.