IP-Adressen als Vorratsdatenspeicherung, was die Technik leisten kann und was nicht

Die geplante dritte Auflage der IP-Vorratsdatenspeicherung verspricht Identifikationskraft, die unter CGNAT und IPv6-Privacy-Extensions in der Praxis kaum noch gegeben ist. Was IP plus Zeitstempel als Identifikator wirklich leisten und wo der EuGH-Korridor sie überhaupt zulässt.

Problem

Die BfDI hat in der Pressemitteilung zum 34. Tätigkeitsbericht eine erneute Wiederbelebung der IP-Vorratsdatenspeicherung kritisiert; die Bundesregierung habe für eine dreimonatige Speicherung keine belastbare Evidenz vorgelegt. Politisch ist die Annahme dabei stets dieselbe: eine IP-Adresse plus Zeitstempel sei ein scharfer Identifikator, der erlaube, einen Netzanschluss eindeutig auf eine Person zurückzuführen. Diese Annahme ist technisch zunehmend falsch. Um das Warum? dreht sich dieser Artikel.

Kurze Antwort

IP plus Zeitstempel war im IPv4-Standalone-Anschluss der frühen 2000er ein guter Identifikator. Heute ist die typische Realität Carrier-Grade Network-Adress-Translation (viele Kunden teilen sich eine IP Adresse nach außen, CGNAT), IPv6 mit rotierenden temporären Adressen insbesondere bei mobilen Endgeräten, beliebige VPN- und Tor-Schichten dazwischen und in vielen Fällen geteiltes WLAN am Endpunkt (Züge, Flughäfen, öffentliche Orte). Eine Speicherung "auf Vorrat" liefert deshalb meistens nicht den Treffer, der die Maßnahme rechtfertigt; sie liefert eine Auswahl von Personen, von denen oft niemand der Gesuchte ist bzw. der Gesuchte nicht mit auch nur annähernder Treffsicherheit ermittelt werden kann. Der einzige rechtlich offene Korridor ist seit dem EuGH-Urteil C-470/21 eng und an strikte Trennung der Datenkategorien gebunden.

Tiefgang

Was eine IP-Adresse als Identifikator leistet

Eine öffentliche IPv4-Adresse identifiziert immer eine Routing-Schnittstelle, nur sehr selten ein Endgerät und damit zumeist keine einzelne Person. Dynamische IPv4-Adressen werden vom Provider aus einem Pool zugeteilt; mit der Kombination aus Lease-Zeitstempel und Pool-Eintrag erlaubt man oft die Rückrechnung auf einen Anschluss. Bereits am Anschluss selbst sitzt ein NAT-Router mit beliebig vielen internen Geräten, deren Quell-Ports er auf eine einzige Public-IP übersetzt; welcher TCP-Stream zu welchem Gerät gehörte, ist außerhalb des Routers nicht mehr feststellbar. Da diese kleine Massengeräte sind (und damit Ihr Preis wichtig), protokollieren Sie typischerweise nichts, sowohl aus Performance- wie auch aus Speicherknappheitsgründen.

CGNAT, das Vielfache der Mehrdeutigkeit

Bei mobilen Anschlüssen und vielen DSL-Anschlüssen kommt eine zweite Übersetzungsschicht hinzu, das Carrier-Grade-NAT. Hier teilen sich bis zu tausende Anschlüsse eine einzige öffentliche IP-Adresse. RFC 6888 verlangt deshalb, dass der Provider zur Eindeutigkeit nicht nur IP und Zeit, sondern auch den jeweils zugewiesenen Source-Port-Range loggen muss; ohne diesen Port-Range-Eintrag ist eine Rückrechnung auf einen einzelnen Kunden nicht möglich. Die Praxis weicht teils erheblich davon ab: Source-Port-Logs sind hochvolumig und bei vielen Carriern entweder gar nicht oder nur in groben Zeitfenstern verfügbar. Die Folge ist, dass eine angefragte IP mit einem Zeitstempel auf Sekundenebene zwar formal beauskunftet wird, aber bei genauer Betrachtung mehrere Kandidaten zurückbleiben. Aber selbst dieses Tripel (Zeit, Adresse, Port) ist nicht eindeutig, da die Zahl der Ports historisch stark begrenzt ist (16 Bit) und Ports daher regelmäßig wiederverwendet werden.

IPv6 mit Privacy Extensions

IPv6 löst das Problem der NAT-Mehrdeutigkeit, schafft aber auch ein Neues. RFC 8981, die Privacy Extensions, beschreibt das verbindliche Verhalten moderner Endgeräte: jedes Endgerät erzeugt sich neben der stabilen "EUI-64"-Adresse zusätzliche temporäre Adressen, die in regelmäßigen Abständen rotieren und für ausgehende Verbindungen bevorzugt werden. Aktuelle Systeme (Linux, macOS, iOS, Android, Windows) haben Privacy Extensions standardmäßig aktiviert. Eine zu einem Zeitpunkt T benutzte IPv6-Adresse identifiziert damit nicht einmal mehr verlässlich denselben Host am Tag T+1, sondern lediglich das Subnetz-Präfix, das in vielen Heim-Anschlüssen einer ganzen Wohnung oder sogar Wohnungsgemeinschaft gemeinsam ist.

Tor, VPN und Reverse Proxies

Selbst wenn auf der Provider-Seite alles korrekt geloggt wäre, kommen die Schichten oberhalb des Anschlusses dazu. Ein Tor-Exit, ein kommerzieller VPN, ein eigener Mietserver-Hop, eine Reverse-Proxy-CDN: alle hinterlassen am Zielserver eine andere IP als die des Endnutzers, oft mit anderer geografischer Zuordnung. Eine Vorratsdatenspeicherung beim Provider hilft hier nichts, weil der Provider den späteren Hop nicht sieht. Dort wiederum gibt es entweder keine Logs (Tor by design, VPN nach Wahl des Anbieters, häufigstes und nahezu ausnahmslos überall anzutreffendes Marketingargument) oder sie liegen in einer anderen Jurisdiktion.

Der EuGH-Korridor: was C-470/21 erlaubt

Der EuGH hat im April 2024 die französische Hadopi-Architektur zur IP-Speicherung grundsätzlich für mit Unionsrecht vereinbar erklärt, aber unter strengen Bedingungen: die gespeicherten Identitätsdaten müssen logisch von Verkehrs- und Inhaltsdaten getrennt sein, dürfen nicht ohne Weiteres mit Browserverlauf verknüpfbar sein, und der Zugriff muss durch eine unabhängige Stelle vor- oder nachkontrolliert werden. Das ist ein deutlicher Unterschied zu einer pauschalen Drei-Monats-Speicherung von IP plus Zeitstempel ohne weitere Schutzschichten. Wer ein Gesetz dazu plant, muss den Trennungs- und Kontroll-Aufbau im Entwurf substanziell ausweisen, nicht nur als Kommentar im Beschlussentwurf.

Abgelehnte Alternativen

"Wir speichern halt mehr Metadaten, dann passt es." Das ist genau der Schritt, den der EuGH ausschließt. Mehr Metadaten heißt mehr Verkettung, und die Verkettung mit Verkehrs- oder Browserdaten ist es, was den Eingriff verhältnismäßig fragwürdig macht. Mehr Daten lösen das Identifikator-Problem nicht, sondern verschärfen das Verfassungs-Problem.

"IP-Range plus Zeitfenster reicht für die Strafverfolgung." Es reicht für eine (potenziell eher ziemlich lange) Liste von Verdächtigen, nicht für einen Treffer. In CGNAT-Szenarien sind das oft drei- bis vierstellige Listen pro Sekunde-Eintrag. Die anschließende Reduktion auf einen einzelnen Anschluss erfolgt dann mit weiteren Daten, die wiederum nicht erhoben werden dürften, ohne den Korridor zu sprengen.

"Rein technisch lässt sich das ja präzise machen." Stimmt im Prinzip, scheitert in der Praxis an Volumina, Provider-Heterogenität und der Tatsache, dass jedes neue Pflicht-Logfeld von den Providern entweder ausgeweitet (Sammelklage-Risiko) oder ungenügend geführt wird. Die Diskrepanz zwischen Anspruch und Lieferung hat die zweite Auflage der Vorratsdatenspeicherung schon einmal in die Bedeutungslosigkeit geführt.

Wie Dernium hier hilft

Bei den eigenen Diensten beschränken wir IP-Erfassung auf das, was zwingend ist. Die Egress-Architektur von Dernium Desk trennt VM-eigene Adressen vom Verkehr, die nutzerseitige IP eines Endkunden taucht in Anwendungs-Logs nicht auf, da sie für die Funktion nicht gebraucht wird. Unsere gesamte interne Authentisierungs-Infrastruktur speichert Login-Versuche mit IP nur befristet zur Brute-Force-Erkennung; die Aufbewahrungsfristen sind so kurz wie möglich gewählt.

Verifikation

Wer die hier zitierten Mechanismen selbst nachprüfen will, kommt - wie oft - mit Bordmitteln aus, er muss nur wissen mit welchen. Ein Auszug am Beispiel Linux + Mac wo wir einfach die meiste Kontrolle über unser Netzwerk haben und am wenigsten hinten "einfache Kästchen" versteckt wird:

  • IPv6-Privacy-Extensions am eigenen Host: ip -6 addr zeigt für scope global mehrere Adressen pro Interface, eine als temporary, mit Lifetime im Bereich von Minuten bis Stunden.
  • CGNAT-Erkennung am eigenen Anschluss: curl ifconfig.io liefert die nach außen sichtbare IP; eine private IPv4 (10.x, 100.64.x bis 100.127.x, RFC 6598) am eigenen Router-WAN bei gleichzeitig öffentlicher Antwort der Echo-Dienste deutet auf CGNAT hin.
  • EuGH-Urteil im Original: Pressemitteilung Nr. 75/24, Kernaussage zur Datenkategorie-Trennung in Abschnitt zu Schutzvorkehrungen.

Offene Punkte

Die rechtspolitische Diskussion verfehlt regelmäßig die Frage, was an Identifikator-Tiefe in einer pauschalen Speicherung wirklich gewonnen wird, gemessen an der Volume-Erhöhung in den Provider-Logs. Eine ehrliche Antwort fordert eine Trefferquote-Studie auf realistischer Verkehrsverteilung; bisher gibt es solche Zahlen nur sektoral und für eng abgegrenzte Strafverfolgungsklassen. Bis dahin bleibt die Bewertung des Eingriffs nach EuGH-Maßstab unvollständig, weil ein zentrales Element der Verhältnismäßigkeit, die Geeignetheit, empirisch nicht belegt ist.