Fotos veröffentlichen = KI trainieren?

Entwickler von Systemen Künstlicher Intelligenz (KI) sind auf eine Nutzung umfangreicher Datenbestände angewiesen, wenn sie auf statistische Verfahren gestützte Modelle effektiv trainieren möchten. Allgemein gilt der Grundsatz: Die Qualität der Ergebnisse steigt mit der Quantität der Trainingsdaten. Was liegt da näher, als den „Datenhunger“ der KI mit öffentlich verfügbaren Informationen zu stillen? Das Internet bietet hier reichlich Nahrung: Die Bilddokumentation des eigenen Lebens unter Einschluss zahlreicher anderer Personen in Sozialen Medien ist längst keine Seltenheit mehr. Dabei sind in Fotos oft mehr Informationen gespeichert, als es den Beteiligten lieb ist: Kontexte, Bildbeschreibungen, auch die gern übersehenen, oftmals automatisiert angelegten Metadaten „plaudern“ darüber, wer wo wie abgebildet ist. Eine KI, die aus solchen Daten lernt, wird dann auch damit arbeiten.

In seinem unten vermerkten 34. Tätigkeitsbericht 2024 vom 28.10.2025 unter Nr. 8.1 ordnet der Bayerische Landesbeauftragte für den Datenschutz (BayLfD) die skizzierten Risiken ein und gibt Bürgerinnen und Bürgern wie auch bayerischen öffentlichen – insbesondere staatlichen und kommunalen – Stellen Empfehlungen für präventive Maßnahmen. Im Einzelnen führt der BayLfD Folgendes aus:

1. Risiken durch die Veröffentlichung von Posts und Fotos im Internet

„Viele Nutzerinnen und Nutzer von internetbasierten Anwendungen, insbesondere Sozialen Medien, haben keine genauen Vorstellungen darüber, wie detailreich ihr digitales Abbild ausfällt – und welche ,Schönheitsfehler‘ es im Einzelnen (schon) zeigt. Manche vor Jahren geschriebenen Posts und hochgeladenen Fotos sind immer noch öffentlich, selbst wenn die Kennung und das Passwort für die betreffende Plattform längst vergessen sind und die Nutzerin oder der Nutzer auf andere Plattformen weitergezogen ist. Vielen Nutzenden war bei alldem auch nie so recht bewusst, dass moderne Smartphones gespeicherte Fotos häufig ,von sich aus‘ mit Metadaten wie dem Namen oder Geokoordinaten anreichern. Nutzende können deshalb durchaus weit mehr von sich öffentlich preisgegeben haben, als ihnen aktuell bewusst und/oder erwünscht ist.

Was einmal an zuordnungsfähigen Informationen, insbesondere an Fotos, öffentlich ist, kann grundsätzlich jedermann zu Gesicht bekommen – auch derzeitige (oder zukünftige) Vorgesetzte, Geschäftspartnerinnen, die Gegenpartei in einem Rechtsstreit, Mitschüler, (Ex-)Partner oder Verwandte. Ganz unscheinbar und zunächst einmal unbemerkt gesellt sich eine wachsende Anzahl von KI-Systemen hinzu, die öffentlich abrufbare Informationen zu unterschiedlichen, teils unbekannten oder sogar unerwünschten Zwecken sammeln (,crawlen‘) und nutzen.

Initiativen wie das Large-scale Artificial Intelligence Open Network (LAION) kommen den KI-Entwicklern noch weiter entgegen: Nach ihren an sich positiv klingenden Grundsätzen von Transparenz und Offenheit bietet diese Non-Profit- Organisation eigenen Angaben zufolge Trainings-Datensätze, Werkzeuge und Modelle zum Experimentieren mit Machine Learning zur freien Verfügung an. Auf dieser Grundlage sollen KI-Anwendungen ohne hohe Investitionskosten für den Aufbau umfangreicher Datenbestände entwickelt werden können, damit – so das Ziel dieser Organisation – nicht ausschließlich finanzstarke Großunternehmen den Markt- und Forschungsbereich ,KI‘ unter sich aufteilen. Wie ein bekannt gewordener Fall zeigt, können solche Trainingsdatensätze jedoch auch (ungewollt) sogar sensible personenbezogene Daten enthalten: Bei der Analyse des Trainingsdatensatzes für die KI-Bildgenerierung ,LAION5B‘ haben Datenjournalistinnen des Bayerischen Rundfunks eine Vielzahl an Informationen entdeckt, mit denen Personen identifiziert werden könnten: Neben Gesichtern und Namen fanden sie Geokoordinaten, E-Mails und sogar Kontonummern.

Das Beispiel zeigt: Angesichts des ,Datenhungers‘ von KI und der bereits heute umfangreichen Verarbeitung öffentlich abrufbarer Informationen ist immer wieder zu überdenken, welche potenziellen Risiken mit einer Veröffentlichung personenbezogener Informationen einhergehen können. Unbeabsichtigt preisgegebene, zusätzliche Informationen in Form von Metadaten verschärfen das Problem zusätzlich.

Insbesondere trägt der internationale Datenhandel dazu bei, dass ,das Internet‘ einmal veröffentlichte Daten oft nicht ,vergisst‘ – selbst wenn personenbezogene Daten auf Löschungsanträge hin aus einzelnen Trainingsdatensätzen vielleicht eliminiert werden können. Sind die Daten einmal in ein KI-System eingeflossen, gestaltet sich die Situation noch komplizierter: Einzelne Daten können grundsätzlich nicht wieder ,heraustrainiert‘ werden. Vielmehr müsste das jeweilige Modell mit einem aktualisierten Trainingsdatensatz ,fortgebildet‘ werden (was mit erheblichen Kosten verbunden wäre). Zudem lässt sich an einem trainierten Modell in der Regel nicht nachweisen, dass bestimmte Daten Teil der Trainingsdaten waren.

Die Risiken für die Rechte und Freiheiten der Bürgerinnen und Bürger wachsen also. Werden etwa Personenfotos zum Training KI-gestützter Gesichtserkennung genutzt und wird dieses Instrument etwa in einem Urlaubsland für Fahndungszwecke eingesetzt, können sich bei einer ,ahnungslosen‘ Einreise leicht nachteilige Konsequenzen ergeben – zumal im Fall falsch-positiver Treffer.“

2. Fotos sind mehr als die Summe ihrer Pixel

„Beim Speichern eines Fotos können der eigentlichen Aufnahme zusätzliche Informationen (sog. Metadaten) – meist automatisiert – hinzugefügt werden. Dabei fungiert etwa das ,Exchangeable Image File Format‘ (kurz: ,Exif‘) als Standard für solche Metadaten und definiert eine ganze Reihe an Datenfeldern (sog. ,Exif- Tags‘) mit technischen Informationen, wie etwa Kameramodell, Zeitpunkt der Aufnahme oder Kameraeinstellungen. Die Liste an Informationen wirkt auf den ersten Blick unauffällig, doch können gleich in mehreren Datenfeldern personenbezogene Daten hinterlegt werden. Besonders erwähnenswert sind hier die Felder ,Autor/Fotograf‘ sowie der Copyright-Vermerk, die ganz bewusst einen Personenbezug vorsehen, aber auch die geografische Position, die von Geräten mit integriertem GPS-Sensor hinzugefügt wird (fast jedes moderne Smartphone verfügt über einen solchen). Viele sind sich der Existenz dieser Datenfelder ebenso wenig bewusst wie der schädlichen Verwendungsmöglichkeiten für deren Inhalte. Werden Fotodateien mit Exif-Tags im Internet veröffentlicht, kann die Privatsphäre beispielsweise folgendermaßen beeinträchtigt werden:

– Ortungsverfolgung:

Eine Person veröffentlicht ein Urlaubsfoto an einem Strand. Das Foto weist keine besonderen Landschaftsmerkmale auf und die Person ist deshalb der Überzeugung, dass ihr konkreter Aufenthaltsort bei einer Veröffentlichung dieses Fotos unbekannt bleibt. Das für die Aufnahme genutzte Smartphone speichert jedoch im Hintergrund die Geokoordinaten mit ab. Wird diese Bilddatei auf ein Soziales Netzwerk hochgeladen, können die Metadaten ausgelesen werden, um den Standort des Benutzers zu erfahren. Dass es sich hierbei um kein rein theoretisches Szenario handelt, zeigt ein Fall, über den die Presse bereits im Jahr 2012 berichtete.

– Veröffentlichung privater Momente:

Angenommen, eine Person lädt ein Bild mit sensiblen Inhalten – wie zum Beispiel ein freizügiges Foto oder eine private Versammlung – in der Annahme hoch, dass sie selbst auf dem Foto nicht ohne weiteres identifizierbar ist (Gesicht nicht ausreichend gut erkennbar). Da die Metadaten aber den Namen des Benutzers enthalten können, ist mit diesen unbewusst mitgespeicherten Informationen unter Umständen doch eine Identifizierung möglich.

Dies war zwar bereits vor der Existenz aktueller KI möglich, neueste Entwicklungen in der Bilderkennung und im gesamten Verarbeitungsprozess verschärfen das Problem aber deutlich. Fotos können automatisiert in sehr großer Zahl und sehr hoher Geschwindigkeit verarbeitet, verglichen und ganz allgemein mit anderen Fotos und Informationen zusammengeführt werden. Das ist betroffenen Personen beim Hochladen oder dem Festlegen der Privatsphäreeinstellungen oftmals kaum bewusst. Fotos, auf denen Gesichter zu erkennen sind, können schnell zur Quelle einer Rufschädigung werden …“

3. Hinweise für bayerische öffentliche Stellen

„Auch bayerische öffentliche Stellen posten mitunter Fotos oder Videoclips, auf denen Personen zu erkennen sind, oder stellen Beiträge mit anderen personenbezogenen Daten ein. Einige Beispiele:

– Eine Gemeinde veröffentlicht auf einer Webseite Momente aus öffentlichen Veranstaltungen mit darauf erkennbaren Bürgerinnen und Bürgern.

– Ein Landratsamt teilt eine Liste von Bürgerinnen und Bürgern, die in bestimmten Programmen oder Projekten engagiert sind.

– Ein kommunales Kulturzentrum veröffentlicht Fotos von Veranstaltungen oder Konzerten, auf denen Einzelpersonen erkennbar sind.

– Eine Feuerwehr stellt eine Liste von Bürgerinnen und Bürgern online, die an Erste-Hilfe-Kursen teilgenommen haben.

– Eine öffentliche Schule teilt auf ihrer Website Bilder von Schulveranstaltungen, auf denen Schülerinnen und Schüler erkennbar sind.

Ungeachtet der Frage, ob die jeweilige Veröffentlichung in dieser Form überhaupt für bayerische öffentliche Stellen zulässig war, verweisen alle diese Beispiele auf mangelnde ,KI-Disziplin‘: Machine Learning-Modellen Trainingsmaterial bereitzustellen ist nicht Aufgabe bayerischer öffentlicher Stellen. (Noch) mehr als bisher sollte bei der öffentlichen Bereitstellung insbesondere von Foto- und Videodateien Zurückhaltung geübt werden, wenn Personen erkennbar sind. Dies gilt gerade dann, wenn diese in begleitenden Texten auch noch namhaft gemacht werden.

Bayerische öffentliche Stellen sind grundsätzlich gut beraten, eine datensparsame Öffentlichkeitsarbeit zu betreiben. Auch wenn eine Rechtsgrundlage für eine Offenlegung personenbezogener Daten zur Verfügung stehen sollte: Nicht immer ,braucht‘ die ,Message‘ ein Gesicht – eine Gemeindehomepage darf ihre Stärke in guter Information haben. Das hilft den Bürgerinnen und Bürgern mehr als bunte Fotos von Beschäftigten. Sollen dennoch Bilder mit Personen veröffentlicht werden, sollte eine ,Verpixelung‘ geprüft werden; dies gilt insbesondere für Personen ,im Hintergrund‘. Metadaten braucht es in den seltensten Fällen – also: weg damit! Apps bieten hier eine Vielzahl an Funktionen und Filtern, mit denen es etwa möglich ist, zu zeigen, dass eine Veranstaltung gut besucht war, ohne dass dabei einzelne Besucherinnen und Besucher identifizierbar sind. Zurückhaltung ist auch bei Bildbeschreibungen angebracht – nicht jede oder jeder muss namhaft gemacht werden. Ein weiterer Aspekt ist die Zugänglichmachung: Werden die Daten und Medien öffentlich gemacht oder kann der Personenkreis sinnvoll eingeschränkt werden – etwa auf einen ,internen‘ zugangsgeschützten Bereich?

Neben diesem ,harten‘ Zugangsschutz gibt es die ,noindex‘-Funktion, mit der Suchmaschinen und Indizierungstools angewiesen werden, die so markierten Inhalte oder Unterseiten nicht zu indexieren oder zu berücksichtigen.¹⁾“

34. Tätigkeitsbericht des Bayerischen Landesbeauftragten für den Datenschutz vom 28.10.2025, im Internet abrufbar unter https://www.datenschutzbayern.de in der Rubrik „Tätigkeitsberichte“

¹⁾ Siehe etwa für OpenAI die Dokumentation zu ChatGPT: https://platform.openai.com/docs/gptbot.

Beitrag entnommen aus Die Fundstelle Bayern 7/2026, Rn. 61.