HackedGPT: Untersuchungen von Tenable decken versteckte KI-Schwachstellen auf, die Datenexfiltration, die Aufhebung von Sicherheitsmassnahmen und anhaltende Kompromittierungen innerhalb von ChatGPT ermöglichen.
Tenable deckt bei Tests von OpenAI’s ChatGPT-4o sieben Schwachstellen und Angriffstechniken auf, von denen einige später auch in ChatGPT-5 nachgewiesen wurden. Diese kollektiv als HackedGPT bezeichneten Schwachstellen setzen Benutzer Datenschutzrisiken aus, indem sie integrierte Sicherheitsmechanismen umgehen.
Obwohl OpenAI einige der identifizierten Probleme behoben hat, waren andere zum Zeitpunkt der Veröffentlichung noch nicht gelöst, sodass bestimmte Kompromittierungspfade weiterhin bestehen. Im Falle einer Ausnutzung könnten sie es Angreifern ermöglichen, unbemerkt persönliche Daten zu stehlen, einschliesslich gespeicherter Chats und Erinnerungen.
Die Schwachstellen offenbaren eine neue Art von KI-Angriffen – eine sogenannte „Indirect Prompt Injection“ – bei der versteckte Anweisungen in externen Websites oder Kommentaren das Modell dazu veranlassen können, unbefugte Aktionen auszuführen. Betroffen sind die Web-Browsing- und Speicherfunktionen von ChatGPT, die Live-Internetdaten verarbeiten und Benutzerinformationen speichern und somit Möglichkeiten für Manipulationen und Datenlecks eröffnen.
Tenable Research hat gezeigt, dass diese Angriffe unbemerkt auf zwei Arten erfolgen können: „0-Klick“-Angriffe, bei denen allein das Stellen einer Frage an ChatGPT die Kompromittierung auslöst, und „1-Klick“-Angriffe, bei denen das Anklicken eines bösartigen Links versteckte Befehle aktiviert.
Noch besorgniserregender ist eine Angriffstechnik namens „Persistent Memory Injection“, bei der schädliche Befehle im Langzeitspeicher von ChatGPT gespeichert werden und auch dann noch aktiv bleiben, wenn der Nutzer die App schliesst. Auf diese Weise können Angreifer dauerhafte Bedrohungen einschleusen, die private Informationen in künftigen Sitzungen offenlegen können, bis sie entfernt werden. Zusammen genommen zeigen diese Schwachstellen, wie Angreifer die Sicherheitsvorkehrungen von OpenAI umgehen und auf die privaten Verlaufsdaten der Nutzer zugreifen könnten.
„HackedGPT deckt eine grundlegende Unzulänglichkeit in der Art und Weise auf, wie grosse Sprachmodelle beurteilen, welchen Informationen sie vertrauen können“, erklärte Moshe Bernstein, Senior Research Engineer bei Tenable. Einzeln betrachtet scheinen diese Sicherheitslücken geringfügig zu sein – in ihrer Gesamtheit bilden sie jedoch eine komplette Angriffskette, von Einschleusung und Umgehung bis hin zu Datendiebstahl und Persistenz. Dies verdeutlicht, dass KI-Systeme nicht nur potenzielle Angriffsziele darstellen, sondern dass sie auch zu Angriffstools umfunktioniert werden können, die unbemerkt Informationen aus alltäglichen Chats oder beim Surfen abgreifen.
HackedGPT: Die sieben Schwachstellen und Angriffstechniken, die von Tenable Research identifiziert wurden
- Indirect Prompt Injection über vertrauenswürdige Websites
Angreifer verbergen Befehle in legitim erscheinenden Online-Inhalten wie Blog-Kommentaren oder öffentlichen Posts. Beim Durchsuchen dieser Inhalte befolgt ChatGPT unwissentlich diese versteckten Anweisungen. Kurz gesagt: ChatGPT kann dazu gebracht werden, die Anweisungen eines Angreifers auszuführen – einfach dadurch, dass es eine kompromittierte Seite liest. - Indirect Prompt Injection ohne Klick im Suchkontext
Nutzer müssen weder klicken noch irgendetwas Besonderes tun, um kompromittiert zu werden. Wenn ChatGPT im Internet nach Antworten sucht, kann es auf eine Seite mit verstecktem Schadcode stossen. Einfach nur eine Frage zu stellen, könnte dazu führen, dass das Modell solche Anweisungen befolgt und private Daten preisgibt – was Forscher als „Single-Prompt-Kompromittierung” bezeichnen. - Prompt Injection durch „1-Klick“
Ein einziger Klick kann einen Angriff auslösen. Versteckte Befehle, die in scheinbar harmlosen Links eingebettet sind, wie beispielsweise „https://chatgpt.com/?q=…{Prompt}“, können dazu führen, dass ChatGPT bösartige Aktionen ausführt, ohne sich dessen bewusst zu sein. Ein Klick genügt, damit ein Angreifer die Kontrolle über Ihren Chat übernehmen kann. - Umgehung von Sicherheitsmechanismen
Normalerweise überprüft ChatGPT Links und blockiert unsichere Websites. Angreifer umgehen dies, indem sie vertrauenswürdige Wrapper-URLs verwenden (z. B. bing.com/ck/a?… von Bing), die das tatsächliche Ziel verbergen. ChatGPT vertraut dem Wrapper, zeigt den scheinbar sicheren Link an und kann zu einer bösartigen Website weitergeleitet werden. - Conversation Injection
ChatGPT nutzt zwei Systeme – SearchGPT für die Suche und ChatGPT für Konversationen. Angreifer können sich SearchGPT zunutze machen, um versteckte Anweisungen einzufügen, die ChatGPT später im Rahmen der Konversation ausliest. Tatsächlich führt die KI letztendlich eine „Prompt Injection“ bei sich selbst durch, indem sie Befehle ausführt, die der Benutzer nie geschrieben hat. - Verbergen bösartiger Inhalte
Ein Programmierfehler in der Formatierung ermöglicht es Angreifern, schädliche Anweisungen in Code oder Markdown-Text zu verstecken. Dem Nutzer wird eine saubere Nachricht angezeigt, aber ChatGPT liest dennoch den versteckten Inhalt und führt ihn aus. - Persistent Memory Injection
Die Speicherfunktion von ChatGPT zeichnet vergangene Interaktionen auf. Angreifer können böswillige Anweisungen in diesem Langzeitspeicher hinterlegen, wodurch das Modell diese Befehle über mehrere Sitzungen hinweg wiederholt ausführt und kontinuierlich private Daten preisgibt, bis der Speicher geleert wird.
Potenzielle Auswirkungen der Ausnutzung von HackedGPT
Hunderte Millionen Menschen nutzen ChatGPT täglich für geschäftliche Zwecke, Recherchen und persönliche Kommunikation. Eine Ausnutzung dieser Schwachstellen könnte zu Folgendem führen:
- Einfügen versteckter Befehle in Konversationen oder Langzeitspeicher
- Abgreifen sensible Daten aus Chat-Verläufen oder verbundenen Diensten wie Google Drive oder Gmail
- Ausspähen von Informationen über Browser- und Web-Integrationen
- Manipulieren von Antworten, um Fehlinformationen zu verbreiten oder Nutzer zu beeinflussen
Tenable Research hat seine Untersuchung nach den Grundsätzen einer verantwortungsvollen Offenlegung durchgeführt. OpenAI hat einige der identifizierten Schwachstellen behoben, aber verschiedene sind weiterhin in ChatGPT-5 aktiv oder wurden zum Zeitpunkt der Veröffentlichung noch nicht behoben, sodass bestimmte Kompromittierungspfade offen bleiben.
Tenable empfiehlt Anbietern von KI-Lösungen, ihre Abwehrmassnahmen gegen Prompt Injection zu verstärken, indem sie sicherstellen, dass Sicherheitsmechanismen wie url_safe wie vorgesehen funktionieren, und indem sie Browsing-, Such- und Speicherfunktionen isolieren, um kontextübergreifende Angriffe zu verhindern.
Empfehlungen für Sicherheitsteams
Tenable empfiehlt Sicherheitsexperten Folgendes:
- Behandeln Sie KI-Tools als aktive Angriffsflächen und nicht als passive Assistenten.
- Überprüfen und überwachen Sie KI-Integrationen auf mögliche Manipulationen oder Datenlecks.
- Untersuchen Sie ungewöhnliche Anfragen oder Ausgaben, die auf Prompt Injection hindeuten könnten.
- Testen und verstärken Sie die Abwehrmassnahmen gegen Injektions- und Exfiltrationspfade.
- Führen Sie Kontrollmechanismen für Governance und Datenklassifizierung im Zusammenhang mit KI-Nutzung ein.
„Bei dieser Untersuchung geht es nicht nur um die Aufdeckung von Schwachstellen, sondern darum, die Art und Weise der Absicherung von KI zu verändern“, erklärte Bernstein. „Sowohl Einzelpersonen als auch Unternehmen müssen davon ausgehen, dass KI-Tools manipuliert werden können, und entsprechende Kontrollmechanismen entwickeln. Das bedeutet Governance, Datensicherheit und ständiges Testen, um sicherzustellen, dass diese Systeme für uns arbeiten und nicht gegen uns.“
Den vollständigen Bericht können Sie hier nachlesen.
