Jeffrey Erickson | Senior Writer | 2. Dezember 2025
Bevor KI-Modelle und KI-Agenten einsatzbereit sind, müssen Machine-Learning-Algorithmen darauf trainiert werden, Muster und Zusammenhänge in großen Datenmengen zu erkennen. Doch was passiert, wenn ein Trainingsdatensatz bewusst mit Inhalten manipuliert wird, die das Modell nicht im Sinne der Nutzer, sondern zugunsten eines Angreifers steuern?
Dieses Szenario bezeichnet man als AI Poisoning. Sicherheitsforscher konnten bereits nachweisen, dass sich KI-Modelle korrumpieren lassen, indem man sie mit gezielt präparierten Daten trainiert oder Schwachstellen im zugrunde liegenden Code ausnutzt. Wichtig ist: Die Manipulation muss nicht während der Ersteinrichtung erfolgen. Basismodelle durchlaufen mehrere Trainingsphasen und werden später häufig zusätzlich für spezifische Aufgaben optimiert. Dieser kontinuierliche Lernprozess eröffnet eine weitere Angriffsfläche im Kampf eines Unternehmens um den Schutz seiner Daten.
AI Poisoning bezeichnet die gezielte Manipulation eines KI-Systems, entweder durch das Verunreinigen seiner Trainingsdaten oder durch das Ausnutzen von Schwachstellen in der zugrunde liegenden Architektur. Solche Angriffe sollen die Fähigkeit des Systems beeinträchtigen, verlässliche Entscheidungen zu unterstützen, oder Zugang zu sensiblen Informationen in seinen Interaktionen eröffnen.
Auch wenn der Begriff „Poisoning“ drastisch klingt, basiert die Methode auf bekannten Angriffen gegen Datenarchitekturen – erweitert um spezifische Elemente von KI-Systemen. Dazu gehört beispielsweise das Einschleusen oder Verändern von Daten im Trainingsdatensatz, sodass das Modell falsche Muster lernt und dadurch unerwünschte oder sogar schädliche Ergebnisse liefert. Wie bei früheren Datenpannen können Angreifer zudem Schwachstellen in der Modellarchitektur ausnutzen, um ihre Ziele zu erreichen – wie z. B. fehlerhafte Ausgaben zu erzwingen oder die Leistung des Systems zu beeinträchtigen.
Mit der zunehmenden Verbreitung und Komplexität von KI-Systemen – einschließlich immer autonomerer KI-Agenten – steigt auch das Risiko von AI Poisoning. Umso wichtiger sind generative KI-Services, die robuste Sicherheitsmechanismen und Testverfahren bieten, um Integrität und Zuverlässigkeit zu gewährleisten.
AI Poisoning bezeichnet die gezielte Manipulation der Sicherheit und Genauigkeit der Architektur oder der Trainingsdaten eines KI-Modells. Dahinter stehen unterschiedliche Motive. So können Angreifer Trainingsdaten verändern, damit ein Modell betrügerische Transaktionen, Marktmanipulationen oder Schadsoftware in E-Mails nicht mehr erkennt – mit der Folge, dass Gelder oder Daten entwendet werden. Ebenso lassen sich KI-Systeme so manipulieren, dass sie falsche medizinische Diagnosen oder fehlerhafte rechtliche Empfehlungen ausgeben.
Solche Angriffe können von sehr unterschiedlichen Akteuren ausgehen: von Personen, die Schaden anrichten wollen, über Wettbewerber, die KI-gestützte Produkte eines Unternehmens gezielt schwächen möchten, bis hin zu staatlich unterstützten Gruppen im Rahmen von Cyberkriegführung oder unzufriedenen Mitarbeitern.
Poisoning-Angriffe treten in mehreren Formen auf. Eine gängige Methode ist das sogenannte Label Flipping, bei dem Angreifer die korrekten Labels in Trainingsdaten durch falsche ersetzen. Ein weiterer Ansatz ist die Dateninjektion, bei der vollständig neue, manipulierte Datenpunkte mit falschen Labels eingefügt werden. Noch ausgefeilter sind Clean-Label-Poisoning-Techniken, bei denen die vergifteten Daten unauffällig und legitim wirken, das Modell jedoch dennoch fehlerhafte Muster erlernt. Backdoor-Angriffe wiederum sorgen dafür, dass das Modell bei bestimmten Eingabemustern unerwünschte Aktionen ausführt.
Der Schutz vor AI Poisoning beginnt bei der Sicherung der Trainingsdaten. Dazu gehören strenge Prozesse zur Validierung und Verifizierung, die Daten auf Anomalien, Unstimmigkeiten und mögliche Manipulationen prüfen. Beim Einsatz externer Trainingsdaten sollten ausschließlich vertrauenswürdige Quellen genutzt werden, wie z. B. Regierungsbehörden, Forschungseinrichtungen oder Unternehmen und Social-Media-Plattformen, die Daten aufbereiten und anonymisieren. Daten, die aus breiten Internet-Scrapes stammen, müssen hingegen besonders sorgfältig geprüft werden.
Unternehmen mit umfangreichen und heterogenen Datenbeständen können zudem auf Datenbereinigungstools ihrer Data-Science-Services zurückgreifen, um Trainingsdaten zu filtern und potenziell schädliche oder vergiftete Muster zu entfernen. Eine weitere etablierte Methode zur Steigerung der Modellgenauigkeit ist das Ensemble-Verfahren: Dabei werden mehrere Modelle auf denselben oder leicht variierten Datensätzen trainiert und ihre Ergebnisse anschließend zusammengeführt. So lassen sich Manipulationen besser erkennen und abmildern, da die kollektive Entscheidungsbasis robuster ist.
Ebenso entscheidend sind eine formelle, kontinuierliche Überwachung und Pflege der KI-Systeme selbst. Dazu zählen regelmäßige Audits der Modellleistung sowie das Monitoring ungewöhnlicher Ergebnisse oder Verhaltensweisen.
Heute sind generative KI-Anwendungen und KI-Agenten fest in Geschäftsprozesse, Anwendungen und Entwicklungsplattformen integriert und schaffen branchenübergreifend hohen Mehrwert. Je zentraler KI für unternehmenskritische Abläufe wird, desto wichtiger ist es, Trainings- und Fine-Tuning-Prozesse wirksam vor Poisoning-Angriffen zu schützen – um finanzielle Risiken zu minimieren sowie Markenreputation und das Vertrauen der Kundschaft zu sichern.
Besorgt über AI Poisoning? In unserem E-Book erfahren Sie, wie Sie ein AI Center of Excellence aufbauen, das Sie vor dieser und weiteren Bedrohungen für den Erfolg Ihrer KI schützt.
Wie funktioniert AI Poisoning?
Angriffe auf KI-Systeme nutzen den grundlegenden Mechanismus des maschinellen Lernens aus: das Training eines Modells mit einem Datensatz. Angreifer schleusen manipulierte Daten ein – oft so subtil verändert, dass sie kaum auffallen. Mit der Zeit übernimmt das Modell diese verfälschten Muster und gibt fehlerhafte Vorhersagen oder Entscheidungen aus.
Welche Folgen kann AI Poisoning haben?
Die Auswirkungen können gravierend sein. Dies kann dazu führen, dass KI-Systeme ungenaue Vorhersagen treffen, Objekte oder Entitys falsch klassifizieren oder anderes unerwünschtes Verhalten aufweisen. So könnte ein manipuliertes KI-System in einem selbstfahrenden Fahrzeug bestimmte Gefahren nicht mehr erkennen, oder ein Gesichtserkennungssystem könnte Personen falsch zuordnen. In kritischen Bereichen wie Gesundheitswesen oder Finanzwesen kann dies lebensbedrohliche Situationen oder erhebliche finanzielle Schäden verursachen.
Wie lässt sich AI Poisoning erkennen und verhindern?
Die Erkennung setzt auf strenge Datenvalidierung und kontinuierliche Überwachung. Dazu zählen Datenqualitätsprüfungen, Algorithmen zur Anomalieerkennung und regelmäßige Audits der Trainingsdaten. Breite und vielfältige Datensätze erschweren es Angreifern zusätzlich, das Modell wirksam zu manipulieren. Zur Prävention gehört außerdem die Sicherung von Datenerfassung und -speicherung, klare Zugriffskontrollen sowie die Sensibilisierung aller Beteiligten für mögliche Bedrohungen.
Gibt es Beispiele für AI-Poisoning-Angriffe?
Ja, Sicherheitsfirmen haben solche Angriffe bereits in unterschiedlichen Szenarien demonstriert. Ein bekanntes Beispiel ist der Angriff auf Spamfilter, bei dem gezielt gestaltete E-Mails das Modell so beeinflussten, dass es Spam fälschlicherweise als legitime Nachrichten einstufte. Ein weiteres Beispiel ist die Manipulation von Bilderkennungssystemen durch minimale, für Menschen kaum wahrnehmbare Änderungen an Bildern, die zu falschen Klassifizierungen führen.
Wie können sich Unternehmen vor AI Poisoning schützen?
Unternehmen sollten eine umfassende Sicherheitsstrategie verfolgen, die sowohl Maßnahmen zur Datensicherheit als auch eine regelmäßige Validierung der Modelle und einen klaren Reaktionsplan für mögliche Angriffe umfasst. Dazu gehören Investitionen in Prüfmechanismen für Datenintegrität, der Einsatz qualifizierter Sicherheitsexperten sowie der Aufbau einer unternehmensweiten Sicherheitskultur. Ebenso wichtig ist es, KI-Modelle regelmäßig mit sauberen Daten zu aktualisieren und neu zu trainieren, um die Auswirkungen möglicher Poisoning-Angriffe zu reduzieren.