Home / Geschäft und Politik / Dateninzest: Wie gefährlich ist die Degeneration der generativen Künstlichen Intelligenz

Geschäft und Politik

Dateninzest: Wie gefährlich ist die Degeneration der generativen Künstlichen Intelligenz

Autor: Vedran Antoljak

August 6, 2023

Die Habsburger Monarchie, eine der mächtigsten Dynastien der Geschichte, fiel aufgrund von Inzest, der zu Degeneration führte. Diese Dynastie, die große Teile Europas und der Welt regierte, wurde allmählich schwächer, bis sie vollständig ausstarb. Dieser Niedergang war nicht das Ergebnis äußerer Kräfte oder feindlicher Invasionen, sondern vielmehr eine interne Degeneration, die durch Inzest verursacht wurde. Ein ähnliches Problem könnte in der Welt der Künstlichen Intelligenz (KI) auftreten – ‚Dateninzest‘.

Dieses Phänomen tritt auf, wenn KI Daten verwendet, um aus Daten zu lernen, die von einer anderen KI generiert wurden. Dies kann zu Daten-Degeneration führen, ähnlich wie es in der Habsburger Monarchie geschah. Diese Analogie kann uns helfen, die potenziellen Gefahren, die die Welt der Künstlichen Intelligenz bedrohen, besser zu verstehen.

Verzerrte, Langweilige und Schlechte Ergebnisse

Generative KI, die in unserem digitalen und realen Leben allgegenwärtig ist, basiert auf von Menschen geschaffenen Daten. Große Sprachmodelle (LLMs) generieren keine Inhalte aus dem Nichts, sondern werden trainiert, um Antworten (z. B. Texte, Bilder) unter Verwendung von Materialien zu generieren, die von echten Menschen erstellt wurden, normalerweise aus dem Web und anderen öffentlichen Quellen gesammelt. Wenn generative KI jedoch auf synthetisch erstellten Inhalten trainiert wird, beginnen seltsame Dinge zu passieren. Genau das zeigt eine kürzlich veröffentlichte Studie von Forschern der Stanford-Universität.

Die Studie befasst sich mit den Herausforderungen beim Training großer Sprachmodelle der Künstlichen Intelligenz, bei denen synthetische Daten für ihr Training verwendet werden. Die Autoren zeigen, dass ohne genügend frische reale Daten, um die Modelle zu trainieren, die Qualität oder Vielfalt der generierten Antworten allmählich abnimmt. Die Studie präsentiert drei zentrale Schlussfolgerungen über die Auswirkungen verschiedener Trainingsmethoden auf die Qualität und Vielfalt der generierten Antworten. In Fällen, in denen Modelle ausschließlich auf synthetischen Daten aus vorherigen Generationen trainiert werden, nimmt die Qualität und Vielfalt allmählich ab. Wenn Modelle jedoch auf einer Kombination aus synthetischen Daten aus vorherigen Generationen und einem festen Satz realer Daten trainiert werden, nimmt die Vielfalt ab, aber die Qualität bleibt unverändert. Schließlich, wenn Modelle auf einer Mischung aus synthetischen Daten aus vorherigen Generationen und frischen realen Daten trainiert werden, bleiben sowohl Qualität als auch Vielfalt erhalten.

Es wird geschätzt, dass heute etwa die Hälfte der Menschen in den entwickelten Ländern aktiv generative KI an Hochschulen und in Büros nutzt. Sie verwenden KI-Tools – wie ChatGPT, Google Bard, Microsoft Bing und andere – um eine große Menge synthetischer Inhalte zu erstellen, die im öffentlichen Bereich landen und somit Inhalte werden, die zur Schulung großer Sprachmodelle verwendet werden können, die KI-Tools antreiben. Hier liegt die Gefahr des ‚Dateninzests‘, die zu zunehmend verzerrten, langweiligen und schlechten Ergebnissen führt, die von KI generiert werden. Dieses Phänomen kann mit Inzest in der Habsburger Monarchie verglichen werden, wo die kontinuierliche Inzucht von Familienmitgliedern zu genetischer Degeneration und zur Schwächung der Dynastie führte.

Weitreichende Konsequenzen

Das Problem ist, dass große Sprachmodelle neue Daten für ihre Entwicklung benötigen, und das Internet ist zunehmend mit synthetischen Inhalten überschwemmt. Wenn es zu viel destruktiven ‚Inzest‘ gibt, könnte alles einfach zusammenbrechen. Forscher an der Stanford-Universität haben herausgefunden, dass es nur fünf Trainingszyklen mit synthetischen Daten benötigt, damit die von KI bereitgestellten Antworten nutzlos werden. In diesem Fall können die Folgen des ‚Dateninzests‘ weitreichend sein. So wie die Degeneration zum Fall der Habsburger Monarchie führte, könnte auch ‚Dateninzest‘ zum Untergang der generativen KI führen.

Hilfe ist verfügbar

Um ‚Dateninzest‘ zu vermeiden, besteht eine mögliche Lösung darin, Wasserzeichen (eng. watermark) zu verwenden, um synthetische Daten zu identifizieren und zu entfernen. Diese Methode, obwohl nicht perfekt, kann helfen, die Menge an synthetischen Daten zu reduzieren, die zur Schulung von KI-Modellen verwendet werden. Benutzer müssen sich jedoch bewusst sein, dass ihre Daten, wenn sie im Internet veröffentlicht oder bei der Arbeit mit KI-Tools verwendet werden, Teil der Daten werden, die für das weitere Training von Modellen verwendet werden können.

Darüber hinaus müssen Unternehmen, die KI-Modelle entwickeln, sich der Gefahren bewusst sein, die ‚Dateninzest‘ mit sich bringt. Wenn synthetische Daten zur Schulung von Modellen verwendet werden, besteht das Risiko, dass diese Modelle im Laufe der Zeit weniger nützlich werden und zunehmend schlechte und uninteressante Ergebnisse produzieren. Dies könnte zu einem Rückgang der Qualität der Dienstleistungen führen, die diese Unternehmen anbieten, was letztendlich ihren Wert und ihre Wettbewerbsfähigkeit auf dem Markt beeinträchtigen könnte.

Andererseits haben auch die Benutzer von KI-Modellen eine Rolle bei der Lösung dieses Problems. Sie können helfen, ‚Dateninzest‘ zu reduzieren, indem sie sich der Arten von Daten bewusst sind, die sie im Internet generieren und teilen. Sie können auch Unternehmen unterstützen, die aktiv mit diesem Problem umgehen, entweder indem sie deren Dienstleistungen nutzen oder Feedback zur Qualität der generierten Daten geben. So wie der Fall der Habsburger Monarchie eine Warnung für zukünftige Generationen war, kann auch ‚Dateninzest‘ eine Warnung für die Zukunft der KI sein.

Ein Schritt in Richtung Zusammenbruch

Ohne angemessenes Management und Kontrolle könnte KI einen Weg zur Degeneration und schließlich zum Zusammenbruch einschlagen. Die Lösung dieser Herausforderung erfordert Bewusstsein und Proaktivität von allen Beteiligten – von Programmierern und Unternehmen, die KI-Modelle entwickeln, bis hin zu Benutzern, die diese Modelle nutzen. Wir alle müssen uns der potenziellen Gefahren des ‚Dateninzests‘ bewusst sein und Schritte unternehmen, um seine potenziell katastrophalen Folgen zu verhindern.

Zusammenfassend lässt sich sagen, dass ‚Dateninzest‘ eine ernsthafte Herausforderung für die Zukunft der KI darstellt. So wie im Fall der Habsburger Monarchie kann die unkontrollierte Vermischung von Genen innerhalb derselben Familie – in diesem Fall die Verwendung von Daten, die von KI generiert wurden, um andere KI zu trainieren – zu Degeneration und letztendlich zum Zusammenbruch führen. Um dieses Szenario zu vermeiden, müssen wir uns dieses Problems bewusst sein und aktiv daran arbeiten, es anzugehen. Nur dann können wir sicherstellen, dass KI weiterhin nützliche und innovative Dienstleistungen bietet, ohne mit ihrer eigenen Version des ‚Habsburger-Zusammenbruchs‘ konfrontiert zu werden.