Die Habsburger Monarchie, eine der mächtigsten Dynastien der Geschichte, fiel aufgrund von Inzest, der zu Degeneration führte. Diese Dynastie, die große Teile Europas und der Welt regierte, wurde allmählich schwächer, bis sie vollständig ausstarb. Dieser Niedergang war nicht das Ergebnis äußerer Kräfte oder feindlicher Invasionen, sondern vielmehr eine interne Degeneration, die durch Inzest verursacht wurde. Ein ähnliches Problem könnte in der Welt der Künstlichen Intelligenz (KI) auftreten – ‚Dateninzest‘.
Dieses Phänomen tritt auf, wenn KI Daten verwendet, um aus Daten zu lernen, die von einer anderen KI generiert wurden. Dies kann zu Daten-Degeneration führen, ähnlich wie es in der Habsburger Monarchie geschah. Diese Analogie kann uns helfen, die potenziellen Gefahren, die die Welt der Künstlichen Intelligenz bedrohen, besser zu verstehen.
Verzerrte, Langweilige und Schlechte Ergebnisse
Generative KI, die in unserem digitalen und realen Leben allgegenwärtig ist, basiert auf von Menschen geschaffenen Daten. Große Sprachmodelle (LLMs) generieren keine Inhalte aus dem Nichts, sondern werden trainiert, um Antworten (z. B. Texte, Bilder) unter Verwendung von Materialien zu generieren, die von echten Menschen erstellt wurden, normalerweise aus dem Web und anderen öffentlichen Quellen gesammelt. Wenn generative KI jedoch auf synthetisch erstellten Inhalten trainiert wird, beginnen seltsame Dinge zu passieren. Genau das zeigt eine kürzlich veröffentlichte Studie von Forschern der Stanford-Universität.
Die Studie befasst sich mit den Herausforderungen beim Training großer Sprachmodelle der Künstlichen Intelligenz, bei denen synthetische Daten für ihr Training verwendet werden. Die Autoren zeigen, dass ohne genügend frische reale Daten, um die Modelle zu trainieren, die Qualität oder Vielfalt der generierten Antworten allmählich abnimmt. Die Studie präsentiert drei zentrale Schlussfolgerungen über die Auswirkungen verschiedener Trainingsmethoden auf die Qualität und Vielfalt der generierten Antworten. In Fällen, in denen Modelle ausschließlich auf synthetischen Daten aus vorherigen Generationen trainiert werden, nimmt die Qualität und Vielfalt allmählich ab. Wenn Modelle jedoch auf einer Kombination aus synthetischen Daten aus vorherigen Generationen und einem festen Satz realer Daten trainiert werden, nimmt die Vielfalt ab, aber die Qualität bleibt unverändert. Schließlich, wenn Modelle auf einer Mischung aus synthetischen Daten aus vorherigen Generationen und frischen realen Daten trainiert werden, bleiben sowohl Qualität als auch Vielfalt erhalten.
Es wird geschätzt, dass heute etwa die Hälfte der Menschen in den entwickelten Ländern aktiv generative KI an Hochschulen und in Büros nutzt. Sie verwenden KI-Tools – wie ChatGPT, Google Bard, Microsoft Bing und andere – um eine große Menge synthetischer Inhalte zu erstellen, die im öffentlichen Bereich landen und somit Inhalte werden, die zur Schulung großer Sprachmodelle verwendet werden können, die KI-Tools antreiben. Hier liegt die Gefahr des ‚Dateninzests‘, die zu zunehmend verzerrten, langweiligen und schlechten Ergebnissen führt, die von KI generiert werden. Dieses Phänomen kann mit Inzest in der Habsburger Monarchie verglichen werden, wo die kontinuierliche Inzucht von Familienmitgliedern zu genetischer Degeneration und zur Schwächung der Dynastie führte.
Weitreichende Konsequenzen
Das Problem ist, dass große Sprachmodelle neue Daten für ihre Entwicklung benötigen, und das Internet ist zunehmend mit synthetischen Inhalten überschwemmt. Wenn es zu viel destruktiven ‚Inzest‘ gibt, könnte alles einfach zusammenbrechen. Forscher an der Stanford-Universität haben herausgefunden, dass es nur fünf Trainingszyklen mit synthetischen Daten benötigt, damit die von KI bereitgestellten Antworten nutzlos werden. In diesem Fall können die Folgen des ‚Dateninzests‘ weitreichend sein. So wie die Degeneration zum Fall der Habsburger Monarchie führte, könnte auch ‚Dateninzest‘ zum Untergang der generativen KI führen.
