Cookie Consent by Free Privacy Policy Generator

Vom Rauschen bis zum Kunstwerk – Wie funktioniert ein Diffusionsmodell?

Ein Foto von einem Selbstportrait von Vincent Van Gogh
Photo by Alina Grubnyak / Unsplash

In der Vergangenheit haben wir angeschnitten wie Sprachmodelle funktionieren und das diese grob umfasst eigentlich nur die nächsten Wörter basierend auf dem bereits gesagten voraussagen. Aber hast du dich je gefragt wie KIs eigentlich Bilder erzeugen?

Stell dir vor, du hast mühevoll ein Bild gezeichnet nur um es dann mit einem Radierer zu zerstören, so lange bis nur noch wirres Rauschen übrig bleibt. Und dann musst du aus diesem Rauschen, genau umgekehrt wieder alles sauber herauszuzaubern: Schritt für Schritt die Details zurückholen, bis aus dem Chaos wieder ein beeindruckendes Kunstwerk entsteht, und das immer und immer wieder. Genau das macht ein Diffusionsmodell.

Ein Beispiel für die Verwendung von Diffusionsmodellen für die Bildgenerierung.
Quelle: www.ultralytics.com/

Im Kern geht es darum, echte Bilder in winzige Puzzleteilchen aus Rauschen aufzulösen und anschließend zu lernen, wie man diese Puzzleteile wieder zusammensetzt. In der ersten Phase – dem Vorwärtsprozess – wird ein Foto oder eine Illustration mehrfach verrauscht. Bei jedem Schritt kommt ein wenig mehr „Zufall“ hinzu, bis das ursprüngliche Motiv kaum noch zu erkennen ist. Du kannst es dir wie einen immer stärker verwischten Wasserfarben-Anstrich vorstellen. Dann kommt der spannende Teil: der Rückwärtsprozess. Hier wird ein neuronales Netzwerk darauf trainiert, genau dieses Rauschen zu durchschauen und systematisch zu entfernen. Es lernt, wie echte Bilder typischerweise aussehen – welche Formen, Farben und Strukturen zusammengehören. Dafür erhält es beim Training unzählige Beispiele, bei denen der Computer bereits weiß, wie das Bild vor dem Verrauschen aussah. So erkennt er Muster, die ein Foto oder eine Zeichnung „realistisch“ machen.

💡
Vorwärtsdiffusion: Bild wird schrittweise verrauscht, bis nur noch Zufallsmuster übrig sind.

Rückwärtsdiffusion: Ein trainiertes Modell entfernt das Rauschen Schritt für Schritt und rekonstruiert daraus ein realistisches Bild.

Nach dem Training kannst du das Modell anstoßen, indem du es mit reinem Rauschen fütterst, also praktisch dem leeren Blatt Papier, das komplett zufällig ist. Schritt für Schritt entwirft das Programm daraus ein neues Bild – beispielsweise einen Sonnenuntergang am Strand, einen Comic-Helden oder eine surreale Landschaft. Alles entsteht aus dem Nichts, nur basierend auf dem, was das Modell gelernt hat.

Ein weiterer Vorteil sind sogenannte Guidance-Mechanismen, mit denen du das Ergebnis steuern kannst. Du gibst dem Modell zum Beispiel den Hinweis „male mir einen Drachen im Stil einer alten Holzschnitt-Illustration“. Dann nutzt es seine erlernten Bildstatistiken, um etwas zu erzeugen, das genau dazu passt.

Warum ist das Ganze so faszinierend? Weil Diffusionsmodelle unglaublich flexibel sind: Sie können nicht nur Bilder, sondern auch Musik oder Sprache erzeugen und sogar verrauschte Audiodaten wiederherstellen. Sie spielen eine große Rolle in aktuellen KI-Systemen wie Stable Diffusion oder DALL·E 2 und treiben die kreative Zusammenarbeit zwischen Mensch und Maschine voran. Man kann im Prinzip sagen, dass jede Art von digitalen Medien von einem dafür trainierten Modell erzeugt werden kann.

Am Ende entsteht etwas, das aussieht wie handgemachte Kunst, obwohl es komplett algorithmisch erzeugt wurde. Und das alles, weil ein cleverer Trick aus der Physik – die Idee des langsamen Vermischens und anschließenden Entmischens von Teilchen – auf moderne KI umgemünzt wurde. Ein kleiner Ausflug in die Welt der Diffusion, der hoffentlich Lust macht, selbst mal kreativ mit KI zu experimentieren!


Quellen:

Diffusionsmodelle: Generative KI erklärt | Ultralytics
Erkunde mit uns, wie Diffusionsmodelle genutzt werden können, um realistische Inhalte zu erstellen und Bereiche wie Design, Musik und Film mit verschiedenen Anwendungen neu zu definieren.