SoundkAI

Soundkai

Große Sprachmodelle werfen ihre Schatten voraus. Wie gestalten wir in Zukunft Inhalte? Wo hilft uns das? Was bedeutet das für unser Schaffen? Welche Hoffnung müssen wir mit den neuen Technologien verbinden, damit wir am Ende das Beste erhalten und nicht der Ernüchterung erliegen. Das gelingt nur, wenn wir uns mit dem Neuen befassen, so, wie wir es möchten: verantwortungs- und rücksichtsvoll, kreativ, belebend und möglicherweise inspirierend. In verschiedenen Abständen erstellen wir mithilfe der "Jedermann-KI" Beiträge. Wer möchte der folge. Wir sind überzeugt, manche Menschen können durch künstliche Intelligenz bestärkt werden, Neues zu tun, Interessantes zu gestalten. ...also machen wir es. Weitere Infos auf www.technete.art

Folgen

  1. 07.03.2025

    Kai-Talk No 2 - der Seed

    Taucht mit uns in das Thema Seed ein. Bei der Bildgenerierung ist es nicht so leicht jenseits des Prompts ganz genau vorzugeben, wohin die Reise geht. Denn der Beginn ist Zufall und irgendwo und irgendwann muss die KI ja anfangen, mit unseren Prompts zu spielen und aus seinen Daten etwas zu erschaffen, was mit unseren Erwartungen übereinstimmt. Wir nutzen KI für unsere eigenen kreativen Ideen und sind gespannt, was wir noch alles darüber lernen können. Im Spannungsfeld zwischen Erwartungen und den Ergebnissen kommt der kleine Seed ins Spiel. Für uns als Einsteiger nicht leicht nachzuvollziehen, was so ganz genau im Inneren der KI passiert, wenn aus Rauschen Ordnung wird. Wenn wir aber unsere eigenen Wünsche einbringen wollen, ist die Beschäftigung für uns Laien einfach nötig. Vielleicht gibt diese Erklärung von Chat GPT weiteren Input: Initialisierung mit einem Zufallsvektor: Beim Start wird ein Vektor mit zufälligen Werten erstellt – dieser dient als Seed. Er sorgt dafür, dass der Zufallsprozess reproduzierbar ist, wenn derselbe Seed erneut verwendet wird. Transformation des Rauschens: Dieser Zufallsvektor wird typischerweise in ein Rauschbild eingebettet. In Diffusionsmodellen oder auch bei manchen Ansätzen mit Generative Adversarial Networks (GANs) wird dieses Rauschbild als Ausgangspunkt genutzt. Über mehrere Iterationen entfernt das Modell schrittweise das Rauschen und fügt strukturierte Details hinzu. Emergente Struktur durch Netzarchitektur: Die Architektur des neuronalen Netzwerks – etwa durch Convolutional Layers oder Attention-Mechanismen – bestimmt, wie und wo sich Strukturen entwickeln. Es gibt keinen vorab festgelegten Punkt im Bild, an dem ein "Impuls" gesetzt wird. Stattdessen entstehen diese strukturierten Details als Ergebnis der Trainingsprozesse, bei denen das Modell lernt, welche Muster und Zusammenhänge in den Trainingsdaten üblich sind. Metaphorisch betrachtet: Anstatt einen einzelnen, festen Pixel als "Impuls" zu setzen, liefert der zufällige Seed den "Keim" der Information. Dieser Keim wird dann durch das Modell "bewässert" und "geformt", sodass sich nach und nach aus dem anfänglichen Chaos ein Bild entwickelt – vergleichbar mit dem Prozess, den Du beschrieben hast: vom einzelnen Pixel hin zu immer komplexeren Formen wie einem Schuh, einem Clown und letztlich einem ganzen Zirkus.

    10 Min.

Info

Große Sprachmodelle werfen ihre Schatten voraus. Wie gestalten wir in Zukunft Inhalte? Wo hilft uns das? Was bedeutet das für unser Schaffen? Welche Hoffnung müssen wir mit den neuen Technologien verbinden, damit wir am Ende das Beste erhalten und nicht der Ernüchterung erliegen. Das gelingt nur, wenn wir uns mit dem Neuen befassen, so, wie wir es möchten: verantwortungs- und rücksichtsvoll, kreativ, belebend und möglicherweise inspirierend. In verschiedenen Abständen erstellen wir mithilfe der "Jedermann-KI" Beiträge. Wer möchte der folge. Wir sind überzeugt, manche Menschen können durch künstliche Intelligenz bestärkt werden, Neues zu tun, Interessantes zu gestalten. ...also machen wir es. Weitere Infos auf www.technete.art