Motion Graphics, die sich von allein bauen — meine Claude-Code-Pipeline

Jede Animation, die in meinem Video aufploppt — die Zahlen, die hochzählen, die Balken, die wachsen, die kleinen Terminal-Fenster — hat sich komplett von allein gebaut. Ich habe dafür nicht eine Sekunde in After Effects verbracht, kein DaVinci für die Animation benutzt und keinen einzigen Keyframe von Hand gesetzt.

Und genau diese Arbeit ist die, die an der Videoproduktion am längsten aufhält. Dein Talking-Head-Material ist abgedreht, der Schnitt steht — aber damit das Video professionell wirkt, brauchst du Einblendungen und im besten Fall richtige Motion Graphics. Bis heute heißt das Handarbeit: Jede Zahl, jedes Chart, jede Einblendung animierst du selbst, taktest sie aufs Wort und hinterlegst dein Branding. Oder du kaufst die Dienstleistung ein. So oder so kostet dich das unheimlich viel — Zeit oder Geld. Deshalb habe ich mir überlegt, wie ich genau diesen Schritt mit Claude Code automatisiere. Herausgekommen ist ein Skill namens CueMotion: Ich werfe die Tonspur eines Videos rein, und heraus kommen fertige Motion-Graphics-Overlays, passend zur Situation und genau dann, wenn das passende Wort ausgesprochen wird — schnittfertig in meinem Branding.

Warum Motion Graphics dein größter Zeitfresser sind

Ein Talking-Head-Video lebt von Bewegung. Wenn nur ein Kopf redet und sich sonst nichts tut, bist du nach dreißig Sekunden weg. Die Motion Graphics sind das, was den Blick festhält: die Zahl, die hochzählt, wenn ich von Umsatz rede, das Vergleichs-Chart, wenn ich zwei Tools gegenüberstelle, das Terminal-Fenster, wenn ich einen Befehl zeige. Das ist keine Deko, das ist Retention.

Aber es ist die undankbarste Arbeit im ganzen Prozess. Selbst als ich solche Grafiken schon als Code beschrieben habe statt jeden Keyframe zu klicken, blieb es Handarbeit: für jede Grafik selbst entscheiden, an welche Stelle sie kommt, sie einzeln bauen, einzeln rendern, auf die Timeline ziehen und aufs Wort schieben. Rechne das hoch — bei zwei bis drei Videos die Woche mit jeweils zehn, fünfzehn Grafiken sitzt du da Stunden um Stunden. Das skaliert nicht. Und Sachen, die nicht skalieren, sind bei mir immer der erste Kandidat für Automatisierung.

Der Kerngedanke: Dein Transkript weiß es schon

Der Teil, den die meisten übersehen: Die Information, wo eine Animation hinsoll, steht schon in deinem Video. Du sagst sie ja selbst. In dem Moment, wo ich sage „der Umsatz ist um das Zehnfache gestiegen", ist logisch, dass da eine Zahl hochzählen soll. Sage ich „Variante A gegen Variante B", muss da eine Vergleichs-Grafik hin. Lese ich einen Befehl vor, gehört da ein Terminal-Fenster hin.

Dein gesprochener Text ist also die Bauanleitung. Der Skill muss dir nicht erst sagen, wo die Animationen hinkommen — er muss nur zuhören, was du sagst. Und weil jedes Wort im Transkript einen Start- und Endzeitpunkt auf die Millisekunde genau hat, erbt jede Einblendung den Zeitstempel vom Wort, das sie ausgelöst hat. Nicht ich takte die Grafik aufs Wort, sondern die Grafik erbt den Takt vom Wort. Da verrutscht nichts.

Der Skill in Aktion: Tonspur rein, fertige Overlays raus

So läuft das in der Praxis ab. Nach der Aufnahme schneide ich das Video in DaVinci Resolve exakt zurecht, exportiere nur die Audio-Datei und lege sie im Projektordner ab. Das ist die Ausgangsbasis. Dann sage ich Claude einfach: nimm diese Tonspur und bau mir darauf die Animationen. Claude greift sich den CueMotion-Skill, und ab hier läuft alles von allein. Die Pipeline läuft in drei Phasen:

Transkription. Über einen API-Call an ElevenLabs Scribe läuft die Tonspur durch eine Speech-to-Text-Erkennung. Raus kommt der Text mit einem Zeitstempel auf jedem Wort — die transcript.json.
Analyse (das Herzstück). Claude liest das Transkript wie ein Editor und entscheidet zwei Dinge auf einmal: Wo sollen Animationen hin, und welcher Baustein aus dem Motion-Katalog wird dafür gebraucht? Daraus entsteht ein Manifest — plus eine HTML-Vorschau-Galerie, die du im Browser öffnest. Dort siehst du für dein Video kleine Vorschau-Fenster mit den Animationen, exakt so, wie sie später als Videodatei rauskommen: in deinen Farben, in deinen Schriften. Du hast an dieser Stelle die volle Kontrolle, kannst anpassen und eine neue Vorschau erzeugen.
Rendering. Jede Animation wird zu einer Videodatei mit echtem transparentem Hintergrund — konkret ProRes 4444 mit Alpha-Kanal. Das ist der längste Schritt und kann je nach Umfang zwanzig, dreißig Minuten dauern. Der Vorteil: Wenn du danach eine einzelne Animation ändern willst, renderst du gezielt nur diese neu — nicht die ganze Pipeline.

Der Katalog: 22 Bausteine, ein Look

Die Pipeline ist nur die eine Hälfte. Die andere sind die Bausteine, aus denen die Grafiken entstehen. Der Katalog ist in drei Bereiche aufgeteilt. Der größte Teil sind die Bausteine fürs Video selbst, die du dir frei platzieren kannst — mal als Vollbild, mal nur auf einer Hälfte, mal als kleines Element über dem Talking-Head: Captions, Diagramme, die aufwändigen Claude-Terminals, Smartphone-Ansichten, UI-Elemente und Listen, die Punkt für Punkt einfliegen. Dann der Data-Bereich, immer dann stark, wenn es um Zahlen geht — Zahlenvergleiche, Funnel-Analysen, alles, was sich in Zahlen ausdrücken lässt. Und der Lottie-Tab, mit dem ich Lottie-JSON-Dateien mit einem einzigen Befehl direkt in fertige Videodateien umrendere.

Der entscheidende Punkt: Du wählst da nichts aus. Du redest einfach, und der Skill greift sich den passenden Baustein. Sag eine Zahl, kriegst du einen Counter. Vergleich zwei Sachen, kriegst du einen Vergleich. Er übersetzt deine Sprache in die passende Grafik.

Das Geheimnis: Es kennt deine Marke

Das ist der Teil, der aus einer netten Spielerei ein echtes Werkzeug macht. Der Skill kennt genau eine Marke: deine. In einem Markenprofil liegen deine Farben, deine Schriften, deine Tonalität, sogar eine Liste mit Dingen, die er vermeiden soll. Dieses Profil geht bei jeder einzelnen Grafik als Kontext mit rein. Jeder Counter, jedes Chart, jedes Terminal-Fenster kommt automatisch in deinem Look raus — nicht in irgendeinem Blau von der Stange. Das ist im Prinzip dasselbe Konzept wie ein Design-System, nur dass es hier nicht ein Mensch befolgt, sondern die KI bei jeder Grafik automatisch. Genau daran scheitern die meisten selbstgemachten Grafiken: Sie sehen jedes Mal ein bisschen anders aus. Hier nicht.

Setup in zwei Minuten und der Overlay-Download

Und weil das Markenprofil der Kern ist, funktioniert der Skill auch für dich, nicht nur für mich. Du holst dir CueMotion, legst den Ordner in dein eigenes Claude-Projekt und sagst: richte mir den Skill ein. Claude fragt dich dann nach deinen Farben, deiner Typografie, deiner Tonalität und was es vermeiden soll. Du antwortest in normalem Deutsch, so wie du es einem Mitarbeiter erklären würdest, und Claude schreibt daraus dein Markenprofil. Das Drumherum nimmt dir der Skill ebenfalls ab — er prüft, was auf deinem Rechner fehlt, installiert Zusatz-Sachen wie ffmpeg und zieht sich die nötigen Bibliotheken. Das Einzige, was du selbst beisteuerst, ist dein eigener API-Schlüssel, allen voran der Anthropic-Key. Ohne eigenen Key läuft so ein Skill nicht — das ist bei jedem so, aber es ist ein Eintrag in einer Datei, kein Hexenwerk.

Und dann der Punkt, der im Alltag am meisten zählt: der transparente Hintergrund. Für meine Querformat-Videos will ich kein fertig zusammengerechnetes Video, sondern die Grafiken einzeln, damit ich im Schnitt die volle Kontrolle behalte. Genau das kriege ich — jede Grafik als eigene Videodatei mit echtem Alpha-Kanal. Kein Grünscreen, den du wegstanzen musst. Ich ziehe eine Datei auf eine Spur über das Talking-Head, spiele ab, und die Grafik schwebt sauber frei, mein Gesicht bleibt sichtbar. Dazu legt der Skill ein Hand-off-Cheatsheet dazu: welche Datei an welchen Timecode, an welche Position. Ich gehe die Liste einmal durch, und jede Grafik sitzt da, wo ich das Wort gesagt habe. Du musst also nicht in meinem Skill schneiden — du nutzt ihn nur für den Teil, der wehtut, und behältst deinen eigenen Workflow für alles andere.

Was das real bringt

Unterm Strich drei Dinge. Erstens Zeit: Der Schritt, der mich früher pro Video Stunden gekostet hat, läuft jetzt im Hintergrund, während ich etwas anderes mache. Editing war mein Flaschenhals, und der ist weg. Zweitens Konsistenz: Jedes Video sieht aus wie vom selben Kanal, weil dieselben Bausteine, Farben und Schriften durchlaufen — Wiedererkennungswert, ohne jedes Mal drüber nachzudenken. Und drittens, für die meisten der eigentliche Punkt: Du brauchst keinen Editor und keine teure Software, in die du dich ein halbes Jahr einarbeitest.

Der Beweis, der zählt: Jede Grafik in meinem Video kam aus genau dieser Pipeline. Ich erzähle hier nichts Theoretisches — ich zeige dir das Ding, das mein eigenes Video gebaut hat, während ich es aufgenommen habe. Das ist derselbe Ansatz, den ich auf dem Kanal generell verfolge: KI-Tools nicht kaufen, sondern für den eigenen Bedarf mit Claude Code selbst bauen.

Fazit

Du nimmst dein Video auf, der Skill hört auf dein Transkript, entscheidet selbst, wo welche Grafik hinkommt, baut sie in deiner Marke und gibt sie dir als fertige, transparente Overlays raus. Der Teil, der früher der Flaschenhals war, macht sich jetzt von allein.