Sora KI Videos Beitragsbild unserTraining.de

KI Videos mit Sora (Sora wurde abgekündigt)

Sora 2: Wie man KI-Videos wie ein Regisseur steuert – wir testen Sora von Open AI

Wichtiger Hinweis: Die Video-KI Sora von OpenAI wurde eingestellt. Die Web- und App-Versionen endeten am 26. April 2026, die API folgt am 24. September 2026. Alle Nutzerdaten und Inhalte werden nach den Stichtagen dauerhaft gelöscht.

Wenn Sie Inhalte in Sora erstellt haben, sollten Sie diese umgehend exportieren!

Von unserTRAINING.de | KI-Schulungen

Vom Keyword-Tippen zum Drehbuch-Denken

Wer zum ersten Mal mit Sora 2 arbeitet, erlebt dasselbe: Faszination und Überwältigung gleichzeitig. Man kann prinzipiell alles beschreiben – und bekommt trotzdem oft Ergebnisse, die weit hinter der eigenen Vorstellung zurückbleiben. Woran liegt das?

Das zentrale Problem ist der Ansatz. Wer Sora wie eine Suchmaschine benutzt und kurze Stichwörter eintippt, erhält sterile, generische Clips. Wer dagegen wie ein Regisseur denkt und eine Szene vollständig beschreibt – Licht, Bewegung, Kamera, Klang – bekommt etwas qualitativ anderes. Diese Erkenntnis klingt einfach, verändert in der Praxis aber alles.

Wir haben uns intensiv mit dem verfügbaren Prompting-Material zu Sora 2 beschäftigt und möchten hier die wichtigsten Methoden vorstellen – inklusive einiger Punkte, bei denen wir selbst skeptisch geblieben sind.

Die fünf Säulen eines guten Prompts

Das wirksamste Werkzeug aus unserer Beschäftigung mit dem Thema ist ein einfaches Framework, das jeden Prompt in fünf Ebenen unterteilt. Statt eines einzelnen Satzes schreibt man einen kurzen Szenenaufbau:

Subjekt + Aktion beschreibt, wer handelt und was passiert. Setting + Zeit legt fest, wo und wann die Szene spielt. Kamerastil gibt Perspektive und Bewegung vor. Licht + Textur definiert Stimmung und Materialwirkung. Audio + Ton vervollständigt die Klangwelt der Szene.

Das klingt nach viel Aufwand – ist es aber nicht. Ein vollständiger Prompt nach diesem Schema könnte so aussehen: „Ein müder Mann läuft in Berlin durch eine regennasse Gasse bei Nacht. Handkamera folgt ihm von hinten. Neonlichter spiegeln sich auf dem Asphalt. 35mm-Filmkörnung. Leises Stadtgeräusch, entferntes Autohupen.“ Das Ergebnis unterscheidet sich fundamental von einem schlichten „Mann geht durch die Stadt.“

Die Methode deckt sich mit dem, was wir aus der Arbeit mit Bildgeneratoren wie Midjourney kennen: Je präziser die Beschreibung, desto kohärenter das Ergebnis. Dieses Prinzip überträgt sich auf Video-KI.

Der Hook: Die ersten zwei Sekunden entscheiden

In der Aufmerksamkeitsökonomie sozialer Medien gilt: Wer die ersten Sekunden nicht nutzt, hat den Zuschauer bereits verloren. Für Sora-Prompts empfiehlt es sich deshalb, den Einstieg explizit zu definieren – etwa mit der Formulierung „First 2 seconds: [Hook]“ direkt zu Beginn des Prompts.

Effektive visuelle Hooks reichen von dramatischen Elementen wie einer Explosion im Hintergrund oder einer plötzlich aufbrechenden Tür über subtile Rätselmomente wie eine Silhouette im Nebel bis hin zu akustischen Triggern, bei denen ein einzelnes Geräusch sofort Spannung aufbaut.

Hier ist allerdings eine gewisse Vorsicht angebracht: Ob Sora diese spezifische Syntax zuverlässig und konsistent interpretiert, ist nicht offiziell dokumentiert. Es handelt sich dabei um eine praktische Konvention, keine garantierte technische Funktion. Wer damit arbeitet, sollte eigene Tests machen und nicht blind auf diese Formulierung vertrauen.

Kamerasprache: Das Vokabular des Visuellen

Eine der nützlichsten Erkenntnisse ist, wie stark die Wahl des Kamerastils das emotionale Ergebnis beeinflusst. Sora reagiert auf filmsprachliche Begriffe deutlich besser als auf technische Kommandos.

Einige besonders wirksame Stile: Die Handkamera erzeugt einen dokumentarischen, unmittelbaren Eindruck. Ein Drone Shot verleiht Szenen Weite und Erhabenheit. Die First-Person-Perspektive schafft maximale Immersion. Ein Over-the-Shoulder-Shot wirkt persönlich und gesprächsnah. Für Objektive gilt: 35mm erzeugt klassische Kinooptik, ein Fischauge bringt Verzerrung und Energie, ein Portrait-Objektiv (85mm) weiche Hintergründe und emotionale Nähe.

Der wichtigste Tipp dabei: Beschreibt, was ihr seht – nicht, was die KI technisch tun soll. „Wackelige Handkamera“ funktioniert besser als „aktiviere Shake-Effekt“. Visuelle Sprache schlägt technischen Jargon immer.

Licht als Stimmungsmacher

Licht ist in der Filmsprache das primäre Mittel zur emotionalen Steuerung. Das gilt auch für KI-generierte Videos. Ein paar besonders ausdrucksstarke Lichtstile, die gut funktionieren:

Die goldene Stunde kurz vor Sonnenuntergang erzeugt Wärme und Nostalgie. Neon-Glow bringt Cyberpunk-Energie und Großstadtnacht. Kerzenlicht schafft Intimität. Rücklicht-Silhouette erzeugt Dramatik und Geheimnis. Fluoreszierende Bürobeleuchtung wirkt kalt, steril, bedrückend – perfekt für dystopische oder bürokratische Szenen.

Wer Licht im Prompt benennt, steuert damit gleichzeitig, wie sich die Szene anfühlt – nicht nur, wie sie aussieht.

Audio: Die unterschätzte Dimension

Sora 2 kann laut eigener Beschreibung Soundscapes erzeugen – von Umgebungsgeräuschen bis hin zu synchronisiertem Dialog. Klanganweisungen wie „Regen auf Blechdach“, „gedämpfte Musik aus dem Nebenzimmer“ oder ein „dringlicher“ Sprachton können die Immersion deutlich steigern.

Allerdings sollte man bei einer Funktion besonders vorsichtig sein: Die präzise Lippensynchronisation – also die exakte Abstimmung von Mundbewegungen auf gesprochenen Dialog – ist eine Fähigkeit, bei der KI-Videotools nach wie vor erhebliche Schwächen zeigen. Frühere Demos haben das deutlich gezeigt. Wer professionelle Ergebnisse in diesem Bereich erwartet, sollte eigene Tests durchführen, bevor er plant, diese Funktion produktiv einzusetzen.

Was hingegen verlässlich funktioniert, ist die Beschreibung atmosphärischer Klangwelten. Ein Prompt mit Klangbeschreibung klingt und wirkt deutlich vollständiger als einer ohne.

Prompt: ICE agents arresting a chihuahua wearing a sombrero

Physik und Kinetik: Das Ende des Uncanny Valley

Was eine flüssige KI-Animation von einem physisch glaubwürdigen Film unterscheidet, ist die explizite Beschreibung physikalischer Eigenschaften. Ohne Angaben zu Gewicht, Widerstand, Abprallen und Luftbewegung wirken Bewegungen oft unnatürlich schwebend – das menschliche Auge erkennt das sofort.

Das Mittel dagegen sind Verben, die Masse und Energie transportieren. Statt „ein Koffer fällt“ schreibt man: „The suitcase tumbles, latches snapping, papers scattering in the wind.“ Dieser Unterschied in der Beschreibungsqualität ist einer der wirksamsten Hebel für mehr Realismus.

Filmästhetik als Stilreferenz

Ein praktikabler Weg, schnell einen konsistenten visuellen Stil zu definieren, ist die Referenz auf bekannte Filmästhetiken. Begriffe wie Neon-Noir à la Blade Runner (Regenreflexionen, trenchcoats, Synth-Atmosphäre), Chiaroscuro-Licht wie im Paten (dunkle Räume, dramatische Schatten, geflüsterte Dialoge) oder La La Land (goldenes Stundenlicht, vibrierende Farben, Jazzclub-Atmosphäre) funktionieren als kompakte Stilanker.

Ergänzend gibt es globale Filmstile: Koreanisches Kino arbeitet mit pastelligen Farbtönen und flacher Schärfentiefe, Französische Nouvelle Vague mit Schwarzweiß und Sprungschnitten, Japanischer Samuraifilm mit statischen Weitwinkelaufnahmen und poetischen Landschaften.

An dieser Stelle müssen wir jedoch klar auf ein Rechtsproblem hinweisen: In vielen Guides, die im Web kursieren, wird behauptet, die Nutzung historischer Persönlichkeiten sei pauschal „erlaubt“ und rechtssicher. Das ist eine gefährliche Vereinfachung. Die Liste umfasst Personen wie Martin Luther King Jr., Elvis Presley oder Marilyn Monroe – deren Nachlassverwalter und Rechtsnachfolger in vielen Fällen aktiv Persönlichkeitsrechte schützen und auch bei verstorbenen Personen Nutzungsrechte geltend machen. Im deutschsprachigen Raum greifen das allgemeine Persönlichkeitsrecht und das Recht am eigenen Bild teils bis zu 70 Jahre nach dem Tod. Wer solche Darstellungen kommerziell nutzt, sollte vorab rechtliche Beratung in Anspruch nehmen.

Stilreferenzen für Animationen und Games

Für alle, die über rein realistische Videos hinaus wollen: Sora versteht auch animierte Ästhetiken. Von Pixar-3D (poliertes Licht, weiche Schatten, ausdrucksstarke Charaktere) über Spirited Away (handgezeichnete Texturen, traumhafte Bewegungen) bis zu Stop-Motion à la Wallace & Gromit (12fps, Knetmasse-Textur, Squash-and-Stretch-Physik) lassen sich völlig unterschiedliche visuelle Welten beschreiben.

Videospiel-Ästhetiken funktionieren ebenfalls: Minecraft (blockartige Voxelgrafik, First-Person), Pixel Art à la Atari (niedrige Auflösung, begrenzte Farbpalette), oder Metal Gear Solid (Stealth-Kamerawinkel, dramatische Zooms, cineastische Cutscene-Optik).

Prompt-Beispiele zum Direkteinstieg

Um die beschriebenen Methoden greifbar zu machen, haben wir konkrete Beispielprompts zusammengestellt – jeweils in der englischen Originalsprache (wie Sora sie verarbeitet) und als deutsche Beschreibung daneben.

Atmosphärischer Stadtclip: „Handheld camera follows a tired office worker through a rain-soaked Berlin side street at night. Neon signs reflect off wet cobblestones. 35mm film grain. Distant tram sounds, soft jazz from a bar window.“ → Handkamera folgt einem müden Büromenschen durch eine regennasse Berliner Gasse bei Nacht, Neonreflexionen auf Kopfsteinpflaster, 35mm-Filmkörnung, Straßenbahn in der Ferne.

Dramatischer Einstieg mit Hook: „First 2 seconds: Door bursts open. A detective steps into a dark archive room, flashlight cutting through dust. Moody overhead lighting. File boxes everywhere. Tense synth score rising.“ → Tür fliegt auf als Hook, Detektiv betritt dunkles Archivzimmer mit Taschenlampe, Staubpartikel im Licht, Aktenboxen überall, anschwellende Synthmusik.

Emotionaler Close-up: „Extreme close-up of an elderly woman’s hands holding a faded photograph. Golden hour light through dusty curtains. Soft piano score. No dialogue. Slow zoom out to reveal a quiet living room.“ → Extremer Nahaufnahme alter Hände mit verblasstem Foto, goldenes Stundenlicht durch staubige Vorhänge, leises Klavierstück, langsamer Zoom heraus ins stille Wohnzimmer.

Humorvoller Creative-Prompt: „Bodycam footage of a cat in a tiny business suit presenting quarterly earnings to an unimpressed board of dogs. Fluorescent office lighting. PowerPoint slides with fish charts. Awkward silence.“ → Bodycam-Aufnahme einer Katze im Mini-Anzug, präsentiert Quartalsergebnisse vor einem desinteressierten Vorstand aus Hunden, Bürobeleuchtung, PowerPoint mit Fisch-Diagrammen, peinliche Stille.

Zeitgemäßer Schulungs-/Erklärclip: „Top-down shot of two hands typing on a laptop in a modern co-working space. Warm afternoon light. Soft keyboard sounds. Split screen reveals the AI-generated output appearing in real time. Lo-fi background music.“ → Vogelperspektive auf tippende Hände im Co-Working-Space, warmes Nachmittagslicht, geteilter Bildschirm zeigt KI-Output in Echtzeit, Lo-fi-Hintergrundmusik.

Historischer Stil: „Black-and-white handheld footage of a 1940s New York street market. Overcast sky. Vendors calling out. Wide angle shot slowly panning through the crowd. Soft period-appropriate string music.“ → Schwarzweiß-Handkamera auf einem New Yorker Straßenmarkt der 1940er, bedeckter Himmel, rufende Händler, langsamer Schwenk durch die Menge, dezente Streichermusik der Epoche.

Fazit: Werkzeug ja, Wundermittel nein

Sora 2 ist ein leistungsfähiges Werkzeug – aber kein Selbstläufer. Die Qualität des Outputs hängt direkt von der Qualität des Inputs ab. Wer die filmsprachlichen Grundprinzipien versteht und konsequent anwendet, wird deutlich bessere Ergebnisse erzielen als jemand, der spontan Keywords eintippt.

Gleichzeitig gilt: Einige der im Umlauf befindlichen Versprechen rund um Sora 2 – präzise Lippensynchronisation, garantierte Rechtssicherheit bei bekannten Persönlichkeiten, verlässlich interpretierte Sondersyntax – sind zum aktuellen Zeitpunkt entweder übertrieben oder nicht belastbar dokumentiert. Wer produktiv damit arbeiten möchte, fährt besser mit eigenen Tests als mit übernommenen Behauptungen.

Unser Tipp: Fange mit einem klaren Szenario an, baue es mit den fünf Prompt-Ebenen auf, teste drei bis vier Varianten – und beobachte, was tatsächlich funktioniert. Das ist keine KI-Magie, sondern Handwerk. Und Handwerk lässt sich lernen.

Den kompletten Guide zum Download gibt es hier. (PDF-Datei)

Wir von unserTRAINING bieten Schulungen zu KI-Tools für Business und Content Creation an – von ChatGPT für den beruflichen Alltag bis zu KI-gestützter Videoproduktion.

Unsere weiteren Schulungen und Kurse für die Bereiche Bildbearbeitung sowie KI Generierung von Videos, Bildern und Grafiken: