So funktioniert’s

Prompts verstehen

Home · So funktioniert’s · Prompts

🔥 Kein Zauber. Nur Struktur.
Wir zerlegen einen Prompt in klare Bausteine – und zeigen, was passiert, wenn du genau eine Stelle änderst.

Ziel: Du sollst Prompts nicht „glauben“, sondern verstehen.
Du kannst danach denselben Aufbau auf eigene Ideen übertragen.

TL;DR

Prompts sind keine Magie. Sie sind Bausteine (Identität, Kamera, Licht …).
Änderst du einen Baustein, ändert sich das Bild meist vorhersehbar.

1 Block ändern → vergleichen
Rest gleich lassen → Ursache klar
Das Ziel ist Verständnis, nicht Perfektion

Wichtig

Diese Seite verkauft kein „perfektes Prompt“.
Sie zeigt dir die Hebel – damit du deinen eigenen Weg findest.

Tipp: Du brauchst nicht „kreativ“ zu sein. Ändere nur ein Wort – und beobachte den Effekt.

Beispielprompt: Skateboard

Das ist der Ausgangspunkt. Von hier aus ändern wir gezielt einzelne Bausteine.

🧾 ORIGINAL PROMPT

Ultra-detailed cinematic action scene.


The dog from the reference photo is captured mid-air while skateboarding.
Reproduce its natural fur colors, markings, and body features exactly as in the reference photo.
Do not add a collar or harness. The fur should appear glossy and highly detailed.
– Camera angle: Low-angle fisheye perspective, extreme dramatic distortion.
– One exaggerated paw reaches forward into the extreme foreground, as if giving a high-five.
– All other paws are placed firmly on the skateboard.
– The skateboard is tilted mid-trick, dynamic and realistic.
Background: Urban street environment with motion blur.
Lighting: Epic cinematic lighting.
Visual style: analog film grain, gritty, energetic.
Constraints:
– Natural anatomy
– No accessories besides skateboard
– Strong focus on movement & intensity.

Hinweis: Das Referenzfoto ist der „Identity Anchor“. Der Rest ist Szene/Styling.

Original Output (bitte Bilddatei ersetzen) — Original Output (assets/…/original.PNG)

Warum Englisch – und warum diese Struktur

Du musst Prompts nicht so schreiben wie ich. Das hier ist kein „richtig/falsch“ – sondern ein Weg, um Ergebnisse reproduzierbarer zu machen und Änderungen gezielt testen zu können.

1) Trainingsdaten-Realität

Viele Bild- und Sprachmodelle wurden stark mit englischen Texten trainiert. Deutsch funktioniert oft – aber Englisch ist meist präziser, konsistenter und leichter zu debuggen, wenn ein Prompt „driftet“.

Deutsch klappt auch – vor allem bei klaren, einfachen Prompts.
Wenn Pose/Objekte kippen, ist Englisch oft leichter nachzuschärfen.
Es geht nicht um Sprache – sondern um Klarheit.

2) Struktur ist ein Werkzeug

Ich schreibe in Blöcken (Motiv, Kamera, Licht, Stil, Constraints), damit ich nichts vergesse und gezielt einzelne Hebel drehen kann.

Du kannst denselben Inhalt auch als Fließtext schreiben.
Wenn alle Infos drin sind, wird das Ergebnis oft ähnlich.
Für Lernfortschritt: immer nur 1 Block pro Test ändern.

Merksatz: Das ist ein Weg – nicht der Weg. Ziel ist Verständnis, nicht Copy/Paste.

Optional: Wenn du lieber frei schreibst …

Dann denk trotzdem an die üblichen Stellschrauben: Motiv, Kamera, Licht, Hintergrund, Stil, Constraints. Wenn das enthalten ist, kommst du oft sehr weit – auch ohne Block-Struktur.

Block 1: Identität (Referenzfoto)

Dieser Block sorgt dafür, dass es dein Tier bleibt – und nicht irgendein generischer Hund.

Identity Transfer

Die wichtigste Regel: „Wie auf dem Referenzfoto“ – klar und wiederholt.

Kurz gesagt: Dieser Block entscheidet, ob es wirklich dein Hund bleibt (Fell, Muster, Proportionen) – oder ob das Modell zu „Random Dog“ driftet.

Prompt-Ausschnitt

The dog from the reference photo is captured mid-air while skateboarding.


Reproduce its natural fur colors, markings, and body features exactly as in the reference photo.

Was macht das?

Verankert Fellfarben, Muster, Proportionen und den „Look“ am Referenzfoto. Ohne diesen Block driftet das Ergebnis schnell zu „Random Dog“.

Typische Anpassungen

„dog“ → „animal“ (für jedes Tier)
„captured mid-air“ → „standing / sitting“
mehr Details zu Fell/Markings (wenn nötig)

Risiko

Zu viel Zusatzbeschreibung kann das Referenzfoto „überschreiben“. Besser: kurz + eindeutig + wiederholbar.

Original (Identity Transfer aktiv) — Original (Referenz stark)

Variante: Identity schwach/unspezifisch — Variante: Identity zu schwach (identity_weak.PNG)

Block 2: Kamera / Lens

Kamera ist ein „Look-Schalter“. Fisheye wirkt krass – aber ist fehleranfälliger.

Fisheye vs. realistischer Look

Ein einzelner Satz verändert die gesamte Bildphysik.

Kurz gesagt: Kamera-Wörter sind ein Look-Schalter. Fisheye = maximal dynamisch, aber anfälliger für anatomische Fehler.

Prompt-Ausschnitt

– Camera angle: Low-angle fisheye perspective, extreme dramatic distortion.

Was macht das?

Fisheye verstärkt Dynamik durch Verzerrung: Vordergrund riesig, Background gebogen. Stark für Action – riskant für Anatomie.

Typische Anpassungen

„fisheye“ → „35mm documentary photo“ (stabiler)
„extreme distortion“ → „no distortion“
Low-angle beibehalten, aber Verzerrung rausnehmen

– Camera angle: 35mm documentary photo, low-angle, no distortion.

Risiko

Extreme Linsen/Verzerrungen erhöhen die Fehlerquote (Pfoten, Board, Proportionen). Wenn es “driftet”: vereinfachen.

Variante: 35mm, keine Verzerrung — Variante: 35mm (cam_35mm.PNG)

Block 3: Pose & Action

Action entsteht durch klare Körperlogik: Was macht welche Pfote – und warum?

Paw / Trick / Board

Je genauer die Pose, desto weniger Drift – aber: nicht überladen.

Kurz gesagt: Pose-Details steuern Körperlogik. Je klarer „wo sind die Pfoten“, desto stabiler wird das Ergebnis – aber nicht überladen.

Prompt-Ausschnitt

– One exaggerated paw reaches forward into the extreme foreground, as if giving a high-five.


– All other paws are placed firmly on the skateboard.
– The skateboard is tilted mid-trick, dynamic and realistic.

Was macht das?

Erzwingt eine „Story Pose“ (High-five) + Stabilität (andere Pfoten am Board). Das gibt Bewegung und Fokus.

Typische Anpassungen

High-five rausnehmen → stabilere Anatomie
„ALL FOUR paws … visible contact“ hinzufügen
Board-Logik konkretisieren (Kontaktflächen)

– The dog stands naturally on the skateboard.


– ALL FOUR paws are placed firmly on the deck at the same time.
– Each paw has visible contact with the board surface.
– No lifted paws, no jumping, no exaggerated gestures.
– Balanced stance, natural weight distribution.

Risiko

Zu viele Pose-Details können miteinander konkurrieren. Besser: klare Priorität + wenige, testbare Sätze.

Variante: natürliche Pose (pose_natural.PNG)

Block 4: Hintergrund

Hintergrund ist nicht Deko – er steuert Kontext, Tempo und Lesbarkeit.

Urban Street vs. Skatepark

Busy Background + Motion Blur kann „Action“ verstärken – oder das Motiv schlucken.

Kurz gesagt: Hintergrund steuert Kontext + Lesbarkeit. „Busy“ erhöht Action – aber auch Fehler (Text, Logos, Chaos).

Prompt-Ausschnitt

Background: Urban street environment with motion blur.

Was macht das?

Urban + Motion Blur = Geschwindigkeit. Aber: zu viele Elemente erhöhen Fehlerquote (Texte, Schilder, Logos, Chaos).

Typische Anpassungen

Hintergrund vereinfachen → Motiv bleibt klar
„no text, no logos“ hinzufügen
Motion Blur reduzieren

Background: simple skatepark, clean shapes, no text, no logos, subtle motion blur.

Risiko

Komplexe Hintergründe ziehen Aufmerksamkeit ab und erzeugen Nebenobjekte. Wenn dein Ziel Vergleichbarkeit ist: “clean” gewinnt.

Original: Urban motion blur — Original: Urban

Variante: Skatepark clean — Variante: Skatepark (bg_skatepark.PNG)

Block 5: Licht

Licht ist „Emotion“. Es kann ein Bild retten oder komplett künstlich wirken lassen.

Epic Cinematic vs. Natural Daylight

Wenn „epic“ zu viel ist: runterregeln, nicht löschen.

Kurz gesagt: Licht ist Stimmung. „Epic“ pusht Drama, „Natural“ pusht Glaubwürdigkeit.

Prompt-Ausschnitt

Lighting: Epic cinematic lighting.

Was macht das?

„Epic cinematic“ pusht Kontrast und Highlights. Gut für Drama. Kann aber schnell „KI-Poster“ schreien.

Typische Anpassungen

„soft natural daylight“ für Foto-Realismus
Rim-Light reduzieren
Highlights “realistic” setzen

Lighting: soft natural daylight, realistic highlights, no harsh rim light.

Risiko

Zu viel “epic” macht das Bild oft künstlich (übertriebene Kantenlichter, HDR-Look). Wenn es unnatürlich wirkt: “runterregeln”.

Original: Epic cinematic lighting — Original: Epic

Variante: Natural daylight — Variante: Daylight (light_day.PNG)

Block 6: Stil / Textur

Style-Keywords beeinflussen „Materialität“: Körnung, Schärfe, Look.

Film Grain vs. Clean

Körnung kann kaschieren – oder das Bild schmutzig machen.

Kurz gesagt: Style-Keywords ändern Textur/Materialität. Grain kann kaschieren – oder Details kaputt machen.

Prompt-Ausschnitt

Visual style: analog film grain, gritty, energetic.

Was macht das?

„film grain/gritty“ fügt Dreck/Körnung/Analog-Look hinzu. Das kann „real“ wirken, aber auch Details fressen.

Typische Anpassungen

„clean, crisp“ für mehr Detail
Grain komplett raus → Fellstruktur wird sichtbarer
“realistic photo look” als Anker

Visual style: clean, crisp, natural texture, no film grain, realistic photo look.

Risiko

Zu viele Stilwörter konkurrieren (gritty + glossy + dreamy + cinematic …). Ergebnis: Drift oder Chaos. Weniger ist oft stabiler.

Original: film grain gritty — Original: Grain

Variante: clean crisp — Variante: Clean (style_clean.PNG)

Block 7: Constraints

Constraints sind „Leitplanken“. Sie reduzieren Chaos – wenn sie konkret sind.

Constraints (Rules)

Kurz, klar, testbar. Keine Romane.

Kurz gesagt: Constraints sind Leitplanken. Sie reduzieren Ausreißer – wenn sie kurz, klar und testbar sind.

Prompt-Ausschnitt

Constraints:


– Natural anatomy
– No accessories besides skateboard
– Strong focus on movement & intensity.

Was macht das?

Verhindert typische Ausreißer: Collars, Harness, seltsame Proportionen, Zusatzobjekte. Stabilisiert das Ergebnis.

Typische Anpassungen

Konkreter statt allgemein („correct paws count“)
Negativ klar benennen („no collar, no harness“)
Identity-Anchor wiederholen (Markings identical)

Constraints:


– Natural anatomy, correct paws count
– No collar, no harness, no extra accessories
– Only skateboard as prop
– Keep fur markings identical to reference

Risiko

Zu viele Constraints (lange Listen) können sich widersprechen oder die Priorität verwässern. Besser: kurz, hart, testbar.

Original: Constraints basic — Original: Basic Constraints

Variante: stricter constraints — Variante: Strict (constraints_strict.PNG)

Hinweis zu Tools, Constraints & Grenzen der Methode

Die Logik bleibt gleich – die Stärke der Effekte kann variieren.

Hinweis zu Tools

Die gezeigte Methode funktioniert modellübergreifend, aber nicht jedes Bild-Tool reagiert gleich stark auf dieselben Formulierungen. Manche Modelle gewichten Kamera, Stil oder Referenzbilder stärker als andere. Die Logik bleibt identisch – nur die Stärke der Effekte kann variieren.

Soft vs. Hard Constraints

Nicht alle Einschränkungen wirken gleich stark. Vage Formulierungen helfen – konkrete wirken zuverlässiger.

Wenn ein Modell Fehler macht …

… ersetze vage Begriffe durch konkrete Leitplanken. Das erhöht Kontrolle – besonders bei Anatomie, Symmetrie und Komposition.

Soft Constraints (weich)

natural
realistic
clean
cinematic

Hard Constraints (konkret)

both eyes visible
2 arms visible
symmetrical face
no extra fingers
centered composition

Wo diese Methode an Grenzen kommt

Die „nur einen Block ändern“-Logik bringt Kontrolle – aber nicht in jeder Situation.

1) Gekoppelte Parameter

Kamera, Licht und Stil beeinflussen sich gegenseitig. Änderst du z. B. „dramatic lighting“, kann sich auch Pose oder Anatomie verändern. Dann ist die Änderung nicht mehr vollständig isoliert.

2) Stark stilisierte Modelle

Manche Modelle priorisieren Stil stärker als Struktur. Ein dominanter Stil kann Kamera oder Anatomie übersteuern.

3) Vage Prompts

Wenn der Basisprompt zu offen ist, reagiert das Modell stärker auf Zufall. Erst klare Struktur → dann isolierte Tests.

4) Kein Ersatz für Iteration

Auch saubere A/B-Tests garantieren kein perfektes Bild. Sie helfen zu verstehen, warum etwas funktioniert oder scheitert.

Diese Methode macht Ergebnisse kontrollierbarer – nicht perfekt.

Was oft schiefgeht (und warum)

Wenn du das erkennst, verschwindet 80% der Frustration.

❌ Zu viel auf einmal

Wenn du mehrere Blöcke gleichzeitig änderst, weißt du nicht, was den Effekt ausgelöst hat.

❌ Fließtext-Overkill

Sehr lange Prompts können Prioritäten verwässern. Oft ist „klar + kurz“ stabiler.

❌ „Mehr Adjektive = besser“

Zu viele Stilwörter konkurrieren miteinander. Ergebnis: Drift, Chaos, KI-Poster-Look.

✅ So debugst du richtig

1 Block ändern
3 Runs generieren
Vergleichen → erst dann weiter

✅ Wenn’s „driftet“

Identität verstärken (kurz + wiederholt)
Kamera vereinfachen (kein Fisheye)
Constraints konkretisieren

✅ Sprachen-Realität

Deutsch funktioniert oft. Wenn etwas unklar wird, ist Englisch leichter zu „debuggen“, weil viele Modelle darauf stärker trainiert sind.

✅ Reihenfolge

Erst Identität stabilisieren, dann Kamera/Pose, dann Licht/Style, dann Constraints feintunen.

✅ Test-Disziplin

Gleicher Seed/Settings helfen – aber wichtiger ist: immer nur einen Hebel verändern.

Minimal-Regel für Lernfortschritt: Immer nur 1 Block ändern, dann vergleichen.