1. Das Gesamtsample muss ausreichend groß sein

Das Modell benötigt genügend Daten, um Muster zu erkennen. Sehr kleine Gesamtstichproben bieten dafür zu wenig Lernmaterial. Als grobe Orientierung gilt: Mindestgröße: etwa 300 Fälle bessere Ergebnisse: 500 bis 1.000 Interviews oder mehr Je größer das Ausgangssample, desto stabiler können die Muster erkannt werden.

3. Die Ausgangsbasis darf nicht zu klein sein

Auch für das Train-Segment selbst braucht das Modell genügend Beispiele. Als Mindestgröße gilt häufig: etwa 20 Interviews besser 25 oder mehr Unterhalb dieser Größen wird es schwierig, stabile Muster zu erkennen.

Synthetic Data Boost: Wie synthetische Daten Nischenstichproben stabilisieren können

Ein Ansatz, der aktuell verstärkt diskutiert wird, ist der Synthetic Data Boost. Dabei wird eine vorhandene Stichprobe gezielt um zusätzliche, modellierte Datenpunkte ergänzt, um Nischen-Segmente stabiler auswerten zu können. Erste praktische Erfahrungen zeigen: Unter bestimmten Bedingungen kann diese Methode tatsächlich zu einer deutlich besseren Datenbasis führen – gleichzeitig bleiben methodische Grenzen bestehen.

Drei unterschiedliche Ansätze synthetischer Daten

Im Umfeld von KI und Marktforschung werden unterschiedliche Konzepte unter dem Begriff „synthetische Daten“ diskutiert. Methodisch lassen sich drei Ansätze unterscheiden:

1. Synthetic Data Boost

Ein bestehender Datensatz mit real erhobenen Interviews wird um zusätzliche modellierte Fälle ergänzt. Ziel ist es, kleine Subgruppen zu stabilisieren.

2. Virtual Personas

Hier werden Large Language Models eingesetzt, um virtuelle Zielgruppen oder Personas zu simulieren, die auf Basis vorhandener Informationen Antworten generieren.

3. Vollsynthetische Stichproben

Modelle werden mit historischen Studien trainiert, um anschließend komplette Datensätze zu generieren – auch für Fragen, die im Training nicht vorkamen.

Der Synthetic Data Boost unterscheidet sich von diesen Ansätzen deutlich: Er basiert vollständig auf einem vorhandenen Datensatz und versucht nicht, komplette Befragte zu simulieren, sondern lediglich statistisch plausible zusätzliche Datenpunkte zu erzeugen.

Das Grundprinzip des Synthetic Data Boost

Das Verfahren setzt an einer typischen Situation an:
Ein Datensatz enthält eine kleine Nischenzielgruppe – beispielsweise 25 Interviews. Diese soll auf eine größere Basis erweitert werden, etwa auf 75 Fälle.

Der Algorithmus analysiert dazu den gesamten Datensatz und identifiziert Muster:

Welche Gruppen sind der Nischenzielgruppe in bestimmten Variablen ähnlich?
Wo bestehen Unterschiede zu anderen Segmenten?
Welche Kombinationen von Eigenschaften treten im Datensatz auf?

Auf dieser Basis werden zusätzliche Datenpunkte generiert, die sich statistisch in das vorhandene Segment einfügen sollen. Wichtig ist dabei: Die neuen Fälle sind keine Kopien der vorhandenen Interviews, sondern sollen gezielt Variationen abbilden, die in der realen Population plausibel wären.

Warum Hochgewichten nicht die gleiche Wirkung hat

Ein häufiger Workaround bei kleinen Segmenten ist das Hochgewichten. Dabei werden vorhandene Fälle einfach stärker gewichtet, um den Anteil im Datensatz zu erhöhen.

Das Problem: Wenn die ursprüngliche Stichprobe zufällig verzerrt ist, was bei kleinen Basen häufig vorkommt, wird dieser Fehler durch Hochgewichten ebenfalls vergrößert.

Synthetic Data Boost verfolgt einen anderen Ansatz. Statt vorhandene Interviews zu vervielfachen, versucht das Modell, zusätzliche Fälle zu erzeugen, die fehlende Variationen im Segment ergänzen. Dadurch kann sich der Mittelwert des Segments statistisch näher an die tatsächliche Verteilung der Population annähern.

Wie sich die Qualität synthetischer Boosts prüfen lässt

Um die Qualität synthetischer Daten zu bewerten, bietet sich ein Vorgehen aus dem Machine Learning an: die Trennung von Trainings- und Testdaten.

Dabei wird ein Teil eines großen Datensatzes bewusst zurückgehalten und dient später als Referenz („Ground Truth“). Der Algorithmus darf nur mit dem Trainingsdatensatz arbeiten. Anschließend wird geprüft, wie gut die Ergebnisse mit den zurückgehaltenen Daten übereinstimmen.

Typische Bewertungsdimensionen sind dabei:

Abweichung der Kennzahlen zwischen synthetisch erweitertem Segment und Referenzdaten
Logische Konsistenz der generierten Fälle
Stabilität weiterer Analysen, etwa Treiberanalysen oder Regressionen

Erste praktische Tests zeigen, dass sich durch einen Boost häufig eine deutliche Verbesserung der Segmentqualität erreichen lässt – insbesondere bei deskriptiven Kennzahlen.

Wann Synthetic Data Boost besonders gut funktioniert

Erfahrungen aus Pilotprojekten zeigen mehrere typische Voraussetzungen für erfolgreiche Boosts.

Das Modell benötigt genügend Daten, um Muster zu erkennen. Sehr kleine Gesamtstichproben bieten dafür zu wenig Lernmaterial.

Als grobe Orientierung gilt:

Mindestgröße: etwa 300 Fälle
bessere Ergebnisse: 500 bis 1.000 Interviews oder mehr

Je größer das Ausgangssample, desto stabiler können die Muster erkannt werden.

Nicht jede kleine Gruppe eignet sich gleichermaßen für einen Boost.

Gut funktionieren meist Segmente, die in bestimmten Variablen relativ homogen reagieren: etwa spezielle Nutzergruppen oder klar definierte Lebensstile.

Schwieriger wird es bei Gruppen, die zwar klein sind, aber intern sehr heterogen: beispielsweise geografische Regionen oder breit definierte Zielgruppen.

Auch für das Train-Segment selbst braucht das Modell genügend Beispiele.

Als Mindestgröße gilt häufig:

etwa 20 Interviews
besser 25 oder mehr

Unterhalb dieser Größen wird es schwierig, stabile Muster zu erkennen.

Aggregiert plausibel – auf Einzelfallebene nicht immer logisch

Ein zentraler Punkt bei synthetischen Daten ist die Unterscheidung zwischen aggregierten Kennzahlen und individuellen Datensätzen.

In vielen Fällen stimmen die aggregierten Ergebnisse, wie etwa Marktanteile, Nutzungsraten oder Funnel-Werte, recht gut mit Referenzdaten überein.

Auf der Ebene einzelner Datensätze können jedoch Inkonsistenzen auftreten. Beispielsweise können Kombinationen entstehen, die in einer realen Befragung unwahrscheinlich wären.

Deshalb sollten synthetisch generierte Fälle nicht als echte „Befragte“ interpretiert werden. Sie sind vielmehr statistische Ergänzungen, die helfen können, aggregierte Ergebnisse stabiler zu schätzen.

Grenzen bei komplexeren Analysen

Während deskriptive Auswertungen häufig gut funktionieren, zeigen sich bei komplexeren Verfahren Einschränkungen.

Multivariate Analysen, wie etwa Treiberanalysen oder Regressionsmodelle, benötigen konsistente Beziehungen zwischen Variablen auf individueller Ebene. Wenn synthetische Fälle diese Zusammenhänge nicht exakt abbilden, kann das Ergebnis verzerrt werden.

Viele aktuelle Anwendungen empfehlen daher, synthetisch erweiterte Daten primär für deskriptive Auswertungen einzusetzen.

Das Problem „schwacher Daten“

Eine weitere Herausforderung entsteht, wenn einzelne Variablen im Datensatz nur von wenigen Befragten beantwortet wurden.

Typische Beispiele sind:

große Markenmatrizen mit vielen Marken
stark gefilterte oder geroutete Fragebögen
komplexe experimentelle Designs

In solchen Fällen können einzelne Variablen im Segment sehr dünn besetzt sein. Das Modell hat dann zu wenig Informationen, um neue Datenpunkte zuverlässig zu erzeugen.

Praktische Einsatzfelder

Trotz dieser Einschränkungen ergeben sich mehrere sinnvolle Einsatzfelder.

In Trackingstudien schwanken Segmentgrößen häufig von Welle zu Welle. Synthetic Data Boost kann helfen, kleine Zielgruppen zu stabilisieren, ohne die Daten durch Hochgewichten zu verzerren.

In U&A-Studien entstehen oft unerwartete Nischenkombinationen, die ursprünglich nicht im Studiendesign vorgesehen waren. Hier kann ein Boost zusätzliche Explorationsmöglichkeiten schaffen.

In B2B-Studien sind Stichproben traditionell klein. Wenn das Gesamtsample ausreichend groß ist, können synthetische Ergänzungen erstmals eine sinnvolle Segmentanalyse ermöglichen.

Was Synthetic Data Boost nicht ersetzen kann

Trotz der Möglichkeiten bleibt ein Grundprinzip bestehen: Echte Interviews sind immer die bessere Datenquelle.

Wenn eine Zielgruppe mit vertretbarem Aufwand real befragt werden kann, sollte das immer der bevorzugte Weg sein.

Synthetic Data Boost kann dagegen eine sinnvolle Ergänzung sein, um:

kleine Segmentbasen zu stabilisieren
explorative Analysen zu ermöglichen
Reporting zuverlässiger zu machen

Fazit: Ein Werkzeug zur Qualitätsverbesserung – kein Ersatz für Befragte

Synthetic Data Boost zeigt, dass synthetische Daten in der Marktforschung mehr sein können als ein theoretisches Konzept. Unter geeigneten Bedingungen lässt sich die Qualität kleiner Segmente spürbar verbessern.

Beitrag teilen