Schmeckt der Kaffee? Wie wir bei AIDVISOR AI-Tools testen

Die Kaffeemaschine als Denkmodell

Stellen wir uns vor, unser Büro bekommt eine neue Kaffeemaschine. Sie ist hochglänzend, hat ein Touchdisplay, eine zugehörige App, und sie macht Geräusche, die nach Manufaktur klingen. Der erste Test, den wir durchführen, ist denkbar einfach: Wir fragen, ob der Kaffee schmeckt. Er tut es, und entsprechend ist die Begeisterung im Büro groß.

Schon nach wenigen Tagen wird allerdings klar, dass Geschmack allein nicht ausreicht. Es stellt sich nämlich auch die Frage, wie aufwändig die Bedienung ist, ob die Maschine in unseren Morgenablauf passt oder ob jeden Tag jemand zehn Minuten lang ratlos davor steht. Auch Reinigung, Lieblingsbohnen und der Umgang mit verschiedenen Vorlieben spielen eine Rolle. Nach einem Monat stellt sich somit die Frage, die bei jedem schicken neuen Gerät irgendwann kommt: Handelt es sich wirklich um eine Verbesserung, oder doch nur um ein schönes Gadget?

Genauso verhält es sich mit AI-Tools im Research. Tag eins ist die Demo, bei der es schlicht darum geht, ob es schmeckt. Tag dreißig ist das tatsächliche Projekt, an dem sich entscheidet, ob das Tool in den Workflow, in die Methodik und in den Alltag passt. Wie ein solcher Tag eins bei uns aussieht, lässt sich an einem typischen Morgen im Büro beobachten.

Ein typischer Morgen

Halb zehn, der Bildschirm ist voll mit offenen Tabs, und jemand schickt in den Team-Chat ein Demo-Video eines neuen AI-Tools – Tag eins beginnt. Das Tool erstellt Interviews, clustert die Antworten und schreibt am Ende auch die Insights, und das alles in beachtlicher Geschwindigkeit. Eine erste Reaktion ist also nachvollziehbar: „Das könnte uns Wochen an Arbeit sparen.“ Eine zweite, etwas leiser, folgt direkt: „Oder uns Wochen kosten, wenn wir falsch liegen.“

Genau zwischen diesen beiden Sätzen beginnt unsere Arbeit und wir sehen uns das Innenleben des Tools genauer an.

AI-gestützte Marktforschung ist heute kein Hype mehr, sondern Alltag. Tools nehmen uns Aufgaben ab, die früher Tage gedauert haben, und sie tun das in vielen Fällen überzeugend. Genau darin liegt aber auch die Schwierigkeit: Je besser ein Tool wirkt, desto schwerer wird es, seine Schwächen zu erkennen. Und selbst wenn ein Tool funktioniert, heißt das noch nicht, dass es auch in den Research-Prozess passt. AI liefert plausible Antworten, doch plausibel ist nicht automatisch richtig. Steckt ein solcher Fehler erst einmal in einem skalierten Prozess, skaliert er mit. Ein typisches Beispiel ist die automatische Codierung offener Antworten in Kategorien wie „zufrieden", „unzufrieden", „neutral". Sarkasmus erkennt das Tool dabei in der Regel nicht. Eine Aussage wie „Toll, wieder ein neues Login" landet zuverlässig bei „zufrieden". Bei zwanzig Interviews korrigiert das ein Mensch in wenigen Minuten. Bei zweitausend Interviews wird daraus ein Zufriedenheitswert, der so nie geäußert wurde und der dennoch im Management-Summary erscheint.

Der Gartner Hype Cycle oder warum am Anfang alle Maschinen gut wirken

Der Gartner Hype Cycle beschreibt, wie neue Technologien typischerweise wahrgenommen werden: Auf eine Phase überschwänglicher Erwartung folgt eine der Ernüchterung, bevor sich ein realistisches Bild davon einstellt, wofür eine Technologie taugt und wofür nicht. Bei KI-Tools sieht man das gerade besonders deutlich. Am Anfang denkt man „Das ersetzt ja fast alles“. Nach ein paar Wochen merkt man: Es ist beeindruckend, aber ohne gute Steuerung, Prüfung, Kontext und klare Aufgaben nicht zuverlässig genug. Die fünf Phasen im Überblick:

Etwas Neues erscheint – KI-Tool, Maschine, Software, Plattform.

Am Anfang wirkt alles magisch. Man sieht vor allem Demos, Versprechen und Best Cases. Die Fantasie ergänzt den Rest.

Dann kommt der Alltag: Fehler, Grenzen, Integrationsprobleme, Kosten, Bedienungsaufwand, falsche Erwartungen. Ernüchterung.

Man versteht besser, wofür das Tool wirklich taugt — und wofür nicht.

Die Technologie wird nüchterner, aber sinnvoll eingesetzt.

Genau dieses Muster lässt sich aktuell im Markt für AI-gestützte Research-Tools beobachten.

Schaut man sich beispielsweise den Markt für Conversational-AI-Tools an, so klingen die Versprechen vieler Anbieter erstaunlich ähnlich. Die Rede ist von skalierbaren qualitativen Interviews, von automatischer Auswertung und von internationalen Studien, die in Tagen statt in Wochen durchführbar sein sollen. Und tatsächlich liefern viele dieser Tools bereits in einer frühen Phase brauchbare Ergebnisse.

Im Detail zeigen sich allerdings auch die Grenzen, die in keiner Demo vorkommen. So wird beispielsweise die Nachfragetiefe flach, sobald ein Befragter ausweicht, und das Involvement sinkt bereits nach wenigen Minuten messbar. Auch hängen die Ergebnisse stärker vom Setup ab, als einem lieb ist. Kleine Änderungen im Prompt, Leitfaden oder Anmutung führen nämlich zu deutlich anderen Antworten, und Qualität verschiebt sich somit von der Analyse hin zur Gestaltung. Hinzu kommt, dass der nonverbale Kontext, also das Zögern, das Augenrollen oder der Blick zur Decke, vollständig fehlt.

Dass solche Effekte nicht auf Conversational AI beschränkt sind, zeigt sich auch in eigenen Tests an anderer Stelle. In einem Predictive-AI-Regaltest führte bereits das Umpositionieren einzelner Produkte dazu, dass andere Produkte im Regal plötzlich die meiste Aufmerksamkeit erhielten. Ergebnisse verschieben sich damit nicht nur lokal, sondern im gesamten System. Schon kleine Eingriffe können somit das gesamte Verhalten verändern.

Es geht häufig nicht ums OB, sondern ums WIE

Der Unterschied zwischen den Tools liegt entsprechend selten im „Ob“, sondern im „Wie gut“. Genau das macht die Bewertung anspruchsvoll, denn Tools sind nicht mehr nur Werkzeuge, die wir benutzen, sondern sie werden Teil unserer Methodik. Damit verschiebt sich auch die Frage, die wir an sie stellen. Es geht nämlich nicht mehr nur darum, ob ein Tool funktioniert, sondern ob es methodisch sauber einsetzbar ist, ob es in unsere Prozesse passt und ob wir wirklich verstehen, was es tut.

Tempo verschiebt Verantwortung

Was wir an Geschwindigkeit gewinnen, müssen wir an Qualitätssicherung wieder einlegen. Deshalb testen wir AI-Tools bei AIDVISOR nicht danach, ob sie in einer Demo beeindrucken, sondern entlang von fünf Dimensionen: Funktionalität, Prozess-Integration, Mehrwert, Qualität und Datensicherheit.

Die fünf Fragen, die wir jeder Maschine stellen

Unsere Bewertungsmatrix versucht, komplexe Tools systematisch greifbar zu machen. Wir betrachten jedes Tool aus fünf Perspektiven – bewusst gemeinsam und nicht nur aus jener, in der das Tool gerade besonders gut aussieht. Jede Perspektive prüfen wir mit einem festen Set an Fragen und übersetzen die Antworten anschließend in einen Punktwert. Am Ende steht eine Gesamtnote, die alle fünf Dimensionen ausgewogen berücksichtigt.

Funktionalität & Usability

Schmeckt der Kaffee – und kann ihn auch der Praktikant brühen?

Hier prüfen wir, ob das Tool zuverlässig leistet, was es leisten soll, und ob es im Alltag bedienbar bleibt, auch von Kolleginnen und Kollegen, die es nicht jeden Tag in der Hand haben. Eine Maschine, die nur die Senior-Beraterin bedienen kann, ist im Alltag eine schlechte Maschine – unabhängig davon, wie gut der Espresso schmeckt.

Prozess- & Research-Integration

Passt sie in unsere Küche?

Ein Tool steht nie allein im Raum. Wir betrachten somit, wie sauber es sich inhaltlich und technisch in unseren Research-Prozess einfügt, ob es methodisch anschlussfähig bleibt und ob es projekt- und kundenübergreifend tragfähig ist, oder ob jedes neue Projekt wieder bei null beginnt.

Zugleich fragen wir nicht nur, wie gut sich ein Tool in bestehende Prozesse einfügt, sondern auch, ob es diese sinnvoll infrage stellt. Manche Tools entfalten ihren Wert nämlich erst, wenn man den Prozess neu denkt, und nicht, wenn man sie in bestehende Abläufe presst.

Mehrwert & Zukunftspotenzial

Ist sie wirklich besser als die Vorgängermaschine?

An dieser Stelle wird ehrlich gerechnet. Wir vergleichen das Tool mit dem, was wir heute bereits haben, sei es manuell oder mit etablierten Lösungen, und fragen, ob der Mehrwert in echten Projekten belegt ist. Auch fragen wir, ob das, was wir vor uns sehen, künftig noch trägt.

Qualität & Verlässlichkeit der Ergebnisse

Schmeckt der Kaffee morgen genauso wie heute?

Dies ist der Punkt, an dem die meisten Demos stillschweigend ausweichen. Wir prüfen daher, ob das Tool reproduzierbare Ergebnisse liefert, ob es nachvollziehbar macht, wie diese zustande kommen, und ob es seine eigenen Grenzen benennt, anstatt sie unter einer schönen Visualisierung zu verstecken.

Daten- & Sicherheitseinschätzung

Wer hat eigentlich Zugang zur Bohnenkammer?

Es handelt sich um eine Frage, die in Demos selten gestellt und in Verträgen oft entscheidend wird. Wir klären daher, wo und wie Daten verarbeitet werden, ob das Tool DSGVO und EU-KI-Verordnung erfüllt und ob wir die Kontrolle darüber behalten, was nach Projektende mit unseren Daten geschieht. Auch klären wir, ob unsere Eingaben fremde Modelle trainieren.

Zurück zum Morgen im Büro

Tools wie jenes aus dem Demo-Video schaffen es bei uns häufig durch die ersten Schritte. Sie liefern auf den ersten Blick gute Ergebnisse, woraufhin die Fragen aus der Matrix folgen. Wir wollen nämlich wissen, warum ein Ergebnis genau so zustande kommt, was bei anderen Inputs geschieht und wie stabil das Verhalten über mehrere Projekte hinweg bleibt. Auch interessiert uns, wo die Grenzen liegen und ob sie sichtbar gemacht oder kaschiert werden.

An dieser Stelle wird aus einem vielversprechenden Tool eine methodische Entscheidung, die manchmal begeistert, manchmal vorsichtig und manchmal klar ablehnend ausfällt. Schnell ist sie selten.

Was zählt, ist nicht der erste Eindruck, sondern was nach einem Monat noch in der Küche steht. Und ob der Kaffee, den die Maschine liefert, diesen Namen verdient.