Wann A/B-Tests scheitern
Neu: Dieser Artikel ist jetzt kostenlos – für Premium-Mitglieder.
Wenn Unternehmen Ideen für Produktänderungen und neue Features testen, begehen sie häufig drei typische Fehler. Um diese zu vermeiden, müssen sie beachten, dass Kunden unterschiedlich handeln und untereinander vernetzt sind. Und ihre Experimente entsprechend anpassen.
Von Iavor Bojinov, Guillaume Saint-Jacques, Martin Tingley
Seit einigen Jahren erfreuen sich Online-A/B-Tests zunehmender Beliebtheit. Das liegt zum einen daran, dass immer mehr Unternehmen ihr Potenzial erkennen. Zum anderen sind die Kosten der für die Umsetzung nötigen Technologien gering. Heute führen nicht nur digitale Firmen, sondern auch immer mehr herkömmliche Unternehmen jährlich Zehntausende Onlineexperimente durch. Sie nutzen die Tests, um herauszufinden, ob eine Änderung an einem Produkt, Service oder Angebot zu einer besseren Performance führt als die bisherige Version. Dazu vergleichen sie eine Kontrollvariante A (meist der Status quo) mit einer alternativen Variante B. Da sich die Reaktion der Nutzer auf die Änderung schnell ablesen lässt, sind Unternehmen in der Lage, ihre digitalen Produkte bestmöglich zu optimieren oder neue Produkte zu entwickeln. Darüber hinaus testen sie die Neuerung nur an einer kleinen, zufällig ausgewählten Gruppe, bevor sie sie flächendeckend einführen, was das Risiko unerwünschter Nebenwirkungen senkt. Doch A/B-Tests haben noch einen weiteren Vorteil: Mit keiner anderen Methode lassen sich die Effekte, die eine Änderung bewirkt, so objektiv messen. So können Unternehmen einen Anstieg der Umsätze, des User-Engagement oder anderer Indikatoren, die die Veränderung bewirkt hat, von dem Wachstum unterscheiden, das ohnehin stattgefunden hätte. Es ermöglicht ihnen, Chancen zu erkennen und den Return on Investment abzuschätzen.
Für viele Unternehmen sind A/B-Tests mittlerweile ein fester Bestandteil des Produktlebenszyklus. Die Ergebnisse dienen als wichtige Entscheidungshilfe, etwa bei der Überlegung, wann oder ob ein neues Produkt eingeführt oder ein bestehendes verändert werden soll. Aber auch bei der Erschließung neuer Märkte und Kundensegmente oder der Frage, wie das vorhandene Kapital auf die unterschiedlichen Geschäftsbereiche verteilt werden soll, kommen sie zum Einsatz. Erfolgreiche A/B-Tests spielen zweifellos eine entscheidende Rolle für den zukünftigen Geschäftserfolg. Häufig begehen Unternehmen jedoch schwere Fehler bei der Durchführung. Im Rahmen unserer Forschung an der Harvard Business School und auf Basis unserer Erfahrungen als leitende Datenwissenschaftler bei Netflix und LinkedIn haben wir drei typische Fallen identifiziert, in die Unternehmen bei Onlineexperimenten tappen. In diesem Artikel zeigen wir, wie Sie diese Fallen vermeiden. Wir stellen Methoden vor, die bei Netflix und LinkedIn funktioniert haben und mit denen Sie die Wirksamkeit Ihrer Tests und damit die Performance Ihres Unternehmens steigern.
Falle 1: Nur auf den Durchschnitt schauen
Ein typischer Fehler ist es, lediglich zu messen, wie sich eine Innovation auf den Mittelwert oder Durchschnitt der entsprechenden Kenngröße auswirkt. Dabei betrachten Unternehmen ausschließlich die Effekte für eine fiktive durchschnittliche Person und blenden aus, dass sich reale Kundensegmente in ihrem Verhalten deutlich voneinander unterscheiden. So kann eine Veränderung bei einem Kundentyp zu einer Nutzungssteigerung führen, einen anderen aber komplett abschrecken. Nehmen wir einmal an, Sie führen ein neues Produkt ein, das die Kundenausgaben im Durchschnitt um einen US-Dollar erhöht. Jetzt könnte man annehmen, dass jeder Nutzer einen zusätzlichen Dollar ausgibt. Zu dieser Steigerung würde es jedoch auch kommen, wenn nur einige wenige Nutzer sehr viel mehr Geld ausgäben und die anderen den Anbieter wechselten. Die Dashboards klassischer A/B-Tests weisen nur einen Unterschied im globalen Durchschnitt aus und unterscheiden damit nicht zwischen diesen beiden Szenarien. Wenn wichtige KPIs (Key Performance Indicators) von wenigen Großkunden oder Superusern abhängen, sind Durchschnittswerte besonders häufig irreführend. Hier besteht das Risiko, dass sich Unternehmen ihre Kunden als eine idealisierte, repräsentative Person vorstellen und ihre Produkte oder Dienstleistungen deshalb ausschließlich für Vielnutzer optimieren. Wenignutzer bleiben auf der Strecke, was gefährlich ist, da die Steigerung ihrer Aktivitäten häufig das größte Potenzial für Unternehmen darstellt.
In manchen Fällen könnte die Lösung darin bestehen, die beste alternative Version für alle zu finden. In anderen Fällen kann es dagegen sinnvoll sein, verschiedene Versionen zu entwickeln, die jeweils die Präferenzen wichtiger Kundensegmente abbilden. Mit A/B-Tests können Unternehmen ihre Kunden nach vordefinierten Kriterien wie Land, Branche und Interaktion in der Vergangenheit segmentieren. Auch maschinelles Lernen kann helfen, Gruppen zu identifizieren, die unterschiedlich auf ein neues Feature reagieren werden. Und selbst wenn sich nicht alle Erkenntnisse aus diesen Segmentierungen umsetzen lassen, zeigen die Testergebnisse doch, wo Geschäftschancen bestehen und wie Unternehmen diese nutzen können.
Um der Heterogenität ihrer Kunden gerecht zu werden, sollten Unternehmen Folgendes tun:
**Kennzahlen und Ansätze verwenden, die den Wert verschiedener Kundensegmente widerspiegeln.**Netflix möchte allen seinen Zuschauern Mehrwert bieten, nicht nur denjenigen, die das Angebot am stärksten nutzen. Was würde passieren, wenn der Streamingdienst allen Nutzern häufiger Empfehlungen für beliebte TV-Shows machen würde? Vielnutzer würden sich noch mehr Inhalte auf Netflix ansehen, wodurch die durchschnittliche Zeit, die sie auf der Seite verbringen, deutlich zunehmen würde. Diese Änderung würde jedoch die Bedürfnisse der Zuschauer, die sich Nischeninhalte ansehen und das Angebot deshalb insgesamt seltener nutzen, ignorieren. Das ist ein Problem: Wenignutzern bietet Netflix in der Regel nicht denselben Mehrwert wie Intensivnutzern, wodurch die Gefahr besteht, dass Erstere ihr Abonnement schneller kündigen. Für das Unternehmen ist es deshalb wichtiger, mehr Inhalte (hier genügt bereits eine kleine Steigerung) für Wenignutzer anzubieten, als Vielnutzer dazu zu bringen, sich noch mehr Filme und Serien anzusehen.
Um solche Probleme zu lösen, verfolgt Netflix zwei Ansätze: Erstens arbeitet das Unternehmen bei seinen A/B-Tests mit sich überlappenden Designs. Dabei wechselt Netflix zwischen den Nutzererlebnissen A und B: An einem Tag sieht der Besucher die Kontrollvariante A, am nächsten Tag wird ihm die modifizierte Variante B präsentiert oder andersherum. So ist der Streamingdienst in der Lage, unter Berücksichtigung des unterschiedlichen Kundenverhaltens die Neuerungen zu identifizieren, die am besten funktionieren. Zweitens betrachtet Netflix nicht die reine Anzahl an Minuten, die Nutzer im Durchschnitt streamen, sondern verwendet eine eigens entwickelte Kennzahl, die die Effekte zwischen den Viel- und Wenignutzern austariert. So stellt das Unternehmen sicher, dass neue Produktfeatures nicht ausschließlich einem Kundensegment zugutekommen.
**Effekte unterschiedlicher digitaler Ausstattung messen.**Mit "digitaler Ausstattung" meinen wir zum Beispiel, ob Nutzer über einen schnellen, zuverlässigen Internetzugang oder einen langsamen, instabilen verfügen; ob sie die neuesten Geräte verwenden oder ältere, weniger leistungsfähige und so weiter. Wenn Sie für diese unterschiedlichen Kohorten A/B-Tests konzipieren und auswerten, können Sie Kunden das Nutzererlebnis bieten, das am besten zu deren digitalen Rahmenbedingungen passt.
Im Hinblick auf technische Indikatoren (etwa App-Ladezeiten, Wiedergabeverzögerungen und Absturzhäufigkeit) ist es für Unternehmen besonders wichtig zu verstehen, wie einzelne Kunden Veränderungen in der Qualität des Services wahrnehmen. Um dies herauszufinden, haben Netflix und LinkedIn die oberen, mittleren und unteren Perzentile dieser Kennzahlen gemessen und beobachtet, wie sich deren Mittelwerte verändern. Hat sich die App-Ladezeit in der Testversion im Vergleich zur Kontrollversion sowohl bei den Nutzern im 5. Perzentil der Ladezeiten (Nutzer mit der schnellsten Internetverbindung) als auch bei den Nutzern im 95. Perzentil (Nutzer mit der langsamsten Internetverbindung) erhöht? Oder hat sich die Ladezeit in der Testversion bei den Nutzern im 5. Perzentil verbessert, bei den Nutzern im 95. Perzentil jedoch verschlechtert? Mit diesem Verfahren testet Netflix Innovationen, die darauf abzielen, die Streamingqualität auf verschiedenen Geräten und bei unterschiedlich schnellen Internetverbindungen zu verbessern.
Gruppenspezifisches Verhalten berücksichtigen. Die A/B-Testplattform von LinkedIn gruppiert die Ergebnisse automatisch. So berechnet das Tool beispielsweise die Effekte neuer Features nach Ländern, da eine Änderung, die in den Vereinigten Staaten gut ankommt, in Indien weniger gut funktionieren könnte. Darüber hinaus unterscheidet die Plattform die Mitglieder nach der Größe ihres Netzwerks. Ein neues kommunikatives Feature wirkt sich auf gut vernetzte User anders aus als auf weniger gut vernetzte. So fand LinkedIn kürzlich heraus, dass sich schwach vernetzte Mitglieder, die auf Jobsuche sind, mit deutlich höherer Wahrscheinlichkeit auf eine neue Stelle bewerben, wenn sie eine Benachrichtigung über soeben veröffentlichte Stellenangebote erhalten. Das liegt daran, dass sie seltener auf anderen Wegen von offenen Stellen erfahren als gut vernetzte Mitglieder.
Zu guter Letzt misst LinkedIn auch, ob Veränderungen Ungleichheit erzeugen. Dazu prüft das Unternehmen, ob ein neues Feature den Umsatz, die Seitenbesuche und andere umsatzrelevante Größen, die das Netzwerk mit dem obersten einen Prozent seiner Nutzer generiert, erhöht oder verringert. So stellen die Verantwortlichen sicher, dass sie keine Features einführen, von denen nur die aktivsten Mitglieder profitieren.
**Wichtige Märkte segmentieren.**Indem Netflix und LinkedIn länderspezifische Unterschiede identifizieren, sind sie in der Lage, ihre wichtigsten Märkte weiter zu bedienen und gleichzeitig neue Märkte zu erschließen, ohne allen Kunden dasselbe Nutzererlebnis aufzuzwingen. In Indien zum Beispiel, wo die Nutzer vor allem über ihre Mobilgeräte online gehen, würden Produktveränderungen, die die App-Ladezeit erhöhen, die Nutzeraktivität deutlich senken. Nicht so in den Vereinigten Staaten oder anderen Ländern, in denen die Nutzer neue, leistungsstarke Mobilgeräte besitzen und nicht mit einem langsamen 3G-Netzwerk vorliebnehmen müssen. Um den Nutzern in Indien und ähnlichen Märkten gerecht zu werden, hat LinkedIn eine Lite-Version seiner App entwickelt. LinkedIn Lite kommt mit einer geringeren Bildqualität aus und hat eine modifizierte Benutzeroberfläche, wodurch die App weniger Daten verarbeiten muss und so schneller lädt. Netflix hat im Rahmen einer länderspezifischen Marktforschung zur Gerätenutzung ein Mobile-only-Abomodell speziell für Indien getestet und eingeführt.
Bei klassischen A/B-Tests, die eine Gruppe A mit einer Gruppe B vergleichen, gehen Unternehmen davon aus, dass die beiden Gruppen nicht miteinander vernetzt sind. Diese Annahme trifft auf klassische Stichproben häufig zu, etwa bei klinischen Studien zur Wirksamkeit eines neuen Medikaments. Interaktionen zwischen Nutzern in Onlineexperimenten können die Ergebnisse jedoch verzerren. Nehmen wir als Beispiel ein Experiment, in dem LinkedIn ein Feature testet, das Mitgliedern die Kontaktaufnahme mit anderen Nutzern in ihrem Netzwerk erleichtert. Dies kann zum Beispiel eine Benachrichtigung sein, dass eine Person gerade online ist, oder der Nutzer erhält Kontaktempfehlungen für Menschen, die bei einem Unternehmen arbeiten, das offene Stellen zu besetzen hat, die für den Nutzer interessant sein könnten. Über die Benachrichtigungsseite kann er diese Personen kontaktieren. Da Mitglieder, denen das Update nicht präsentiert wird, nun eventuell mehr Nachrichten erhalten (von den Nutzern, die das Update haben) und deshalb mehr Nachrichten beantworten, wird sich das sehr wahrscheinlich positiv auf die Kontrollgruppe auswirken. Wenn Entscheidungsträger diese "Verunreinigung" jedoch nicht berücksichtigen, kann es zu ernsten Fehlberechnungen und -entscheidungen kommen. So könnten Verantwortliche schlussfolgern, dass eine schlechte Neuerung gut funktioniert hat und umgekehrt. Mit den folgenden Tipps vermeiden Sie diese Stolperfalle:
**Nutzen Sie Netzwerk-A/B-Testing.**LinkedIn hat Methoden entwickelt, mit denen sich messen lässt, wie stark Nutzer innerhalb einer Gruppe miteinander interagieren, oder sich diese Interaktionen komplett vermeiden lassen. Letzteres gelingt, indem die Plattform die Nutzer in Gruppe A von denen in Gruppe B isoliert. Dazu stellt das System sicher, dass wenn ein Nutzer der Gruppe A angehört, auch alle Nutzer, die sein Verhalten beeinflussen könnten, in Gruppe A sind. Das Gleiche gilt für Gruppe B. So kann sich das Unternehmen ein genaueres Bild des Nutzerverhaltens machen. Nehmen wir zum Beispiel einen neuen Algorithmus für Contentempfehlungen, der den Nutzern längere Texte, etwa Nachrichtenartikel, und weniger Bilder vorschlägt. In der Regel generieren Bilder viele Likes und wenige Kommentare, während Nachrichtenartikel weniger Likes und mehr Kommentare generieren. Nutzer reagieren jedoch eher auf Inhalte, die einer ihrer Kontakte bereits kommentiert hat, statt auf Content, den er nur gelikt hat. Ein klassischer A/B-Test würde zeigen, dass der neue Algorithmus weniger Likes generiert. Mit Netzwerk-A/B-Tests lassen sich dagegen sowohl die Likes abbilden als auch die positiven nachgelagerten Effekte, die entstehen, weil die Probanden mehr Kommentare posten. Durch Netzwerk-A/B-Tests sind die Verantwortlichen bei LinkedIn besser in der Lage, die Gesamtwirkung ihrer Maßnahmen zu verstehen, was schon zu einigen erheblichen Strategieänderungen geführt hat.
**Mit Zeitreihenexperimenten arbeiten.**Hierbei handelt es sich um A/B-Tests, die zufällig zwischen zwei Szenarien wechseln: Einmal wird der Gesamtmarkt Variante A ausgesetzt, dann Variante B. Onlinemarktplätze, auf denen viele Käufer und Verkäufer miteinander interagieren (etwa Onlinewerbeauktionen oder Mitfahrportale) sind besonders anfällig für Verunreinigungen. Denn sogar kleine A/B-Tests mit wenigen Probanden können das Marktgleichgewicht derart verschieben, dass die Ergebnisse nicht die Situation widerspiegeln, die eingetreten wäre, wenn die Verantwortlichen alle Plattformnutzer der veränderten Version ausgesetzt hätten. Hier kommen Zeitreihenexperimente ins Spiel. Sie erlauben Unternehmen, die tatsächlichen Auswirkungen auf den Gesamtmarkt exakt zu messen.
Stellen wir uns vor, LinkedIn hat einen neuen Algorithmus entwickelt, der Jobsuchenden offene Stellen vorschlägt. Um den Effekt des neuen Features zu messen, setzt LinkedIn nun alle Jobsuchenden und alle offenen Stellen in einem bestimmten Markt für 30 Minuten dem Algorithmus aus. In den darauffolgenden 30 Minuten entscheidet das System nach dem Zufallsprinzip, ob es zum alten Algorithmus zurückkehrt oder den neuen beibehält. Diesen Rhythmus behält das Unternehmen mindestens zwei Wochen bei, um auch wirklich alle möglichen Stellensuchmuster zu erfassen. Die Strategie der überlappenden Designs von Netflix ist eine Sonderform dieser Methode.
Damit A/B-Tests erfolgreich sind, müssen sie über einen ausreichend langen Zeitraum laufen. Sich allein auf kurzfristige Signale zu konzentrieren ist für Unternehmen aus dreierlei Gründen gefährlich: Erstens unterscheiden sich die ersten Beobachtungen eines Experiments häufig von den späteren Ergebnissen, wenn die Nutzer sich bereits an das neue Erlebnis gewöhnt haben. Das gilt besonders für Änderungen an der Benutzeroberfläche, in deren Zuge es häufig zu Neuigkeits- oder "Einbrenneffekten" kommt. Dabei zeigen die Nutzer anfänglich eine höhere Interaktion mit dem neuen Feature, die jedoch mit der Zeit nachlässt. Zweitens können Innovationen zu langfristigen Veränderungen im Nutzerverhalten führen, die sich jedoch erst nach und nach abzeichnen. So zeigen schrittweise Optimierungen an Empfehlungsalgorithmen oder der App-Performance kurzfristig keine messbaren Effekte; sie erhöhen die Kundenzufriedenheit jedoch allmählich signifikant. So beugen Sie der Kurzfristorientierung vor:
**Experimente lange genug laufen lassen.**Messen Sie den langfristigen Effekt eines neuen Features, nicht den kurzfristigen Neuigkeitseffekt. Doch wie lange ist lange genug? Das kann sehr unterschiedlich sein, denn Probanden reagieren auf Veränderungen der Benutzeroberfläche zum Beispiel anders als auf neue Empfehlungsfeatures. Deshalb sollten Sie A/B-Tests so lange laufen lassen, bis sich das Nutzerverhalten auf einem Level eingependelt hat. LinkedIn und Netflix beobachten regelmäßig, wie sich das User-Engagement bei neuen Features über die Zeit entwickelt. Ihr Fazit: Die meisten Tests stabilisieren sich in der Regel nach etwa einer Woche.
**Hold-out-Tests durchführen.**In dieser Variante wird einer kleinen Teilgruppe der Probanden das veränderte Feature für eine bestimmte Zeit (meist länger als einen Monat) vorenthalten, während der Rest der Gruppe die veränderte Version nutzt. So können Unternehmen Effekte messen, die sich nur langsam zeigen. LinkedIn hat herausgefunden, dass Hold-out-Tests sich besonders dann eignen, wenn der kumulative Effekt vieler schrittweiser Änderungen langfristig zu einer besseren Leistung führt oder wenn die Nutzer das neue Feature erst entdecken müssen. Nehmen wir einmal an, Sie testen ein Feature, das Nutzer in einem Social-Media-Feed über berufliche Meilensteine (etwa Jobwechsel) ihrer Kontakte informiert. Dieses Feature würde nur unregelmäßig zum Einsatz kommen, vielleicht nur ein- oder zweimal pro Woche, abhängig von den Personen, mit denen der Nutzer vernetzt ist. In solchen Fällen muss die Testphase mehrere Wochen oder Monate dauern, damit die Mitglieder der Testgruppe das neue Feature häufig genug in Aktion erleben. Nur so lassen sich Aussagen über die Qualität des Feeds treffen oder darüber, für wie relevant die Nutzer den ihnen präsentierten Content halten.
Online-A/B-Tests sind ein mächtiges Werkzeug, mit dem Unternehmen herausfinden können, wie sich potenzielle Veränderungen auf verschiedene Zielgruppen und Märkte auswirken. Klassische Ansätze konzentrieren sich häufig jedoch zu sehr auf den durchschnittlichen Nutzer und kurzfristige Ergebnisse, was Unternehmen zu falschen Schlussfolgerungen führen kann. Mit den Methoden, die wir in diesem Artikel vorgestellt haben, sind Manager in der Lage, typische Fehler zu vermeiden und die besten kurzfristigen und langfristigen Chancen für ihr Unternehmen zu identifizieren – sowohl global als auch in Bezug auf strategisch wichtige Kundensegmente. 
© HBP 2020
Die Autoren
Iavor Bojinov ist Assistant Professor im Fachbereich Technology and Operations Management an der Harvard Business School. Zuvor war er als Datenwissenschaftler bei LinkedIn tätig. Guillaume Saint-Jacquesleitet den Bereich Computational Social Science bei LinkedIn und war zuvor technischer Leiter des Experimentation Science Teams des Unternehmens. Martin Tingley ist verantwortlich für die Produkttestforschung bei Netflix. Vorherige Stationen waren verschiedene Positionen in der Insurance Australia Group sowie ein Lehrauftrag an der Penn State University.
HBM-Newsletter
Bleiben Sie am Ball bei Führung, Management und Strategie. Abonnieren Sie den kostenlosen Newsletter „Lead Forward“ von HBm-Chefredakteurin Antonia Götsch. Sie teilt jede Woche Studien, Lektionen und Knowhow aus den besten Hochschulen der Welt sowie ihre eigenen Erfahrungen als Führungskraft. https://www.harvardbusinessmanager.de/newsletter/
