7 veelvoorkomende fouten bij A/B testen - Blog

Gepubliceerd op: maandag 6 oktober 2014

Door: Marlieke van Velthoven

Om het conversiepercentage te verhogen kiezen webwinkeliers er vaak voor een A/B test te doen. Echter worden hierbij regelmatig fouten gemaakt, waardoor de verwachte stijging in het conversiepercentage nooit optreedt.

Bij een A/B test, of split-test, kijkt men of er een verschil is tussen een controle variabele en een variatie op de controle variabele. Er zijn altijd twee onafhankelijke groepen (A en B), die door middel van een t-toets met elkaar worden vergeleken. De gemiddelden van beide groepen worden berekend, en er wordt gekeken of deze significant van elkaar verschillen. Wanneer dit het geval is, is de beste optie de variabele met het hoogste gemiddelde. Voor webshops zijn er verschillende tools ontwikkeld die een A/B test uitvoeren. Tools zoals  OptimizelyUnbounce en Visual Website Optimizer voeren een volledige A/B test uit en produceren na een bepaalde tijd een volledig overzicht met resultaten. Toch worden er ook met het gebruik van deze tools nog fouten gemaakt, waardoor de uitkomst niet altijd is wat het lijkt. Doorvoeren van zo'n resultaat zorgt vaak voor teleurstellingen, want de beoogde conversies die het zou opleveren blijven uit. 

A/B test voorbeeld conversie knop

Hoe komt het dat het toepassen van een A/B test resultaat niet leidt tot een toename in conversies? Dit kan verschillende oorzaken hebben. Uiteindelijk komt het erop neer dat er een type I of type II fout is gemaakt. Of erger nog: dat A als winnaar wordt gemeten terwijl het eigenlijk B is. Een type I fout treedt op wanneer er géén verschil is tussen de twee varianten, maar er wél een verschil wordt gemeten. Kort gezegd: een fout positief resultaat. Een type II fout gebeurt wanneer er wél een verschil is tussen de twee varianten, maar er géén verschil wordt gemeten. Een fout negatief resultaat.

Waarom deze fouten voor kunnen komen? Er wordt een steekproef genomen van de totale populatie. Deze steekproef kan toevalligerwijs iets afwijken van de uitkomsten die de totale populatie zou geven. Deze mogelijke afwijkingen vallen onder de normale verdeling, hierin wordt rekening gehouden met het feit dat niet alle steekproeven perfect kloppend aan de populatie kunnen zijn. Vallen de resultaten van de steekproef onder de normale verdeling, dan wordt er geen verschil gemeten. Vallen de resultaten buiten de normale verdeling, dan wordt er wél een verschil gemeten. Er zijn 7 veelgemaakte fouten die vrijwel altijd zullen leiden op een onbetrouwbare A/B test, en waardoor niet de verwachte verhoging van het conversiepercentage zal optreden. Probeer deze fouten dus ten alle tijden te voorkomen!

1. Te weinig bezoekers om een betrouwbare A/B test te doen

Om een betrouwbare A/B test af te nemen moet de steekproef van een acceptabel formaat zijn. Hiervoor moet van tevoren gemeten worden hoeveel bezoekers en conversies er per week zijn op de desbetreffende pagina. Als dat getal laag is moet er iets langer getest worden voor een significant resultaat. Bepaal vooraf hoe lang je gaat testen, dus niet simpelweg doortesten tot het resultaat significant is, of stoppen bij een significante uitkomst.

2. Te lang door laten lopen van de test

Wanneer een test te lang doorloopt zijn er klanten die hun cookies inmiddels verwijderd hebben en daardoor meerdere keren in de resultaten voor kunnen komen. Dit vervuilt de resultaten en moet voor een betrouwbare uitkomst dus voorkomen worden. Test daarom maximaal voor een periode van 4 weken. 

3. Meerdere testen tegelijkertijd uitvoeren

De ene test kan de andere beïnvloeden, je weet niet welke resultaten bij welke test horen. Je moet externe factoren uitsluiten en dat lukt niet als je meerdere dingen tegelijkertijd test. Ook het testen van de webshop desktop in vergelijking met mobiel kun je het beste één voor één doen.

4. Geen selectie maken op welke klanten er wordt getest

Afhankelijk van wat er gemeten wordt moet je bepalen welke klanten deelnemen aan de test. Vaak gedragen vaste klanten zich anders dan nieuwe klanten. Het is dus in veel gevallen het betrouwbaarste om te testen op nieuwe klanten, omdat zij de weg nog niet kennen in de webshop.

5. Geen controle op externe factoren

Voor een betrouwbaar resultaat moeten zoveel mogelijk externe factoren die invloed kunnen hebben op de resultaten worden weggehaald. Test bijvoorbeeld niet in de kerstmaand, want dan stijgen de aankopen bij alle webshops en zijn de resultaten dus niet representatief voor de rest van de maanden. Natuurlijk is het wel mogelijk om rond te decembermaand een test te doen die specifiek voor deze maand bedoeld is.

6. Andere externe factoren voor conditie A en B

Tussen de A en B condities mogen geen verschillen zitten, behalve natuurlijk het punt waarop getest wordt. Zijn er wel verschillen, dan is het niet duidelijk welke afwijking heeft gezorgd voor de resultaten. Een voorbeeld zou kunnen zijn om een oranje product naast een blauw product te testen. Het oranje product wint dan niet per se omdat meer klanten het waarderen, maar omdat oranje op dat moment om een andere reden populair is.

7. Volledig  vertrouwen op één enkele test

Je kunt er pas zeker van zijn dat een resultaat representatief is voor de volledige populatie, wanneer er bij meerdere testen een gelijkwaardig resultaat gevonden wordt. Omdat er steekproeven worden genomen kan deze alsnog afwijken van de volledige populatie. Ook wanneer één keer een significant resultaat gevonden wordt betekend dit niet automatisch dat dit volledig betrouwbaar is. Ga voor belangrijke beslissingen dus altijd af op gelijkwaardige resultaten van meerdere testen. 

Deze 7 veelvoorkomende fouten bij A/B testen zorgen ervoor dat het resultaat van de test onbetrouwbaar is. Meer tips voor betrouwbare A/B testen lees je in dit artikel.