A/B-test winnaars worden meestal gecommuniceerd als “12% uplift in verkopen (p<0.05), terwijl de hypothese die getest is alleen test of de variant beter presteert dan de controlegroep. Door variantie (spreiding) in zowel de varinat als de controlegroep, kun je alleen communiceren dat de variant waarschijnlijk beter presteert dan de controlegroep. De geobserveerde uplift is slechts toeval en kan alleen in een verwachte range genoemd worden.
Inhoud
Even wat statistiek opvijzelen
Hoe zat het ook al weer; de p-waarde (p<0.05) die je achter de uplift zet kun je interpreteren als de kans dat het geobserveerde verschil tussen variant en controlegroep toevallig is. Dus in het gegeven voorbeeld is die kans kleiner dan 5%.
In de calculator hieronder kun je zien dat, hoewel in het gegeven geval de geobserveerde conversieratio 2,5% is, je net zo goed elke willekeurige ratio tussen 2.35% and 2.66% had kunnen zien. Je kunt met de getallen spelen om een gevoel te krijgen wat de invloed van de input is op de breedte van de range.
Calculate probability distribution for a binominal proportion
What could have been an observed conversion rate as well? Using the Clopper-Pearson Method
Input
Conversion Rate
De Waarschijnlijkheidsverdeling
Je conversieratio is geen dag hetzelfde. Dat is logisch, want er zit nu eenmaal variantie (spreiding) in bijna alles wat hier invloed op heeft: het weer, het dagelijkse nieuws, het saldo op de bankrekening van je bezoeker, de prijzen van concurrenten en nog veel meer bepalen de stemming en daarmee het gedrag van je bezoeker al voordat ze op je website zijn. Daarna, op de website, zijn er natuurlijk de factoren waar we wel invloed op hebben die nog een duit in het zakje doen. Zo is er de UX, laadsnelheid, hoe de website oogt op het scherm van de gebruiker, je communicatie, voorraad, enzovoort.
Uit al deze factoren volgt uiteindelijk een conversieratio. Deze kan vandaag 4,0% zijn, gisteren 3,5% en morgen 4,3%. Stel je nu voor dat je alleen de data van gisteren hebt. Je zou dan kunnen concluderen dat je conversieratio “dus” 3,5% is “want dat heb ik gemeten”. Maar wij weten dat dat niet klopt want als je een dag later gemeten zou hebben zou je gezegd hebben dat het “dus” 4,0% is.
Hoe meet je de Spreiding in je Data?
Hoe weet je nu wel je echte gemiddelde conversieratio? Theoretisch weet je alleen met een oneindige hoeveelheid data je exacte conversieratio; iets wat zelfs de grootste websites niet hebben. Theoretisch gezien wordt er dus altijd een aanname gedaan. In de echte wereld, met eindige hoeveelheden data, moet je het doen met een spreiding. Hiervoor wordt bijvoorbeeld de Clopper-Pearson methode (uit 1934) gebruikt. De uitkomst van deze methode is een bandbreedte, gegeven een bepaalde waarschijnlijkheid.
En Nu A/B-Testen
Bij A/B-testen test je 1 groep, met zijn eigen waarschijnlijkheidsverdeling, tegenover een andere groep met zijn eigen waarschijnlijkheidsverdeling. De geobserveerde conversieratio's voor beide groepen zijn niet meer dan een random punt op hun waarschijnlijkheidsverdelingen. En aangezien de uplift de quotiënt is van deze twee ratios kun je dus niet zeggen "de uplift is x procent". Wat je wel kunt communiceren is de verwachte upliftrange. Onderstaande calculator berekent deze range voor je:
Calculate A/B-test Result
Frequentist calculator for A/B-tests. Includes the expected uplift range for a given probability.