STOP Met het Communiceren van A/B-Test Uplifts

A/B-test winnaars worden meestal gecommuniceerd als “12% uplift in verkopen (p<0.05), terwijl de hypothese die getest is alleen test of de variant beter presteert dan de controlegroep. Door variantie (spreiding) in zowel de varinat als de controlegroep, kun je alleen communiceren dat de variant waarschijnlijk beter presteert dan de controlegroep. De geobserveerde uplift is slechts toeval en kan alleen in een verwachte range genoemd worden.

Inhoud

    Even wat statistiek opvijzelen

    Hoe zat het ook al weer; de p-waarde (p<0.05) die je achter de uplift zet kun je interpreteren als de kans dat het geobserveerde verschil tussen variant en controlegroep toevallig is. Dus in het gegeven voorbeeld is die kans kleiner dan 5%.

    In de calculator hieronder kun je zien dat, hoewel in het gegeven geval de geobserveerde conversieratio 2,5% is, je net zo goed elke willekeurige ratio tussen 2.35% and 2.66% had kunnen zien. Je kunt met de getallen spelen om een gevoel te krijgen wat de invloed van de input is op de breedte van de range.

    Calculate probability distribution for a binominal proportion

    What could have been an observed conversion rate as well? Using the Clopper-Pearson Method

    Input



    Conversion Rate
    The given confidence level means a % chance to exceed the expected bounds.

    De Waarschijnlijkheidsverdeling

    Je conversieratio is geen dag hetzelfde. Dat is logisch, want er zit nu eenmaal variantie (spreiding) in bijna alles wat hier invloed op heeft: het weer, het dagelijkse nieuws, het saldo op de bankrekening van je bezoeker, de prijzen van concurrenten en nog veel meer bepalen de stemming en daarmee het gedrag van je bezoeker al voordat ze op je website zijn. Daarna, op de website, zijn er natuurlijk de factoren waar we wel invloed op hebben die nog een duit in het zakje doen. Zo is er de UX, laadsnelheid, hoe de website oogt op het scherm van de gebruiker, je communicatie, voorraad, enzovoort.

    Uit al deze factoren volgt uiteindelijk een conversieratio. Deze kan vandaag 4,0% zijn, gisteren 3,5% en morgen 4,3%. Stel je nu voor dat je alleen de data van gisteren hebt. Je zou dan kunnen concluderen dat je conversieratio “dus” 3,5% is “want dat heb ik gemeten”. Maar wij weten dat dat niet klopt want als je een dag later gemeten zou hebben zou je gezegd hebben dat het “dus” 4,0% is.

    Hoe meet je de Spreiding in je Data?

    Hoe weet je nu wel je echte gemiddelde conversieratio? Theoretisch weet je alleen met een oneindige hoeveelheid data je exacte conversieratio; iets wat zelfs de grootste websites niet hebben. Theoretisch gezien wordt er dus altijd een aanname gedaan. In de echte wereld, met eindige hoeveelheden data, moet je het doen met een spreiding. Hiervoor wordt bijvoorbeeld de Clopper-Pearson methode (uit 1934) gebruikt. De uitkomst van deze methode is een bandbreedte, gegeven een bepaalde waarschijnlijkheid.

    En Nu A/B-Testen

    Bij A/B-testen test je 1 groep, met zijn eigen waarschijnlijkheidsverdeling, tegenover een andere groep met zijn eigen waarschijnlijkheidsverdeling. De geobserveerde conversieratio's voor beide groepen zijn niet meer dan een random punt op hun waarschijnlijkheidsverdelingen. En aangezien de uplift de quotiënt is van deze twee ratios kun je dus niet zeggen "de uplift is x procent". Wat je wel kunt communiceren is de verwachte upliftrange. Onderstaande calculator berekent deze range voor je:

    Calculate A/B-test Result

    Frequentist calculator for A/B-tests. Includes the expected uplift range for a given probability.

    A/B-Test Numbers
    Control


    Variant



    Expected Uplift
    probability that the variant outperforms control.
    expected uplift (% chance to exceed this range)
    Observations
    Observed Uplift:
    SRM:
    Confidence Intervals
    Control: Variant: