A/B Testing : évitez les pièges et obtenez des résultats fiables !

Par

Rémi Kerhoas

Avez-vous déjà appliqué la variante la plus performante d'un A/B test à vos annonces sans observer de véritables améliorations ?😞

Pas de panique, cela arrive plus souvent qu'on ne le croit !

Les A/B tests restent un levier efficace, il suffit d'éviter certains pièges courants...

Aujourd'hui, je vais vous parler des principales erreurs qui font échouer vos tests (même ceux des pros) et vous donner des conseils pratiques pour obtenir des résultats fiables

Nous aborderons des problèmes tels que :

  • Rechercher la signification statistique au détriment de l'impact commercial.
  • Interrompre les tests trop tôt pour obtenir suffisamment de données.
  • Ne pas segmenter les sources de trafic.
  • Et bien d'autres facteurs critiques.😉

Prêt ? Allons-y !

Viser 95% de signification statistique est souvent excessif

Lors de la réalisation de vos A/B tests , les bests practices classiques recommandent généralement de commencer par une hypothèse solide. Du genre :

« En ajoutant un sentiment d'urgence au texte de nos annonces eCommerce, nous prévoyons d'augmenter le taux de clics de quatre points. »

C'est un bon début. Une description claire du périmètre du test, des éléments modifiés, du KPI principal (ou des KPIs secondaires), et des résultats attendus aident à structurer les tests et à faciliter l'analyse finale.

Cependant, lorsque les marketeurs adoptent cette méthodologie, ils cherchent souvent le "Graal" des résultats fiables : atteindre la signification statistique (ou "stat sig"). C'est là que les choses peuvent rapidement se compliquer.

(Vous savez probablement ce qu'est la signification statistique, mais si ce n'est pas le cas, jetez un œil ici et utilisez cet outil pour mieux comprendre le reste de cet article).

Si vous êtes dans le marketing digital, et plus précisément dans le SEA, depuis un certain temps, vous avez sûrement remarqué des schémas courants :

  • Fonctionne bien la plupart du temps : les messages d'urgence (FOMO), de stocks limités et d'offres exclusives.
  • Ne fonctionne pas nécessairement : les messages environnementaux et sociétaux (désolé 🌍).
  • Fonctionne généralement bien : placer le formulaire de contact au-dessus de la ligne de flottaison sur votre page de destination.
  • Ne fonctionne pas tout le temps : les formulaires de contact complexes et longs.

Donc, si vous êtes sûrs à 99% de pouvoir obtenir des gains rapidement, faites-le simplement. Vous n'avez pas besoin de tout prouver en utilisant des A/B tests et des résultats « stat sig ».

Vous vous demandez peut-être :

« D'accord, mais comment convaincre mon manager que nous pouvons simplement déployer ces changements sans même les tester auparavant ? »

Pour répondre à cela, je recommande de :

  • Documenter vos tests de manière structurée pour pouvoir présenter des études de cas pertinentes plus tard.
  • Faire du benchmarking sur les concurrents (et les acteurs en dehors de votre secteur cible). S'ils font tous à peu près la même chose, il y a probablement une raison valable.
  • Partager des résultats pertinents tirés d'articles reconnus du genre : « Les 50 meilleurs tests que chaque marketeur devrait connaître » (par exemple, A/B Tasty, Kamaleoon).

Votre objectif ici doit être d'éviter les processus longs et de gagner du temps, en mettant en place des Quick Wins. Et nous savons tous que le temps, c'est de l'argent, donc votre directeur marketing/financier vous en sera reconnaissant.

Ne laissez pas la signification statistique arrêter votre test

Certains marketeurs disent souvent :

« Vous devez continuer un test jusqu'à ce qu'il soit statistiquement significatif. »

Mais attention : ce n’est pas totalement vrai ! Atteindre une signification statistique de 95% est crucial, mais cela ne garantit pas la fiabilité de vos résultats. 

Lorsque votre outil d’A/B test indique que vous avez atteint la signification statistique, cela veut simplement dire qu’il est plus que probable que vos anciennes annonces (A) et vos nouvelles variantes (B) montrent des différences.

Mais est-ce vraiment une information utile quand vous savez pertinemment avoir mis en place un test A/B (versus un test A/A) ? Atteindre 95% de signification statistique revient parfois à enfoncer une porte ouverte…

En d'autres termes, atteindre la signification statistique ne prouve pas que votre nouvelle variante performe mieux (ou moins bien) que l'annonce originale. Simplement qu’il y a une variation.

Mais alors, comment être certain que les résultats de votre test indiquent réellement la meilleure variante ? Vous pourriez penser que la version B fonctionne mieux que la A de cinq points. Mais alors qu'est-ce qui cloche?

Comme mentionné précédemment, atteindre 95% de signification statistique montre simplement que vos variantes se comportent différemment. Cependant, votre top performer pourrait changer entre les groupes A et B, même après avoir atteint cette signification statistique.

Et c'est là un vrai gros problème : les résultats de votre A/B test peuvent devenir peu fiables, même s’ils atteignent 95% de signification statistique. Mais à quel point ? Pour une analyse approfondie, consultez les travaux d'Evan Miller et l'article de Harvard Business Review.

Du coup, comment être sûr que vos résultats sont vraiment fiables ?

Ne vous arrêtez pas à 95% de signification statistique ! Ensuite, concevez vos A/B tests différemment. 

Voici comment ⬇️

Analysez votre audience cible

Si vous n'êtes pas à l’aise avec les chiffres ou les maths, lisez d'abord l'article de Bradd Libby.

Résumé : tirer à pile ou face 10 fois ne prouve pas que ladite pièce est parfaitement équilibrée. Cent fois c'est mieux, et 1 million c'est excellent. Une infinité de fois serait parfait. Sérieusement, essayez de jouer à pile ou face et voyez par vous-même… vous n’obtiendrez pas 50/50. Dommage quand on pense une pièce parfaitement équilibrée !

Pour vos annonces, cela signifie que la conception de vos tests A/B devrait commencer par la connaissance de votre audience. S'agit-il de 10 personnes ou d'un million ?

En fonction de cela, vous savez où vous en êtes : dans les A/B tests, plus de données signifie une plus grande fiabilité et plus de précisions. 

La taille de l'échantillon est cruciale pour un A/B test

Tous les projets ou clients ne bénéficient pas d’un site Web avec une forte audience (que ce soit en termes de sessions, de clics, de conversions, etc.).

Cependant, pas de panique. Un échantillon important est nécessaire seulement si vous anticipez de petits changements incrémentaux. C'est pourquoi mon premier conseil dans cet article est : évitez les tests qui confirment l'évidence.

Mais disons que vous vous demandiez quel est l’échantillon minimum requis pour une augmentation estimée à seulement quelques points… Comment faire ? Bonne nouvelle : A/B Tasty a mis au point un calculateur de taille d'échantillon !

A noter, Quantads n’a aucun lien d'affiliation avec A/B Tasty, mais je trouve leur outil très simple à prendre en main pour débuter. Vous pouvez également comparer avec d'autres outils comme : Optimizely, Adobe ou Evan Miller.

En utilisant ces outils, vous serez capable d’analyser vos données historiques pour déterminer si votre test peut atteindre un niveau suffisant pour générer des résultats fiables.

Top non ? Mais attention, ce n’est toujours encore terminé !

Le parcours client est également très important

Par exemple, supposons que vous observez un taux de conversion de 5% pour un bassin d'audience de 7 000 visiteurs (votre volume hebdomadaire moyen de visiteurs). 

Les calculateurs de taille d'échantillon ci-dessus vous indiqueront qu'il vous faut moins de 8 jours si vous prévoyez une augmentation de votre taux de conversion de 1,5 points (donc passer de 5% à 6,5%).

Huit jours pour augmenter votre taux de conversion de 1,5 point de pourcentage ! C'est une aubaine, si vous voulez mon avis. Dommage que vous soyez tombés dans le piège… 😈 

La métrique que vous auriez dû remettre en question en premier lieu était ces 8 jours. Couvrent-ils au moins une étape du parcours client ? (si ce n'est deux...)

En effet, si vous ne donnez pas assez de temps à vos différents groupes pour compléter tout le parcours client, vos résultats d'AB test seront faussés. Par exemple, un groupe pourrait seulement avoir le temps de contacter un commercial, tandis que l'autre pourrait déjà avoir eu le temps de finaliser un achat. 

Comparer ces résultats incomplets ne reflète pas la vraie performance de vos versions testées (A vs B). Assurez-vous donc que chaque groupe a suffisamment de temps pour parcourir tout le processus d'achat pour obtenir des résultats précis.

Encore une fois, cela montre que plus votre test est long, plus les résultats seront précis, ce qui peut s'avérer particulièrement difficile en B2B, où les cycles d'achat peuvent durer des mois voire des années. 

Dans ce cas, vous voudrez probablement examiner les étapes du processus avant l'achat et vous assurer que les variations du taux de conversion sont relativement stables. Cela indiquera que vos résultats deviennent plus précis et vous pourrez ou non attribuer le mérite d’une amélioration des performances à votre A/B test. 

Comme vous pouvez le constater, atteindre une signification statistique n'est pas suffisant pour décider si les résultats de votre test sont fiables. Vous devez d'abord examiner et déterminer la taille de votre audience, puis laisser votre test se dérouler suffisamment longtemps.

Autres erreurs courantes des A/B tests

Bien que les erreurs précédentes soient les plus importantes, je ne peux m'empêcher d’en souligner d'autres juste pour le plaisir !

Ne pas segmenter les sources de trafic

Les experts en publicité le savent par cœur, le trafic de recherche de marque vaut bien plus que les audiences froides des annonces sur Facebook (hors retargeting, par exemple).

Imaginez un test où, pour une raison quelconque, la part de trafic de recherche de marque augmente relativement à celle du trafic froid des annonces Facebook (grâce à un “buzz” médiatique, disons).

Vos résultats sembleraient alors meilleurs ! Mais seraient-ils fiables ? Probablement pas.

En résumé : vous devez segmenter votre test par source de trafic autant que possible.

Voici quelques sources que je recommanderais d'examiner avant de lancer votre test :

  • SEO (souvent, c'est 90% du trafic de marque).
  • Emailing et SMS (les clients existants sont la plupart du temps sur-performants).
  • Retargeting (ces personnes vous connaissent déjà : elles ne sont pas représentatives du prospect type).
  • SEA de marque.

Assurez-vous que vos tests comparent des éléments similaires

Par exemple, même si Google suggère que faire un AB test entre Performance Max et Shopping « vous aide à déterminer quel type de campagne génère les meilleurs résultats pour votre entreprise », il ne s'agit pas d'une comparaison exacte.

Il ne mentionne pas que Performance Max couvre une gamme plus large d’inventaires média que les campagnes Shopping. Cela rend le test inefficace dès le départ.

Pour obtenir des résultats précis, comparez Performance Max avec l'ensemble de vos campagnes Google Ads, sauf si vous utilisez des exclusions de marque. Dans ce cas, vous devrez comparer Performance Max avec tous les éléments de Google Ads, à l'exception des campagnes search marque et Shopping.

Ne pas prêter attention au segment impactant

Encore une fois, la plupart des spécialistes du marketing savent que les différents devices, par exemple mobiles et desktop, fonctionnent et performent très différemment.

Alors pourquoi combiner les données desktop et mobiles dans vos A/B tests ? 

C'est pareil pour les données géographiques : il ne vous viendrait pas à l’esprit de comparer les données américaines avec celles de la France ou de l'Inde. Pourquoi ? C’est simple :

  • La concurrence n'est plus la même.
  • Les CPM varient considérablement.
  • L’adéquation produit/marché n’est pas identique.

Assurez-vous donc de localiser vos tests autant que possible.

Dernier segment important : la saisonnalité

À moins que vous ne soyez dans un secteur d'activité qui propose toujours des promotions, votre client moyen n'est pas le même que votre client du Black Friday, des Soldes d’Été ou de la Fête des Mères.

Faites donc bien attention à prendre la saisonnalité en compte dans vos tests et à ne pas regrouper les résultats de ces différents tests.

Conclusion

Pour résumer, voici les conseils clés à retenir pour mettre en place des A/B tests qui donnent des résultats fiables :

  • Évitez la signification statistique excessive : visez des changements rapides et évidents (quick wins) sans nécessairement rechercher une signification statistique.
  • Analysez votre audience : évaluez correctement la taille de votre audience avant de lancer un test (plus de données = un résultat plus précis).
  • Segmentez les sources de trafic : comparez des éléments similaires et segmentez vos tests par source de trafic pour des résultats optimaux.
  • Considérez le parcours client : donnez à vos groupes de test suffisamment de temps pour compléter le parcours client (et donc améliorer la qualité de vos résultats).
  • Tenez compte de la saisonnalité : ne regroupez pas les résultats de périodes, comme le Black Friday ou les soldes, avec vos tests réguliers.

En adoptant ces pratiques, vous maximiserez la fiabilité de vos A/B test et pourrez ainsi, prendre des décisions éclairées pour optimiser vos campagnes !

Les dernières actus

Le blog

Analytics

Conversions offline : le guide du débutant

Parcours utilisateur

Cartographie CRO : maximisez le taux de conversion de vos campagnes publicitaires

Search Engine Advertising

Le guide ultime (2024) des extensions d'annonces Google Ads (+ illustrations)