13-18 mai 2018 Saint Pierre d'Oléron (France)
Approche contextuelle par régression pour une stratégie d'allocation dynamique (tests A/B).
Emmanuelle Claeys  1@  , Myriam Maumy-Bertrand, Pierre Gançarski@
1 : Institut de Recherche Mathématique Avancée
université de Strasbourg, Centre National de la Recherche Scientifique : UMR7501

Les tests A/B sont des procédures utilisées par les entreprises du web et de la santé entre autres, pour mesurer l'impact d'un changement de version d'une variable par rapport à un objectif.

Bien qu'un nombre de plus en plus important de données soit disponible, la mise en place concrète d'un tel test peut impliquer un coût important relatif à l'observation et à l'évaluation d'une variation lorsque celle-ci n'est pas optimale. Il est alors possible d'utiliser un algorithme réalisant un compris entre l'exploration (quelle est la meilleure variation ?) et l'exploitation (proposer la meillieure variation a priori).

Pour chaque nouveau visiteur arrivant, un algorithme d'allocation dynamique va premièrement estimer la fonction de distribution du gain de chaque variation en tenant compte des leurs résultats passés.

Cet algorithme va ensuite augmenter la proportion de nouveaux visiteurs vers la variation réalisant, par exemple le taux de transaction le plus élevé. Pour correctement estimer ces taux de transaction, l'algorithme doit correctement explorer et exploiter.

Un modele statistique possible pour résoudre de telles situations est appelé "modèle de bandit". Lorsque des variables environementales influencent les résultats de chaque variation, on parle de "modèle de bandit contextuel".

Cependant, la quantité d'informations disponibles, autrement dit la taille du vecteur contextuel, influe fortement sur la performance des modèles de bandits contextuels. Par ailleurs, certaines variables peuvent être bruitées voire inutiles ou au contraire avoir un fort impact sur le gain généré par un visiteur. Enfin, l'information peut être quantitative ou bien qualitative et ce dernier cas peut augmenter fortement la complexité de l'algorithme.

Nous proposons un algorithme sélectionnant les informations les plus pertinentes pour identifier des sous-populations homogènes sur chacune desquelles un modèle de bandits indépendants est alors appliqué.


Personnes connectées : 1