Statistical modeling of event probabilities subject on a sports bet : Theory and applications to soccer, tennis and basketball - CNRS-INSMI - INstitut des Sciences Mathématiques et de leurs Interactions Accéder directement au contenu
Thèse Année : 2022

Statistical modeling of event probabilities subject on a sports bet : Theory and applications to soccer, tennis and basketball

Modélisation statistique des probabilités d’évènements faisant l’objet d’un pari sportif : Théorie et applications au football, tennis et basketball

Résumé

Establishing the odds for a set of sports bets requires, amongst other things, establishing the probabilities for a set of characteristic events . If we take the example of a football game, the score at half time is an event. The final score is also an event (dependant of the score at half time). We can also bet on who scores the goal, on which team scores first…As the preliminary studies on the subject of sports predictions and analyses show ever since the mid-20th century, the more accurate, important and relevant the data fed into the model is, the more reliable the estimate of the probability for the occurrence of an event will be.With the recent development in the volume of data used, its accessibility as well as the technical means that allow for the processing of the data, passed sports events data that was up until now seldom used, has been gathered and collected from 6 different websites that specialise in the publication of data and information of sports results and statistics.Thus, a structured database concerning sporting events between the years 1991 and 2018 was built. Once the data is gathered, it is then cleaned, verified and formated in order to be made into a usable set of reliable data.Since the overall data comes from different sources, it was necessary to join all the pieces of data together by using common indexes thatwere built on the synctactic proximity of the observations.Therefore the expected goals, the box-scores or the elo points, which are all specialised metrics in the field of study, allow for a considerable improvement in the performance of the model.Faced with the problem of modelling the probability of a sporting event, supervised classification algorithms capable of predicting a probability distribution over a set of classes, rather than displaying only the most probable class, for a given observation, have been used. Thus, one can have a certain level of confidence in the occurrence of all sporting events, and not be interested only in the most probable event:bold hat y = arg max_bold y Pr( bold Y =bold y divides bold X ) forall bold y in bold YFurthermore, it is always this probability distribution that will be used to compare the models with each other with the help of appropriate evaluation metrics : where pij is the probability produced for the observation i of being in the class j, and yij is the variable indicating whether or not the event has occured:Loss = sum from{i=0} to{I-1} sum from{j=0} to{J-1} f( y_ij, p_ij )where pij is the probability for observation i to be in class j and yij is the variable indicating the realization or not of the event.In order to minimise this loss function, representing the performance of the model, the features were selected and the hyper-parameters of the model were adjusted, following a division of the data into several samples, in order to simulate a use of the model in which the probabilities could be proposed before the beginning of each encounter.Following a comparison with other bookmakers, the proven quality of the results makes it possible for Betclic to suggest relevant odds pertaining to the outcome of sports encounters in tennis, basketball and football. The declination on finer events, such as the exact score, is also possible.
L’établissement de cotes pour un ensemble de paris sportifs passe, entre autres, par l’établissement de probabilité d’un ensemble d’évènements caractéristiques. Si l'on prend l'exemple d'un match de football, le score à la mi-temps est un évènement. Le score final est aussi un évènement (dépendant du score à la mi-temps). On peut également parier sur le buteur, l'équipe qui ouvre le score…Comme le montre les études préliminaires sur le thème de l’analyse et la prédiction sportive, depuis la moitié du XXème siècle, plus les données utilisées par ce modèle seront importantes, précises et pertinentes, plus l’estimation de la probabilité d’un évènement pourra être fiable.Avec le développement récent du volume de données, de leur accessibilité, et des moyens techniques permettant leur traitement, des données concernant les rencontres sportives passées, jusqu’alors très rarement utilisées, ont alors été collectées depuis 6 sites internet spécialisés dans la publication d’informations sur les résultats et les statistiques sportifs. Ainsi, une base de données structurée, concernant des rencontres datant de 1991 à 2018, a été créée.Une fois les données collectées, ces dernières ont été nettoyées, vérifiées et formatées afin d’en faire un ensemble de données utilisable. Du fait qu’elles proviennent de différentes sources, il a été nécessaire de joindre les données entre elles, à l’aide d’index en commun, construits sur la proximité syntaxique des observations.A l’aide des avancées proposées dans le domaine de l’analyse sportive, les données brutes ont pu être transformées en features représentant plus précisément le problème sous-jacent. Ainsi, les expected goals, les box-scores ou les points elo, qui sont des métriques spécialisées dans le domaine étudié, permettent une amélioration considérable de la performance du modèle.Face au problème de la modélisation de la probabilité d’un évènement sportif, les algorithmes de classification supervisée capables de prédire une distribution de probabilité sur un ensemble de classes, plutôt que d’afficher uniquement la classe la plus probable, pour une observation donnée, ont été utilisés:bold hat y = arg max_bold y Pr( bold Y =bold y divides bold X ) forall bold y in bold YAinsi, on peut avoir un certain niveau de confiance sur la survenue de l’ensemble des évènements sportifs, et ne pas s’intéresser uniquement à l’évènement le plus probable. De plus, c’est toujours cette distribution de probabilité, qui va être utilisée pour comparer les modèles entre eux, à l’aide de métriques d’évaluation adaptées:Loss = sum from{i=0} to{I-1} sum from{j=0} to{J-1} f( y_ij, p_ij )où pij est la probabilité produite pour l’observation i d’être dans la classe j et yij est la variable indiquant la réalisation ou non de l’évènement.Dans l’objectif de minimiser cette fonction de perte, représentant la performance du modèle, les features ont été sélectionnées et les hyper-paramètres du modèle ajustés, suite à une division des données en plusieurs échantillons, afin de simuler une utilisation du modèle selon laquelle les probabilités puissent être proposées avant le début de chaque rencontre.Suite à une comparaison avec d’autres bookmakers, la qualité avérée des résultats permet à Betclic de proposer des cotes pertinentes concernant l’issue des rencontres de tennis, de basketball et de football. La déclinaison sur des évènements plus fins, tel que le score exact, est également possible.
Fichier principal
Vignette du fichier
STEFFEN_PAUL_2022.pdf (3.46 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03891393 , version 1 (09-12-2022)

Identifiants

  • HAL Id : tel-03891393 , version 1

Citer

Paul Steffen. Statistical modeling of event probabilities subject on a sports bet : Theory and applications to soccer, tennis and basketball. Statistics [math.ST]. Université de Bordeaux, 2022. English. ⟨NNT : 2022BORD0210⟩. ⟨tel-03891393⟩
425 Consultations
830 Téléchargements

Partager

Gmail Facebook X LinkedIn More