Scoring pour le risque de crédit : variable réponse polytomique, sélection de variables, réduction de la dimension, applications (Scoring for credit risk : polytomous response variable, variable selection, dimension reduction, applications) Vital, Clément - (2016-07-11) / Universite de Rennes 1 - Scoring pour le risque de crédit : variable réponse polytomique, sélection de variables, réduction de la dimension, applications
| |||
Langue : Français Directeur(s) de thèse: Patilea, Valentin; Rouvière, Laurent Discipline : Mathématiques et applications Laboratoire : IRMAR Ecole Doctorale : MATISSE Classification : Mathématiques Mots-clés : scoring, risque de crédit, régression polytomique, sélection de variables, Lasso
| |||
Résumé : Le but de cette thèse était d'explorer la thématique du scoring dans le cadre de son utilisation dans le monde bancaire, et plus particulièrement pour contrôler le risque de crédit. En effet, la diversification et la globalisation des activités bancaires dans la deuxième moitié du XXe siècle ont conduit à l'instauration d'un certain nombre de régulations, afin de pouvoir s'assurer que les établissements bancaires disposent de capitaux nécessaires à couvrir le risque qu'ils prennent. Cette régulation impose ainsi la modélisation de certains indicateurs de risque, dont la probabilité de défaut, qui est pour un prêt en particulier la probabilité que le client se retrouve dans l'impossibilité de rembourser la somme qu'il doit. La modélisation de cet indicateur passe par la définition d'une variable d'intérêt appelée critère de risque, dénotant les "bons payeurs" et les "mauvais payeurs". Retranscrit dans un cadre statistique plus formel, cela signifie que nous cherchons à modéliser une variable à valeurs dans {0,1} par un ensemble de variables explicatives. Cette problématique est en pratique traitée comme une question de scoring. Le scoring consiste en la définition de fonction, appelées fonctions de score, qui retransmettent l'information contenue dans l'ensemble des variables explicatives dans une note de score réelle. L'objectif d'une telle fonction sera de donner sur les individus le même ordonnancement que la probabilité a posteriori du modèle, de manière à ce que les individus ayant une forte probabilité d'être "bons" aient une note élevée, et inversement que les individus ayant une forte probabilité d'être "mauvais" (et donc un risque fort pour la banque) aient une note faible. Des critères de performance tels que la courbe ROC et l'AUC ont été définis, permettant de quantifier à quel point l'ordonnancement produit par la fonction de score est pertinent. La méthode de référence pour obtenir des fonctions de score est la régression logistique, que nous présentons ici. Une problématique majeure dans le scoring pour le risque de crédit est celle de la sélection de variables. En effet, les banques disposent de larges bases de données recensant toutes les informations dont elles disposent sur leurs clients, aussi bien sociodémographiques que comportementales, et toutes ne permettent pas d'expliquer le critère de risque. Afin d'aborder ce sujet, nous avons choisi de considérer la technique du Lasso, reposant sur l'application d'une contrainte sur les coefficients, de manière à fixer les valeurs des coefficients les moins significatifs à zéro. Nous avons envisagé cette méthode dans le cadre des régressions linéaires et logistiques, ainsi qu'une extension appelée Group Lasso, permettant de considérer les variables explicatives par groupes. Nous avons ensuite considéré le cas où la variable réponse n'est plus binaire, mais polytomique, c'est-à-dire avec plusieurs niveaux de réponse possibles. La première étape a été de présenter une définition du scoring équivalente à celle présentée précédemment dans le cas binaire. Nous avons ensuite présenté différentes méthodes de régression adaptées à ce nouveau cas d'étude : une généralisation de la régression logistique binaire, des méthodes semi-paramétriques, ainsi qu'une application à la régression logistique polytomique du principe du Lasso. Enfin, le dernier chapitre est consacré à l'application de certaines des méthodes évoquées dans le manuscrit sur des jeux de données réelles, permettant de les confronter aux besoins réels de l'entreprise. Abstract : The objective of this thesis was to explore the subject of scoring in the banking world, and more precisely to study how to control credit risk. The diversification and globalization of the banking business in the second half of the twentieth century led to introduce regulations, which require banks to make reserves to cover the risk they take. These regulations also dictate that they should model different risk indicators, among which the probability of default. This indicator represents the probability for a client to find himself in the incapacity to pay back his debt. In order to predict this probability, one should define a risk criterion, that allows to distinguish the "bad clients" from the "good clients". In a more formal statistical approach, that means we want to model a binary variable by an ensemble of explanatory variables. This problem is usually treated as a scoring problem. It consists in the definition of functions, called scoring functions, which interpret the information contained in the explanatory variables and transform it into a real-value score note. The goal of such a function is to induce the same order on the observations than the a posteriori probability, so that the observations that have a high probability to be "good" have a high score, and those that have a high probability to be "bad" (and thus a high risk for the bank) have a low score. Performance criteria such as the ROC curve and the AUC allow us to quantify the quality of the order given by the scoring function. The reference method to obtain such scoring functions is the logistic regression, which we present here. A major subject in credit scoring is the variable selection. The banks have access to large databases, which gather information on the profile of their clients and their past behavior. However, those variables may not all be discriminating regarding the risk criterion. In order to select the variables, we proposed to use the Lasso method, based on the restriction of the coefficients of the model, so that the less significative coefficients will be fixed to zero. We applied the Lasso method on linear regression and logistic regression. We also considered an extension of the Lasso method called Group Lasso on logistic regression, which allows us to select groups of variables rather than individual variables. Then, we considered the case in which the response variable is not binary, but polytomous, that is to say with more than two response levels. The first step in this new context was to extend the scoring problem as we knew in the binary case to the polytomous case. We then presented some models adapted to this case: an extension of the binary logistic regression, semi-parametric methods, and an application of the Lasso method on the polytomous logistic regression. Finally, the last chapter deals with some application studies, in which the methods presented in this manuscript are applied to real data from the bank, to see how they meet the needs of the real world. |