Internationalisation : comment scaler son modèle de données ?

Imaginez une entreprise qui octroie des crédits en France, mais qui souhaite désormais se développer dans d’autres pays, notamment en Europe. Constat immédiat : ce n’est pas si simple ! Même dans l’Union européenne, les contextes varient grandement. Données non homogènes, systèmes de crédit qui fonctionnent différemment … L’entreprise peut avoir une très mauvaise surprise et être obligée de reconstruire son modèle de scoring de zéro.

Loin d’être hypothétique, cette situation était courante jusqu’à récemment. Concevoir un modèle de données qui s’applique à tous les pays est compliqué, mais pas impossible. Surtout depuis la mise à disposition d’une ressource puissante : les données Open Banking.

Chez Algoan, nous nous efforçons de construire depuis le premier jour un modèle de Credit Scoring par API, scalable à l’international, en nous appuyant sur ces données Open Banking. Comment avons-nous fait ? Camille Charreaux, notre Head of data science, lève le rideau sur nos choix en matière de data pour créer un produit qui convient à toutes les géographies, sans que ce soit une usine à gaz.

Des données accessibles, mais disparates

Vous souvenez-vous de votre dernière expérience de demande de crédit ? Si elle date de plus de 5 ans, elle ressemble sans doute à ça :

« Traditionnellement, en France, les établissements de crédit demandent aux consommateurs sollicitant un prêt de remplir un formulaire en ligne. 10-20 questions auxquelles il faut répondre en déclarant sa situation familiale, ses revenus, ses charges, ses autres crédits en cours, etc.»

Et si vous avez contacté plusieurs banques ou organismes de crédit, vous le savez : les questionnaires varient de l’un à l’autre … de même que les décisions d’octroi de crédits. (Imaginez alors entre des pays différents !)

Une approche qui n’est pas exempte de problèmes :

Les données sont déclaratives. Cela signifie qu’il peut y avoir des erreurs, des oublis et des omissions. Il y a souvent un écart entre les revenus, qui sont surestimés, et les charges, qui sont sous-estimées. Avec une tendance à ne pas déclarer les autres crédits en cours pour optimiser ses chances.
Les données ne sont pas financières. Pas uniquement en tout cas : une grande partie d’entre elles sont des données démographiques et socioprofessionnelles (âge, situation familiale, catégorie d’emploi, etc.). Or, pour savoir si une personne va être en mesure de rembourser son crédit, les données financières sont les plus fiables.

Qu’il s’agisse de la collecte des données ou de leur nature, ce modèle de scoring crédit n’est pas optimal. S’ajoute à cela une couche de complexité supplémentaire : des fonctionnements différents en fonction des pays, avec la présence de Credit Bureaus.

« C’est une approche que nous ne connaissons pas en France, mais qui est commune dans beaucoup de pays. Les bureaux de crédit sont des agences qui rassemblent les informations sur les crédits détenus par les consommateurs. Elles les fournissent notamment aux établissements de crédit, qui obtiennent une vue globale sur la situation d’un citoyen. »

Les données ne sont plus uniquement déclaratives, ce qui résout une partie du problème. Cependant, d’autres émergent :

Les données collectées sont variables d’un pays à l’autre, même avec des bureaux de crédit présents dans plusieurs pays.
En fonction des pays, tous les crédits ne sont pas enregistrés dans les Credit bureaus, ce qui crée des disparités.
Les données récoltées ne sont pas aussi granulaires que les données bancaires.
Seuls les citoyens ayant déjà contracté un crédit sont présents dans les bases de données. Il peut être difficile d’obtenir un scoring crédit - et donc d’avoir accès au crédit - pour une première demande. Aux États-Unis, par exemple, sans score FICO, il est difficile d’obtenir un prêt.

Même lorsque les établissements de crédit passent par des Credit bureaus, ils doivent adapter leurs modèles de scoring en fonction des données récoltées par chacun.

Bonne nouvelle : ce fonctionnement évolue depuis quelques années.

D’abord, avec l’apparition dans les années 2010 d’agrégateurs collectant les données bancaires des consommateurs. Utilisant le web scraping, cette méthode consiste à recueillir les données financières pour évaluer le potentiel d’une personne à rembourser son crédit.
Une approche qui manquait de sécurité jusqu’à l’entrée en vigueur de la DSP2, la deuxième directive européenne sur les paiements, en 2019. Celle-ci sécurise l’accès aux données bancaires, en imposant aux banques la mise en place d’API sécurisées, avec des mécanismes d’authentification stricts. C’est le fameux « Open Banking ». Cela a permis aux agrégateurs de développer des connexions sécurisées et fiables, fournissant des données bancaires, universelles et granulaires.

Ces données Open Banking créent une base solide pour construire des modèles scalable à l’international.

L’Open Banking : une opportunité incontestable pour le traitement de la donnée

Pourquoi ces données Open Banking changent radicalement la donne pour le traitement de la donnée ?

« Les données Open Banking se présentent sous des formats bien connus dans le monde de la data science. Elles sont numériques (montants de transactions) et textuelles. Nous avons du recul sur les types de modèles et d’architectures qui fonctionnent sur ces catégories de données. »

Leur nature même résout de nombreux problèmes rencontrés dans le scoring crédit traditionnel :

Ce sont toujours les mêmes données, sous un format similaire.
La source de données est unique et infalsifiable. Ce n’est plus déclaratif : les données sont obtenues directement via les comptes bancaires des utilisateurs.

En somme, ces données sont représentatives de la situation financière des personnes qui sollicitent un prêt. Elles sont une base parfaite pour construire un modèle de données reproductible à l’international.

« L’Open Banking, loin d’être une niche, change profondément la façon dont l’octroi de crédit s’effectue. Chez Algoan, nous avons fait le choix de travailler avec plusieurs agrégateurs, qui se connectent directement aux API bancaires pour collecter la donnée. Nous évitons ainsi de développer nos propres connecteurs. Nous nous concentrons sur le développement de notre API de Credit Scoring. »

L’Open Banking est un changement de paradigme pour les parcours de crédit et ouvre les possibilités pour développer des produits scalables à l’international.

Comment scaler un produit basé sur la data ?

Les données Open Banking sont une ressource puissante. Encore faut-il ensuite construire des modèles de données qui peuvent scaler en s’appuyant dessus.

« Nous savions dès le premier jour que nous voulions proposer un produit global. C’est important car cela a été intégré nativement dans la construction de nos modèles de données : la façon dont on la collecte, dont on la traite, etc. »

Voici la méthode que nous avons adoptée chez Algoan :

Temps 0 → concevoir les fonctionnalités:

Cette première phase a pour but d’inventorier les fonctionnalités qui sont nécessaires, pour savoir quelles données collecter. Dans notre cas, nous connaissions les différentes étapes qui mènent à l’octroi de crédit. Nous avons donc revu chaque étape de la décision d’octroi pour décider des variables les plus pertinentes à sélectionner. Ce sont celles qui permettent d’établir le profil bancaire précis des consommateurs (revenus, volatilité des dépenses, utilisation du découvert bancaire, incidents, etc.).

Temps 1→ construire le squelette de l’algorithme générique:

Le but est de construire un squelette adapté à tous les contextes. Ce qui est gérable sur des données bancaires. Une fois cette architecture définie, le gros travail se fait sur la donnée, sa stratégie de collecte et d’étiquetage. Avec les données Open Banking, le pré-traitement est similaire dans tous les pays (nettoyage et simplification des données à injecter dans les algorithmes).

Il faut ensuite entraîner les algorithmes, qui apprennent grâce aux étiquettes qu’on leur fournit. Leur but est de deviner seuls ces étiquettes sur de futures données.

Temps 2→ personnaliser le produit avec des données spécifiques:

Une fois la couche de base, universelle, construite, on peut s’intéresser à des données plus spécifiques au contexte de chaque pays (mœurs, habitudes sociales, lifestyle, etc), et mettre en place une stratégie d’étiquetage complémentaire.

« Pour scaler un produit basé sur la data, avoir une vision internationale dès le départ est presque incontournable. Cela fait gagner un temps précieux par la suite, puisque les algorithmes ont été conçus pour. Il faut donc penser à l’universel d’abord, qui sera une base duplicable pour tous les pays, puis ajouter une couche de spécialisation, pour répondre de façon précise au contexte local. »

La bonne nouvelle, c’est qu’en data, l’amélioration est continue. Les algorithmes sont améliorés en permanence. Plus on a de données, mieux on fait. Mieux on fait, plus on a de données. Ce cercle vertueux n’est possible que si les bonnes stratégies de collecte, puis de scaling, des données ont été mises en place.

Dans le crédit, cela est rendu plus facile grâce à l’Open Banking. C’est une fondation solide pour toute la proposition de valeur développée par Algoan : améliorer l’accès au crédit. Avec les données Open Banking, nous sommes capables de proposer un produit qui fonctionne mieux, et qui fonctionne partout.