Vous avez un Projet ?
Présenté par Alaeddine AZIZ
L’année 2014 s’est traduite par plus de 8 millions de sinistres AUTO indemnisés parmi lesquels environ 27 000 cas frauduleux identifiés, soit une fréquence de 0,3 %. Ce taux apparait néanmoins fortement sous-estimé puisqu’il ne concerne que les fraudes détectées par les assureurs. La proportion réelle de fraudes peut être estimée à quelques pourcents en assurance AUTO.
Outre cette faible fréquence, les cas frauduleux présentent souvent des caractéristiques relativement similaires aux cas non-frauduleux. Il n’existe pas de variable ou de règle particulière permettant de caractériser les cas de fraude de manière simple et robuste.
D’un point de vue schématique, détecter la fraude consiste à chercher une épingle jaune dans une botte de paille. D’un point de vue technique, cela revient à traquer les signaux faibles caractérisant la fraude.
Dans cette lutte, les gestionnaires de sinistres se retrouvent en première ligne. Ces derniers peuvent en effet signaler les cas suspicieux afin d’engager des investigations. Cette identification est réalisée sur la base de l’expérience acquise dans l’analyse des éléments du sinistre, mais également sur le ressenti de l’échange avec l’assuré. Cet aspect humain constitue une spécificité des gestionnaires qui ne peut être reproduit dans les modèles de détection de fraude.
Néanmoins, un assureur couvrant 100 000 contrats doit traiter en moyenne 20 000 dossiers par an avec une équipe d’une dizaine de gestionnaires. Ces derniers ne peuvent réaliser une analyse approfondie de chaque sinistre sans risquer de compromettre la fluidité de l’ensemble de la gestion. Par ailleurs, la fraude constitue un phénomène trop complexe pour être complètement appréhendé par un gestionnaire, aussi expérimenté et psychologue soit-il.
Le recours à des modèles automatiques de détection constitue dès lors une nécessité opérationnelle pour lutter de manière efficace contre la fraude. Ces modèles s’articulent autour de 3 approches distinctes :
- approche par règle décisionnelle ;
- approche supervisée ;
- approche non-supervisée.
APPROCHE PAR RÈGLE DÉCISIONNELLE
Cette approche consiste à définir un corpus de règles binaires caractérisant chacune une situation suspecte. Un sinistre vérifiant une de ces règles est considéré comme potentiellement frauduleux et devra en conséquence faire l’objet d’une vérification voire d’une investigation approfondie.
Les règles retenues correspondent généralement à une formalisation d’un certain « bon sens » et de l’expérience des gestionnaires en matière de fraude. Certaines règles quantitatives peuvent être calibrées sur la base d’analyses statistiques (ex : seuil fréquence ou coût atypiques). Néanmoins, cet aspect quantitatif reste limité à une simple analyse statistique univariée.
Les types de fraude étant intrinsèquement liés à la garantie considérée, les règles de décision sont généralement définies au niveau de chaque garantie. Les modèles de place retiennent entre 10 à 20 règles par garantie ce qui aboutit in fine à un corpus d’une centaine de règles.
L’avantage principal de ce type de modèle réside dans sa simplicité opérationnelle. En effet, la mise en œuvre d’une telle approche ne requiert ni base de données spécifique, ni travaux de modélisation complexe. La notion de règle binaire présente par ailleurs un caractère intelligible pour l’ensemble des acteurs impliqués qui peuvent ainsi participer à la construction du modèle, le mettre en œuvre et le faire évoluer.
Des règles de décision binaires apparaissent néanmoins trop rudimentaires pour capter la complexité du phénomène de fraude. Cette insuffisance peut conduire à un modèle avec une très faible spécificité qui produira de nombreux faux positifs. Une proportion élevée de cas identifiés comme suspects, bien qu’en réalité non frauduleux, peut rendre les résultats peu exploitables avec un périmètre de sinistres à investiguer trop étendu. Les coûts d’investigation risquent alors de se révéler globalement supérieurs au montant de fraude à recouvrer. Une sélection de règles suffisamment restrictives permet cependant de minorer ce risque.
Cette approche présente sans doute le meilleur compromis entre performance et coût opérationnel. Son caractère sommaire limite forcément ses performances de détection face aux cas complexes de fraude. Néanmoins, ce type de modèle permet de définir un premier périmètre d’investigation ciblé sur les cas les plus à risque. In fine, bien qu’elle ne se suffise pas à elle-même, cette approche par règles de décision constitue une première étape indispensable pour tout assureur souhaitant mettre en place un système de détection automatique de la fraude. Ce type de modèle est d’ailleurs implémenté chez une majorité des acteurs du marché.
APPROCHE SUPERVISÉE
Cette approche vise à construire un modèle d’apprentissage statistique permettant de prédire l’appartenance des sinistres déclarés à une des 2 classes suivantes :
Ce modèle de classification permet d’estimer la probabilité d’appartenance à la classe « sinistre frauduleux », notée Yˆ, du i sinistre i par rapport à un ensemble de variables explicatives X j :
Le modèle est calibré à partir d’une base fraude qui contient pour chaque sinistre du périmètre historique retenu :
- les variables explicatives ;
- la classe à laquelle il appartient.
La complexité du phénomène de fraude impose de considérer de nombreuses variables explicatives issues de différentes sources (base sinistre, base assuré, base commerciale,…). La création de cette base constitue la principale contrainte opérationnelle de l’approche. En effet, l’identification de la classe d’appartenance des sinistres requiert de disposer d’un historique des fraudes détectées. L’approche supervisée ne peut donc être envisagée qu’à partir d’un dispositif de lutte contre la fraude préexistant.
L’approche supervisée vise à résoudre une problématique de classification. La démarche à mettre en œuvre reprend donc celle appliquée par les services de tarification dans le cadre des modèles de transformation, de rétention ou de propension :
- traitement et analyse des données ;
- sélection du modèle ;
- estimation des paramètres ;
- sélection des variables significatives.
Focus sur les algorithmes supervisés
La modélisation de la fraude présente néanmoins 2 spécificités majeures qui impactent sensiblement la démarche opérationnelle :
-
Classes déséquilibrées :
La classe « sinistre frauduleux » représente généralement moins de 0,5 % des sinistres de la base fraude. Les modèles de prédiction voient leur performance fortement dégradée lorsque la classe cible apparait si faiblement représentée. Cette problématique peut néanmoins être atténuée en appliquant des stratégies de sous/sur-échantillonnage et de création d’observations synthétiques via des algorithmes de type SMOTE9. Ces techniques permettent de rééquilibrer les classes afin d’aider le modèle à mieux identifier les patterns les caractérisant.
-
Variables explicatives nombreuses et variées :
L’apprentissage des modèles de fraude est réalisé sur une base regroupant souvent plus de 50 variables issues de différentes sources. L’expression de ces variables dans le score de fraude présente une forte complexité avec de multiples effets non linéaires et interactions. Les approches classiques de type GLM apparaissent peu adaptées au regard de l’important paramétrage manuel nécessaire pour prendre en compte cette complexité. Les algorithmes de type Machine Learning présentent dans ce contexte une réelle pertinence en raison de leur capacité à appréhender des données complexes, variées et volumineuses de manière automatique.
L’approche supervisée permet in fine de construire un modèle de détection automatique des fraudes prenant en compte la complexité du phénomène d’une part, et reposant sur des bases objectives d’autre part. Le recours à des algorithmes de type machine learning permet en effet de capter la complexité des données selon une approche « data driven ». Le caractère « boite noire » de ces modèles constitue souvent une cause de disqualification dès lors qu’une certaine traçabilité est requise. Cependant, dans un contexte de détection de fraude, le besoin de traçabilité apparait moins prégnant ce qui permet d’envisager ce type d’algorithme.
APPROCHE NON SUPERVISÉE
Cette approche vise à développer un modèle d’apprentissage statistique permettant de regrouper les données en différentes classes homogènes non connues a priori. Le modèle va analyser la structure des données et classer les observations selon leur degré de similitude. L’objectif ne consiste plus à déterminer des règles permettant de prédire l’appartenance à une classe cible, mais à identifier des règles de regroupement au sein de différentes classes définies par le modèle lui-même. D’un point de vue schématique, l’approche non supervisée revient à laisser le modèle analyser les données sans lui préciser ce qu’il doit trouver.
Cette approche permet notamment d’identifier les observations présentant une structure atypique au sein d’une base de données. En formulant l’hypothèse qu’un sinistre affichant des caractéristiques atypiques dissimule potentiellement une fraude, cette approche peut être appliquée dans un contexte de détection automatique des cas frauduleux.
Le modèle réalise son apprentissage sur une base de données similaire à celle de l’approche supervisée mais limitée aux seules variables explicatives. L’absence de variable cible présente 2 avantages majeurs :
- l’identification préalable des sinistres frauduleux n’est plus nécessaire. Un modèle non-supervisé peut donc être développé et mis en œuvre immédiatement sans prérequis.
- les résultats ne sont plus conditionnés par l’identification des sinistres frauduleux. L’approche permet donc de détecter des types de fraude jamais observés jusqu’alors.
Les modèles non supervisés reposent tous sur le même principe
: une mesure de la singularité de chaque observation. Cette mesure peut correspondre à une distance ou une densité, estimée de manière locale ou globale, selon le modèle considéré. Les algorithmes non-supervisés se répartissent en 3 grandes familles :
- méthodes de distance globale ;
- méthodes de distance locale ;
- méthodes de densité ;
L’absence de variable cible implique qu’il n’existe pas de phase de paramétrage, de sélection de variable ou de validation du modèle. Cette spécificité présente l’avantage de la simplicité opérationnelle. Néanmoins, l’absence de feedback sur la qualité des résultats peut parfois se révéler déroutante. L’utilisateur en est réduit à accorder une confiance aveugle à son modèle.
Cet inconvénient peut être atténué selon 2 méthodes :
-
Valider les résultats sur une base contenant des sinistres identifiés comme frauduleux :
L’objectif consiste alors à vérifier qu’une part de ces sinistres ressort bien comme atypique. Cette analyse peut également servir à ajuster le modèle. Ces ajustements doivent néanmoins rester limités sous peine de tomber dans une approche supervisée.
-
Implémenter chaque famille d’algorithmes pour travailler sur un méta score :
Cette solution permet de traiter la problématique du choix du modèle. En outre, cette orientation présente une réelle pertinence puisque chaque type de modèle performe de manière différente selon la structure des données considérées.
L’approche non supervisée apparait encore peu considérée par les assureurs dans le cadre de la détection de fraude. Cette dernière présente pourtant des avantages certains, à commencer par son absence de prérequis permettant une mise en œuvre immédiate, ainsi que sa capacité à identifier des types de fraudes encore jamais détectées. Néanmoins, l’hypothèse sous-jacente à l’approche, qui lie les caractères frauduleux et atypique, peut s’avérer inexacte. L’impossibilité de paramétrer et de valider le modèle ne permet pas de confirmer cette hypothèse pourtant fondamentale. Le risque consiste dès lors à engager des investigations couteuses sur les cas considérés comme atypiques par le modèle bien qu’en réalité non frauduleux. Cette faille pousse à considérer l’approche non supervisée comme un simple complément de l’approche supervisée
Focus sur les algorithmes non-supervisés