Résumé
L’option de rachat intégrée dans les contrats d’épargne en assurance vie donne naissance à
un risque de rachat qui préoccupe les assureurs depuis longtemps, notamment pour des enjeux
de solvabilité et de compétitivité. Par ailleurs, le nouveau cadre réglementaire solvabilité 2
recommande une évaluation best estimate du risque de rachat, ce d’autant plus qu’il classe ce
dernier comme étant le plus gros risque technique en assurance vie. C’est donc dans ce contexte
que nous nous intéressons dans ce mémoire à la prédiction des comportements de rachat en
épargne individuelle. Le but est de mieux cerner les facteurs influençant la décision de rachat
des assurés et de prédire cette dernière de la façon la plus précise possible. Pour ce faire,
nous optons pour une approche probabiliste en utilisant les techniques de machine learning,
lesquelles sont largement reconnues pour leurs fortes capacités prédictives. Dans un premier
temps, nous faisons une modélisation prédictive des comportements de rachats structurels en
ne prenant en compte que les facteurs structurels. Dans un second temps, nous nous proposons
d’aller vers des comportements de rachats dynamiques en ajoutant aux facteurs structurels,
les facteurs économiques et financiers pour prédire les comportements de rachat des assurés de
façon complète. Globalement, il en ressort que les modèles d’agrégations d’arbre de décision
(forêt aléatoire et boosting) sont les plus performants pour prédire la décision de rachat des
assurés. Cependant, nous avons retenu comme meilleur modèle le Gradient Tree Boosting, qui
a été utilisé pour estimer les probabilités de rachat, à partir desquelles nous avons proposé
une estimation des taux de rachats prenant en compte un ensemble de facteurs structurels et
conjoncturels jugés pertinents.
Mots clés : comportement de rachat, prédiction, machine learning, forêt aléatoire, boosting
I
Abstract
The integrated surrender option in life insurance savings contracts give rise to a surrender
risk which concern the insurers for long time, including the issues of solvency and compe-
titiveness. Moreover, the new regulatory framework Solvency 2 recommends a best estimate
assessment of surrender risk , particularly since it classifies it as the biggest technical risk in
life insurance. Thus, it’s in this context that we are interested in this memory to the prediction
of surrender behaviors in individual savings. The goal is to better understand the factors in-
fluencing the surrender decision of insured and predict it in the most accurate manner possible.
To do this, we adopt a probabilistic approach using machine learning tools, which are widely
recognized for their strong predictive capabilities. First, we do predictive modeling of structural
surrender behaviors by taking into account that structural factors. Secondly, we intend to move
towards dynamic surrender behavior by adding at structural factors, economic and financial
factors to predict the surrender behaviors of insured comprehensively. Overall, it appears that
the aggregating models of decision tree (random forest and boosting) are the most accurate for
predicting surrender decision of insured. However, we have chosen as the best model Gradient
Boosting Tree, which was used to estimate the probabilities of surrender, from which we pro-
posed an estimate of surrender rate taking into account a set of structural and cyclical factors
deemed relevant.
Keywords : surrender behaviour, prediction, machine learning, random forest, boosting
II
Remerciements
Pour réaliser ce mémoire, j’ai bénéficié d’une aide multiforme. Quelques personnes en effet,
y ont pris une part notable, raison pour laquelle je tiens à les remercier.
Je remercie tout d’abord l’ensemble du corps professoral de l’ENSAE ParisTech qui n’a
ménagé aucun effort pour nous assurer une formation d’une très grande qualité. Merci par-
ticulièrement à Romuald Elie pour ses orientations et remarques sans nul doute pertinentes,
apportées lors de l’encadrement de ce mémoire en qualité de tuteur académique.
Je tiens aussi à remercier Ludovic Cohen, Directeur Epargne Individuelle chez Allianz France,
Sébastien Col, manager équipe Etudes Transverses et Aliou Sow, manager équipe Etudes et
Calculs Actuariels, pour m’avoir accueilli dans leur équipe et pour leur encadrement, leur clair-
voyance et leur disponibilité sans faille malgré leurs multiples occupations. Merci à Dominique
Abgrall et Guillaume Metge pour leurs conseils, leurs orientations, la documentation et l’appui
technique lors des échanges créatifs qu’ils m’ont accordés.
Ayant partagé le même bureau qu’eux, je remercie Mohamed Sankhe, Florent De Gayardon,
Anita Cathelineau et Stéphane Bourguelle, pour la facilitation de mon intégration dans l’équipe,
leur aide, leur gentillesse et toutes les réponses qu’ils m’ont apportées.
III
Table des matières
Introduction 1
I Cadre conceptuel et Méthodologique 3
1 L’Assurance Vie et le Risque de Rachat 4
1.1 Généralité sur l’assurance vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Présentation générale des contrats . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Les contrats d’épargne individuelle . . . . . . . . . . . . . . . . . . . . . 5
1.2 Le risque de rachat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Le rachat structurel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Le rachat conjoncturel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Impact sur la gestion Actif-Passif : lien risque de rachat et de taux . . . . 10
1.2.4 Solvabilité II et risque de rachat . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.5 La fiscalité et le rachat en assurance vie . . . . . . . . . . . . . . . . . . 14
2 Approches de Modélisation du Rachat 15
2.1 Revue de la littérature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Approche financière . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Approche statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3 Approche microéconomique . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4 Approche probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Modélisation du rachat chez Allianz . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Modélisation des rachats structurels . . . . . . . . . . . . . . . . . . . . . 22
2.2.2 Modélisation des rachats dynamiques . . . . . . . . . . . . . . . . . . . . 24
2.3 Méthodologie de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1 Limites des GLM et apports du machine learning . . . . . . . . . . . . . 26
2.3.2 Démarche retenue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
IV
Mémoire d’Actuariat
3 Méthodes de Machine Learning : un pas dans la théorie 32
3.1 Rappel sur les modèles généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.1 LR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.2 Régression Spline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.3 GAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Arbres de décision : CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.1 SVM linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.2 SVM non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5 Méthodes d’agrégations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.2 Forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.3 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
II Résultats Empiriques : Application au Portefeuille d’Allianz 49
4 Prédiction des comportements de rachat structurel 50
4.1 Analyse exploratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.1 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2 Ajustement spline : âge et ancienneté . . . . . . . . . . . . . . . . . . . . 54
4.1.3 Effets croisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Modélisation prédictive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1 Modèles généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2 CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.3 Agrégation d’arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Benchmark des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5 Vers des comportements dynamiques de rachat 66
5.1 Analyse du contexte économique . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.1 Une détérioration du contexte économique et financier . . . . . . . . . . 67
5.1.2 Une baisse du taux servi . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 Comportements de rachats suivant les facteurs dynamiques . . . . . . . . . . . . 69
5.2.1 Effet saisonnier des rachats . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2 Les rachats déterminés par les variables économiques . . . . . . . . . . . 70
5.3 Modélisation prédictive des comportements dynamiques . . . . . . . . . . . . . . 72
2015-2016 V ENSAE ParisTech
Mémoire d’Actuariat
5.3.1 Arbre de décision : CART . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3.2 Forêt aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3.3 Gradient Tree Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3.4 Benchmark des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Conclusion 79
Annexes 84
2015-2016 VI ENSAE ParisTech
Introduction
L’assurance vie tire ses origines du financier italien Lorenzo Tonti qui crée en 1652 des
associations de personnes mettant en commun des fonds qui seront redistribués à une date
ultérieure, entre toutes les personnes survivantes. Depuis lors, elle a connu des complexifica-
tions adaptées aux évolutions économiques et financières du monde moderne. Ainsi, un contrat
d’assurance vie peut être défini de nos jours comme un accord financier entre un assureur et un
assuré par lequel l’assuré prend l’engagement révocable de verser des primes et en contrepartie
l’assureur prend l’engagement irrévocable de lui verser des prestations ou à ses bénéficiaires en
fonction de la réalisation d’évènements aléatoires liés à la vie humaine.
Malgré le contexte de taux bas actuel 1, l’assurance vie demeure le placement préféré des
français. Selon la Fédération Française de l’Assurance (FFA), le montant des cotisations col-
lectées s’élève à 59,4 milliards d’euros au cours des cinq premiers mois de l’année 2016 (contre
57 milliards d’euros sur la même période en 2015). Cet engouement pour l’assurance vie pour-
rait s’expliquer par l’optimisation du triplet rendement-risque-fiscalité et par son compartiment
sécurisé 2 : le fonds euros qui représente environ 80% de l’encours total de l’assurance vie.
Par ailleurs, les contrats d’épargne de l’assurance vie offrent des options et garanties afin
de les rendre plus attractifs par rapport aux autres produits d’épargne. L’option de rachat en
est un exemple et permet à l’assuré de satisfaire son besoin de liquidité en retirant une partie
(rachat partiel) ou la totalité de son épargne (rachat total) avant la maturité du contrat prévue
à la souscription, ceci moyennant éventuellement des pénalités de rachat. Mais si le rachat
est un droit pour l’assuré, il est risque pour l’assureur. Il naît ainsi un risque de rachat pour
l’assureur et une bonne appréhension de ce risque est indispensable pour ce dernier, d’autant
plus qu’il est identifié comme le premier risque technique en assurance vie. En effet, une très
grande différence entre les rachats observés et ceux anticipés par l’assureur est une source de
1. Les taux d’intérêts obligataires ont atteint un niveau historiquement bas le 16 Avril 2015 en s’établissantà environ 0.3%.
2. Les rendements moyens des fonds en euros se maintiennent pour la plupart à 3% contre un rendementd’environ 0.75% du livret A
1
Mémoire d’Actuariat
désadossement de l’actif et du passif et donc de risque de liquidité. Ainsi, une modélisation du
risque de rachat par l’assureur s’impose et présente principalement des enjeux de :
— solvabilité en mettant en oeuvre de meilleures stratégies de gestion actif/passif
— compétitivité en améliorant la rétention client et le gain de part de marché
Le rachat provoque une diminution de la valeur du portefeuille de l’assureur et nécessite une
estimation des réserves suffisantes pour faire face à tout moment aux besoins de liquidité de
l’assuré. Une bonne compréhension des comportements de rachat est d’autant plus cruciale,
étant donné le contexte économique actuel de taux d’intérêt bas avec un risque de remontée
brutale des taux. En fait, les compagnies d’assurances anticipent une hausse brutale des taux,
laquelle provoquerait une vague de rachat (à la recherche de rendement meilleur) et les assureurs
se verront ainsi obligés de céder leur actif et donc de renoncer à la rentabilité espérée ; ce
qui pourrait mettre en péril leurs activités. En outre, conscient de l’importance du risque de
rachat pour les sociétés d’assurance vie, le nouveau cadre reglementaire solvabilité II en vigueur
recommande une évaluation best estimate du risque de rachat.
Dans ce mémoire, nous nous proposons de modéliser le risque de rachat en utilisant une ap-
proche machine learning. Il s’inscrit donc dans le cadre de la mise en oeuvre d’un modèle plus
précis pour prédire le comportement de rachats des assurés, pour une meilleure valorisation du
portefeuille dans le cadre du calcul de l’EV (Embedded Value) et une optimisation de la renta-
bilité par une meilleure stratégie de gestion actif-passif. Il se subdivise en quatre chapitres. Le
premier chapitre porte sur un panorama de l’assurance vie avec un focus sur le risque de rachat
pour présenter le cadre général de l’étude. Le second chapitre expose les différentes approches
de modélisation du risque de rachat existant dans la littérature académique et empirique. Ce
chapitre présente aussi la méthodologie actuelle de construction des lois de rachat chez Allianz
France ainsi que la méthodologie que nous avons retenue pour notre étude. Le troisième cha-
pitre se concentre quant à lui sur les aspects théoriques des méthodes de machines learning.
Le quatrième chapitre pour sa part décrit la prédiction proprement dite des comportements
de rachats structurels appliquée au portefeuille d’Allianz France tandis que le cinquième tente
d’aller plus loin vers des comportements dynamiques.
2015-2016 2 ENSAE ParisTech
Première partie
Cadre conceptuel et Méthodologique
3
Chapitre 1
L’Assurance Vie et le Risque de Rachat
Ce chapitre présente les différents concepts clés de l’assurance vie en France nécessaires à la
compréhension de l’étude, avec un accent particulier sur le rachat. Il s’attarde sur les généralités
de l’assurance vie d’une part et le risque de rachat d’autre part.
1.1 Généralité sur l’assurance vie
1.1.1 Présentation générale des contrats
L’assurance vie est un produit de placement idéal puisqu’elle permet de constituer une
épargne pour des projets futurs ou pour la retraite et ceci dans des conditions avantageuses
de fiscalité. Par ailleurs, elle se veut de protéger les assurés en cas de réalisation de risque lié
à la durée de vie humaine. C’est ainsi que nous distinguons principalement trois catégories de
contrats. Les contrats en cas de vie qui prévoient le versement du capital constitué ou d’une
rente si l’assuré est toujours en vie au terme du contrat. Les contrats en cas de décès donnant
lieu au versement d’un capital ou d’une rente à une tierce personne (le bénéficiaire) en cas de
décès de l’assuré avant le terme du contrat. Les contrats mixtes (en cas de vie et de décès)
qui prévoient le versement d’un capital ou d’une rente, soit à l’assuré, s’il est en vie, soit à un
bénéficiaire, s’il est décédé. Nous pouvons résumer les différents types de contrats d’assurance
vie ci-dessous :
— Les contrats d’épargne : ce sont des contrats d’assurance en cas de vie comportant
des garanties en cas de décès. Ils sont généralement utilisés pour constituer et faire
fructifier une épargne, de financer des projets futurs (immobiliers, éducation des enfants,
etc.) et/ou optimiser la transmission de son patrimoine à ses proches en cas de décès.
Cependant, il ne faut pas confondre contrat d’épargne et contrat de capitalisation en
4
Mémoire d’Actuariat
assurance, ce dernier étant un placement de long terme qui ne fait pas intervenir la
notion de risque basé sur la durée de vie humaine.
— Les contrats de retraite : ce sont des contrats permettant au souscripteur de constituer
une épargne au cours de sa vie active en vue de préparer sa retraite. Le système de retraite
en France s’articule sur trois niveaux. Le niveau 1 pour les régimes obligatoires de base
et complémentaires, le niveau 2 pour les régimes de retraite supplémentaire collectifs
installé dans les entreprises (Plan Epargne Retraite Entreprise), et le niveau 3 pour
la retraite supplémentaire individuelle, les plus connues étant les contrats PERP(Plan
d’Epargne Retraite Populaire) et les contrats Madelin pour les travailleurs non salariés.
— Les contrats de prévoyance : ce sont des contrats qui permettent au souscripteur de
se protéger contre les risques de l’existence (décés, invalidité/incapacité) en garantissant
le maintien de son niveau de vie. Ces contrats sont souvent qualifiés de contrat à fonds
perdus car le souscripteur ne peut en aucun cas récupérer les primes versées. En effet, le
contrat de prévoyance prévoit une somme définie en cas de réalisation du risque, qui est
indépendante du montant de l’épargne et du temps de cotisation.
— Les autres contrats divers : nous regroupons ici tous les autres types de contrats
d’assurance vie notamment les contrats créés par les pouvoirs publics pour favoriser une
politique d’investissement à grande échelle (NSK, Euro-Croissance, Vie Génération, etc.)
ainsi que les contrats résultants d’un mix des produits pré-cités.
Par ailleurs, notons que ces différents contrats sont généralement divisés en contrat individuel
et en contrat collectif. Dans un contrat individuel, l’assuré souscrit directement auprès de
l’assureur tandis que dans un contrat collectif, l’assuré qui est un adhérent d’une association
est représenté par l’association qui souscrit pour tous ses adhérents ; une association pouvant
être par exemple une entreprise. Dans la suite de ce chapitre, nous nous attarderons sur les
contrats d’épargne individuelle sur lesquels porte notre étude.
1.1.2 Les contrats d’épargne individuelle
D’une manière générale, un contrat d’épargne est caractérisé par les acteurs concernés, sa
durée, le type de versement, le type de supports, le type de gestion ainsi que les options et
garanties intégrées.
1.1.2.1 Les acteurs concernés
Il s’agit des personnes physiques ou morales qui interviennent d’une façon ou d’une autre
au cours de la vie du contrat.
2015-2016 5 ENSAE ParisTech
Mémoire d’Actuariat
— l’assureur : il s’agit de la compagnie d’assurance signataire du contrat et qui est repré-
senté par un réseau de distribution (Agents généraux, courtiers, banques, salariés,...).
Ce dernier commercialise le produit auprès des clients en leur proposant les conditions
générales et particulières du contrat.
— le souscripteur : c’est lui qui souscrit le contrat d’assurance c’est-à-dire qui reçoit les
conditions générales et signe les différents documents du contrat (conditions particulières,
questionnaire, devis d’assurance) et s’engage à payer les primes dues à l’assureur. Notons
que le souscripteur n’est pas nécessairement l’assuré.
— l’assuré : c’est la personne sur laquelle repose le risque. La plupart du temps, l’assuré
est également le souscripteur du contrat.
— le(s) bénéficiaire(s) : il s’agit des tierces personnes désignées par le souscripteur comme
devant recevoir les prestations garanties en cas de décès de l’assuré.
1.1.2.2 La durée du contrat
Bien que la durée de 8 ans soit fiscalement très avantageuse, ce n’est ni une durée minimale,
ni une durée maximale. En général, les contrats d’épargne ont une échéance de 8 à 15 ans et
peuvent être prorogeables annuellement par tacite reconduction. Toutefois, ils peuvent avoir
une durée indéterminée dans le cas de contrats de type rente viagère.
1.1.2.3 Les différents types de versement
Le souscripteur a le choix entre plusieurs types de versement des primes relatif à son contrat.
— versement unique : une seule prime unique est versée à la souscription du contrat.
— versements périodiques : le souscripteur s’engage à verser les primes de façon régulière
selon une certaine fréquence (mensuelle, trimestrielle, annuelle,...).
— versement libre : le souscripteur verse une prime minimale au moment de la souscription,
ensuite il est libre d’augmenter son épargne en versant la somme qu’il veut quand il le
veut.
1.1.2.4 Les différents types de supports
Les contrats d’épargne diffèrent selon le nombre de supports sur lequel l’épargne est investie.
Nous distinguons donc les contrats monosupport et les contrats multisupport.
— Les contrats monosupports sont totalement investis sur un unique support ou fonds :
2015-2016 6 ENSAE ParisTech
Mémoire d’Actuariat
soit le fonds en euros 1, soit un fonds investi en unités de compte (UC) 2
— Les contrats multisupports sont investis sur plusieurs supports c’est-à-dire une combinai-
son de fonds euros et UC. Ils permettent donc au souscripteur en fonction de son profil
de risque et de sa stratégie patrimoniale, d’arbitrer entre les proportions d’actifs sans
risque et d’actifs risqués.
1.1.2.5 Les types de gestion
Dans le cas des contrats multisupports, pour plus de souplesse, différents modes de gestion
sont proposés au souscripteur :
— la gestion libre : elle laisse au soucripteur l’ensemble des choix d’investissements sur les
différents supports. En effet, c’est lui qui décide de l’allocation de son épargne : une
proportion p investie en fonds en euros et 1 − p investie en UC. Ce type de gestion
suppose donc que le souscripteur à une connaissance des marchés financiers et est donc
capable d’allouer son épargne de façon optimale en fonction de l’évolution des marchés,
en faisant des arbitrages tout au long de la vie du contrat.
— la gestion profilée ou pilotée : elle est destinée aux souscripteurs moins aguerris des
marchés financiers. Ils choisissent juste leur profil d’investissement en fonction de leurs
besoins et confient la gestion de leur l’épargne sur les différents supports à une société
de gestion spécialisée, et on distingue généralement trois profils. Le profil prudent pri-
viligiant un risque faible et dont les supports sont composés majoritairement d’actifs
trés peu risqués (produits obligataires et monétaires). Le profil équilibré qui priviligie un
risque moyen et dont les supports sont investis en recherchant un équilibre entre actifs
sans risque et actif risqué. Enfin le profil dynamique pour ceux qui priviligie le risque et
dont les supports sont majoritairement investis en actifs risqués (actions).
— la gestion évolutive : il s’agit d’une gestion dite automatique. À la souscription, le sous-
cripteur détermine la répartition de son épargne sur les différents supports et cette
répartition évolue en fonction de l’âge ou de la maturité du contrat. En effet, la propor-
tion investie en UC baisse au profit du fonds euros lorsque l’âge ou le terme du contrat
approche pour permettre de sécuriser l’épargne au fur et à mesure.
1. Le fonds euros ou fonds à capital garanti est un fonds investi majoritairement sur les marchés monétairespeu risqués et est sans risque pour l’assuré car c’est l’assureur qui supporte le risque. Il est rémunéré à un tauxminimum garanti (TMG) et revalorisé par une participation aux bénéfices, l’assureur étant tenu de distribuerau moins 90% de ses bénéfices techniques et au moins 85% de ses bénéfices financiers. Le taux servi est obtenupar la formule : Tauxservi = max(TMG,TauxPB ∗ Tauxrdtfinancier − Tauxchargement)
2. Les unités de compte sont généralement les actions, obligations, parts de sociétés d’investissement à capitalvariable (Sicav),etc. qui sont relativement plus risqué et ce risque est supporté par l’assuré.
2015-2016 7 ENSAE ParisTech
Mémoire d’Actuariat
1.1.2.6 Les types de garanties
Comme nous l’avons mentionné en introduction, les contrats d’épargne en assurance vie
offrent certaines garanties en cas de décés de l’assuré afin de rendre les produits plus attractifs.
— la garantie plancher : il s’agit de la plus courante et permet de limiter le risque de perte
sur le capital investi en UC si le décès survient dans une période où le rendement des
marchés financiers est très faible. En effet, elle permet aux bénéficiaires du contrat de
percevoir un capital garanti minimum (généralement le total des primes versées) en cas
de décès de l’assuré et ce, quelle que soit la valeur des UC à cette date.
— la garantie majorée : en cas de décès de l’assuré, les bénéficiares reçoivent au minimum le
capital investi ou majoré d’un certain pourcentage (généralement compris entre 110% et
190%), diminé des frais et des rachats éventuels. Par aileurs, cette somme peut aussi être
révalorisée selon un taux défini à la souscription : on parle alors de garantie revalorisée.
— la gestion cliquet : elle permet aux bénéficiares de recevoir au minimum le niveau du
capital atteint à un certain moment (fin de chaque mois par exemple), en cas de décès
de l’assuré.
En plus des garanties offertes, les contrats d’épargne possèdent des options intégrées pendant
la durée du contrat. Il s’agit de la possibilité de réorientation de l’épargne ou arbitrage, de
reversemment, de rachat (partiel ou total) et d’avance ou emprunt. Par ailleurs, ils possèdent
aussi des options de sortie au terme du contrat à savoir la prorogation du contrat, le versement
en capital et la transformation en rente. L’option de rachat retient particulièrement notre
attention : s’il est intéressant pour l’assuré, il représente un risque pour l’assureur.
1.2 Le risque de rachat
Le risque de rachat représente le principal risque des sociétés d’assurance vie du marché
français devant le risque de mortalité et de longévité selon l’Autorité de Contrôle Prudentiel et
de Résolution (ACPR). 3 Il fait donc l’objet d’une préoccupation particulière et son appréhen-
sion s’avère cruciale pour les assureurs. Tout d’abord, il convient de distinguer deux types de
rachats : le rachat dit structurel et le rachat dit conjoncturel. La distinction faite entre ces deux
types, quoique pas évidente, est liée à la nature des facteurs de risque déclenchant le rachat :
facteur structurel ou facteur conjoncturel.
3. Le risque de rachat s’établit à 30% du Solvency Capital Requirement (SCR) vie avant diversificationcontre 20% pour le risque de mortalité.
2015-2016 8 ENSAE ParisTech
Mémoire d’Actuariat
1.2.1 Le rachat structurel
Le rachat structurel est le rachat dû aux facteurs dits structurels et notamment au fait que
les assurés ont un besoin de liquidités immédiat. Parmi les facteurs structurels, nous pouvons
dégager :
— les caractéristiques du contrat : l’ancienneté du contrat, l’encours, la périodicité des
cotisations (fréquence de paiement des primes), la gamme de produit (haut de gamme
ou non), le réseau de distribution (Agents généraux, Courtiers, partenariats bancaires,
etc.), type de gestion (profilée, libre ou évolutive ), le profil d’investissement, etc.
— les caractéristiques de l’assuré : le sexe (les hommes sont-ils plus risqués que les
femmes ?), la catégorie socioprofessionnelle, l’âge (les jeunes rachèteraient-ils plus que
les personnes agées ?), la situation matrimoniale (les personnes en couple ont-ils plus
tendance à racheter que les célibataires ?), le niveau de richesse (les riches rachètent-ils
moins ?), le lieu de résidence, etc.
— les comportements antérieurs : nombre de rachats antérieurs, nombre de reverse-
ments antérieurs, arbitrage sur les supports, présence d’avance ou pas.
À cette effet, l’étude de l’ACPR menée par Frey L. (2016) tente de croiser les rachats avec
les caractéristiques structurelles tirées de l’enquête Patrimoine. Elle met en relation deux po-
pulations d’organismes d’assurance, d’une part ceux ayant un taux de rachat supérieur à la
moyenne et d’autre part ceux ayant un taux de rachat inférieur à la moyenne, avec différents
caractéristiques structurelles. Il en ressort tout d’abord que le motif de réserve d’argent et de
rendement semble être la raison principale de détention d’un contrat d’assurance-vie par les
ménages. Les chefs d’entreprise et les travailleurs indépendants, les employés du secteur privé,
les anciens chefs d’entreprise et les artisans et commerçants ont les taux de rachat les plus
élevés. Au contraire, les salariés du secteur public, salariés du secteur privé (hors cadres) et les
anciens ouvriers et techniciens et les anciens travailleurs indépendants ont les taux de rachats
les plus faibles. Par ailleurs, selon cette étude, les taux de rachats semblent plus élevés lorsque
l’encours est important. Les assurés ayant un niveau d’étude supérieur ont des taux de rachats
plus élevés par rapport à ceux du niveau primaire ou collège. En outre, les assurés ayant un
fort pourcentage d’UC auraient tendance à plus racheter.
1.2.2 Le rachat conjoncturel
Le rachat conjoncturel est le rachat dû aux facteurs conjoncturels et est généralement perçu
comme le rachat induit par un changement de comportement des assurés en réponse à un écart
constaté entre le taux servi par l’assureur et les taux offerts par la concurrence. Toutefois, nous
2015-2016 9 ENSAE ParisTech
Mémoire d’Actuariat
pouvons recencer plus généralement quelques facteurs conjoncturels ci-dessous :
— la différence ou spread de taux de rendement avec la concurrence : un taux servi
plus faible que le taux benchmark (taux servi de reférence de la concurrence) pousserait
à racheter pour aller chez le concurrent
— le changement de législation : une modification de la fiscalité par exemple peut inciter
au rachat.
— la réputation de la compagnie : une détérioration de l’image et/ou du rating installe
une crainte chez les assurés de ne pas recouvrer leurs fonds et peut inciter au rachat.
— le contexte économique et financier : l’évolution des taux d’interêts, du taux de
chômage, de l’inflation, de la croissance, du Produit Intérieur Brut (PIB), etc.
Le principal motif d’un rachat conjoncturel est le rendement et c’est ainsi qu’il s’assimile à
une option américaine où le souscripteur peut exercer son option à tout moment (lequel qui
serait celui le plus favorable pour lui compte tenu de la conjoncture). Le rachat conjoncturel
est ainsi étroitement lié à la dynamique des taux et les assureurs se voyent exposer au risque
de rachats massifs suite à une hausse brutale des taux.
1.2.3 Impact sur la gestion Actif-Passif : lien risque de rachat et de
taux
Devenue incontournable depuis la crise des caisses d’épargne américaines dans les années 80
survenue suite à une variation brutale des taux, la Gestion Actif-Passif ou Asset and Liability
Management (ALM) s’impose depuis lors dans le mode de gestion des institutions financières.
Elle consiste à structurer le bilan de sorte qu’à toute variation de la valeur du passif corresponde
une variation équivalente de l’actif (ou vice versa). En théorie, la technique la plus simple et la
plus efficace consiste à adosser tous les flux individuellement : on parle de cash-flow matching.
Plus simplement, si par exemple l’assureur veut servir un taux de 3% sur 10 ans, il lui suffit de
trouver un actif peu risqué (généralement les obligations) de rendement 3% et de maturité 10
ans. Cependant, il est souvent très difficile de trouver des actifs ayant une durée (ou duration)
aussi longue que certains éléments du passif. Ainsi, en pratique, l’ALM visera à réduire l’écart
entre la sensibilité de l’actif et celle du passif aux variations des taux d’intérêt.
De part leur structure bilantielle, les sociétés d’assurance vie sont exposées au risque de taux :
à la hausse brutale comme à la baisse des taux.
Risque lié à la hausse des taux : Les actifs des compagnies d’assurance vie étant constitués
majoritairement des obligations (près de 80%), une hausse des taux fait baisser la valeur de
2015-2016 10 ENSAE ParisTech
Mémoire d’Actuariat
marché des obligations. Ainsi, elle dégrade la qualité des actifs dont le rendement peut devenir
inférieur au niveau des taux servis. Les assurés sont alors incités à demander le rachat de leur
contrat car c’est dans leur intérêt de demander le remboursement de leur contrat pour profiter
de meilleures opportunités d’investissement, notamment les nouveaux contrats qui offriront
des meilleurs rendements à niveau de garanties équivalents. Par ailleurs, dans le cas où les
provisions constituées pour le rachat sont insuffisantes, l’assureur peut être conduit à revendre
des obligations dans un contexte qui lui est défavorable et réaliser des moins-values latentes :
sa rentabilité est alors pénalisée. Ainsi, en cas de hausse des taux, le risque de rachat est très
fort. Il est encore plus fort avec un risque de rachat massif dans un contexte où les décisions de
rachat des assurés sont corrélées.
Risque lié à la baisse des taux : Ce risque est d’autant plus redoutable pour l’assureur
lorsque la baisse est durable. En effet, lorsque les taux sont bas, les rendements des actifs baissent
et peuvent s’avérer insuffisants pour faire face aux engagements de l’assureur c’est-à-dire les
taux garantis par les contrats antérieurs signés en période de taux élevés. Par ailleurs, grâce
aux options intégrées de l’assurance vie, les souscripteurs peuvent effectuer des reversements
sur leur contrat et l’assureur devra alors servir un taux de rendement supérieur à celui du
marché : sa rentabilité se voit une fois de plus pénalisée. Toutefois, contrairement à la hausse
des taux, la baisse des taux engendre plutôt un risque que les rachats soient moins nombreux
par rapport à ceux anticipés par l’assureur et donc que ce dernier soit à court de liquidité. Les
assureurs devraient ainsi mettre en place des stratégies d’incitation au rachat pour les contrats
moins rentables et de diriger ses clients vers les UC afin d’attenuer l’impact de ce risque sur leur
rentabilité. Par ailleurs, le gouverneur de la banque de France recommande de réduire les taux
d’assurance vie qu’il juge encore assez élevé, afin de limiter le risque d’illiquidité des assureurs.
Ainsi, le risque de rachat et de taux sont très importants pour les sociétes d’assurance vie
d’autant plus que ces deux risques sont fortement corrélés comme nous l’avons vu précédem-
ment. En effet, la gestion du risque de taux et de rachat qui passe par de bonnes stratégies de
gestion actif-passif, est indispensable pour la solvabilité des assureurs vie.
1.2.4 Solvabilité II et risque de rachat
Les sociétés d’assurance vie sont des investisseurs institutionnels devenus des acteurs ma-
jeurs de la sphère financière. En effet, en France le chiffre d’affaire de l’assurance vie s’élevait à
près de 208 milliards d’euros en 2015 et un peu plus du tiers des ménages détient des produits
d’assurance-vie dans une logique d’épargne, de retraite ou de transmission du capital. Il est
donc logique que les autorités de contrôle interviennent sur ce secteur pour garantir la stabilité
2015-2016 11 ENSAE ParisTech
Mémoire d’Actuariat
financière et prévenir contre le risque systémique. Ainsi, la réforme réglémentaire solvabilité
2 s’appliquant aux sociétés d’assurance depuis Janvier 2016 a pour but de permettre à ces
derniers de mieux connaitre et évaluer leurs risques, en adaptant les exigences réglementaires
aux risques inhérents à leur activité afin de pouvoir allouer suffisamment de capital pour les
couvrir.
Par ailleurs, la réforme recommande une évaluation Best Estimate (BE) du risque de rachat.
À cet effet, le QIS 5 (Quantitative Impact Studies) donne des indications précises sur la modé-
lisation des lois de rachats. Pour la détermination des provisions dédiées au rachat, il distingue
les comportements de rachats dans des périodes d’activité normale (rachats structurels), des
comportements de rachats dans un environnement économique dégradé (rachats dynamiques
ou conjoncturels).
1.2.4.1 Modélisation des rachats structurels
Il est recommandé aux assureurs d’utiliser des lois d’expérience si celles-ci sont conformes
aux observations passées ou à défaut des données de marché. Etant donnée que les rachats
structurels peuvent dépendre de nombreux paramètres (âge de l’assuré, ancienneté fiscale, en-
vironnement financier, etc), ils sont invités à choisir une modélisation appropriée en fonction des
spécificités du portefeuille, de faisabilité de calculs et de validation des hypothèses. Ainsi, elle
recommande la construction des lois de rachats comportementales prenant en compte l’hétéro-
généité du portefeuille. Nous pouvons résumer les étapes de construction de la loi ci-dessous :
— Définition du périmètre et des données à observer puis extraction des données : il s’agit
des observations statistiques de rachat sur 5 à 10 ans.
— Analyse des données et élaboration des premières estimations. il s’agit de rechercher les
variables explicatives du rachat et d’estimer les taux bruts (l’estimateur de Kaplan-Meier
est généralement utilisé et permet notamment de prendre en compte les censures).
— Construction des groupes aux comportements homogènes : construire différentes lois de
rachat structurel pour ces groupes.
— Validation statistique des lois et méthodes de prolongement : les durées d’observation de
l’historique des rachats étant souvent insuffisantes, une méthode de prolongement des
lois s’impose et on obtient ainsi la loi de rachat structurel (RS)
1.2.4.2 Modélisation des rachats conjoncturels
Les rachats conjoncturels sont des rachats additionnels aux rachats structurels, qui sont pro-
voqués par une détérioration des conditions économiques. La modélisation des rachats conjonc-
turels vient donc compléter celle des rachats structurels. Elle fait intervenir la différence entre le
2015-2016 12 ENSAE ParisTech
Mémoire d’Actuariat
taux servi (TS) par l’assureur et le taux attendu (TA) par l’assuré : si le taux servi est inférieur
au taux attendu, les assurés auront tendance à plus racheter que dans une situation normale.
Le taux de rachats conjoncturels (RC) s’appliquant sur les contrats monosupports est alors
fonction de l’écart entre le TS et le TA défini comme suit :
RC(TS, TA) =
RCmax si TS − TA < α
RCmax ∗(TS−TA−β
α−β
)si α < TS − TA < β
0 si β < TS − TA < γ
RCmin ∗(TS−TA−γ
δ−γ
)si γ < TS − TA < δ
RCmin si TS − TA > δ
Avec :
— α : est le seuil en-deçà duquel les rachats conjoncturels sont constants et fixés à un
maximum. Ce n’est plus l’écart de taux qui explique le comportement des assurés.
— β et γ : sont respectivement les seuils d’indifférence à la baisse et à la hausse du taux
servi.
— δ : est le seuil au-delà duquel la diminution du taux de rachat structurel est constante
et fixée à un minimum. Ce n’est plus l’écart de taux qui explique le comportement des
assurés.
Ainsi, nous obtenons une forme en S de la loi de rachat suivante :
Figure 1.1 – Forme de la loi de rachat dynamique
Le taux de rachat total est alors obtenu par la formule :
RT (TS, TA, .) = min(1,max(0, RS(.) +RC(TS, TA)))
2015-2016 13 ENSAE ParisTech
Mémoire d’Actuariat
1.2.5 La fiscalité et le rachat en assurance vie
L’assurance vie bénéficie d’une fiscalité avantageuse, adaptée à l’horizon des placements et
destinée à encourager l’épargne de long terme. Pendant la phase d’épargne, les placements sont
exonérés d’impôts et de prélévements sociaux sur les plus-values réalisés lors des arbitrages.
Ainsi, cette fiscalité favorable sera de nature à impacter le comportement de rachat des assurés.
Notons qu’il existe une distinction entre fiscalité en cas de vie et fiscalité en cas de décès.
Nous ne présenterons que la ficalité en cas de vie ou de rachat. Retenons qu’en cas de rachat,
seules les plus-values sont soumises à imposition. La fiscalité est particulièrement priviligiée
en cas de rachat après 8 ans mais aussi avant comme nous le montre la figure 1.2 ci-dessous
(source : L’Argus de l’assurance).
Figure 1.2 – Fiscalité en Assurance vie
Ainsi, en cas de rachat total ou partiel, ce ne sont que les intérêts qui sont taxés, et ce en
fonction du choix du souscripteur entre prélèvement libératoire ou intégration des intérêts dans
le revenu imposable. En absence de choix clairement exprimé par le souscripteur, l’intégration
dans le revenu imposable est automatiquement retenue par la compagnie. Par ailleurs, notons
que quelque soit le mode d’imposition retenu, les plus-values acquises sont soumises aux pré-
lèvements sociaux pour un montant de 12.1% au titre du Revenu de Solidarité Active (RSA).
Dans le cadre de la modélisation des rachats structurels, l’ancienneté apparait donc comme
une variable très importante. Nombreuses sont donc les compagnies qui n’utilisent que cette
variable pour contruire leur loi de rachat, c’est le cas d’Allianz France.
2015-2016 14 ENSAE ParisTech
Chapitre 2
Approches de Modélisation du Rachat
À la suite de la présentation du cadre conceptuel de l’assurance vie dans lequel s’inscrit
cette étude, nous nous attardons dans ce chapitre sur les différentes approches de modélisation
du risque de rachat existants dans la littérature ainsi que celle adoptée par Allianz et nous
déboucherons enfin sur notre propre approche méthodologique.
2.1 Revue de la littérature
Depuis les années quatre-vingt, la littérature théorique et empirique n’a cessé de se dé-
velopper sur la modélisation du risque de rachat en assurance vie. Traditionnellement, deux
hypothèses ont été formulées : d’une part l’hypothèse de fonds de réserve ou d’urgence selon
laquelle un assuré rachèterait son contrat pour faire face à un choc négatif non anticipé, et
d’autre part l’hypothèse de rendement selon laquelle un assuré rachèterait son contrat pour
l’investir ailleurs afin d’obtenir un meilleur rendement. Eling et Kochanski (2012) passent en
revue les travaux qui ont déjà été faits sur le rachat ainsi que les nouveaux axes potentiels de
recherche dans ce domaine. Globalement, il se dégage principalement quatre grandes approches
de modélisation du risque de rachat : une approche financière, une approche statistique, une
approche microéconomique et une approche probabiliste.
2.1.1 Approche financière
La modélisation du risque de rachat par une approche financière représente vraisemblement
le domaine dans lequel la littérature est la plus fournie. L’option de rachat étant un droit
que confère l’assureur à l’assuré de retirer une partie ou la totalité de son épargne à tout
moment, il est assimilable à une option américaine en finance (c’est-à-dire une option que l’on
peut exercer à tout moment) dont la valorisation représente un axe principal de la recherche
en mathématiques financières. Si les travaux de Black et Scholes (1973) ont débouchés à la
15
Mémoire d’Actuariat
détermination de formules fermées de la valeur des options européennes, en ce qui concerne les
options américaines, aucune formule exacte n’a encore été déterminée au profit des méthodes
numériques. Dans le domaine du rachat, trois méthodes de valorisation ont été priviliégiées :
le modèle de Cox-Ross-Rubinstein (CRR), l’algorithme de Longstaff-Schwartz et les Equations
aux Dérivés Partielles (EDP).
Cox et al. (1979) ont proposé une modélisation de l’évolution du prix d’un actif à partir
d’arbres binomiaux pour donner naissance au modèle Cox-Ross-Rubinstein (CRR). Le modèle
CRR s’applique sur un marché financier idéaliste et formule deux principales hypothèses : un
marché sans friction et d’Absence d’Opportunité d’Arbitrage (AOA). En notant St le cours
d’un actif à la date t et S0 son prix initial, le processus de CRR St est une marche aléatoire
géométrique définie par S0 et la relation :
St+1 = USt avec U ∈ {Up,Down}
Nous souhaitons valoriser une option américaine de sous-jacent St et de maturité T . A la
maturité T, il est clair que la valeur de l’option est son pay off ZT (avec ZT = (ST −K)+ pour
un Call américain et ZT = (K − ST )+ pour un Put américain, où K représente le strike ou
valeur d’exercice de l’option). Si nous nous plaçons maintenant à la date T − 1, deux cas de
figures se présentent :
— L’acheteur de l’option exerce immédiatement et réalise alors un gain de ZT−1. Alors, la
valeur de l’option est au moins ZT−1 en T − 1
— L’acheteur de l’option n’exerce pas et le fera alors éventuellement à la date T . La somme
encaissée en T − 1 permettant de fournir en T la somme ZN est 11+r
E(ZT/FN−1) (où Stest adapté à la filtration Ft et r désignant le taux d’intérêt )
Ainsi, la valeur de l’option à la date T − 1 est donnée par :
VT−1 = max(ZT−1,1
1 + rE(ZT/FT−1))
Par récurrence, on définie ainsi la valeur de l’option américaine à tout instant t par la
relation :
∀t ∈ [1, T ], Vt−1 = max(Zt−1,1
1 + rE(Zt/Ft−1))
Dans le cadre d’une approche financière, bon nombre d’auteurs se sont basés sur le modèle
CRR pour modéliser le risque de rachat en assurance vie à l’instar de Bacinello (2005), Grosen
et Jorgensen (2000) et Costabile et al.(2008). Le premier utilise l’algorithme de la formule
binomiale récursive du modèle CRR pour déterminer la valeur de rachat des contrats UC en
2015-2016 16 ENSAE ParisTech
Mémoire d’Actuariat
divisant le prix du contrat entre la valeur de trois composantes : le contrat de base, l’option de
participation et l’option de rachat. Grosen et Jorgensen (2000) montre que les contrats fonds
euros peuvent se décomposer en un élément sans risque, une option de bonus et une option
de rachat, et construit un modèle dynamique basé sur le CRR pour évaluer séparément ces
différents éléments. Costabile et al.(2008) utilise le modèle binomial CRR pour valoriser des
contrats d’assurance vie de type Variables Annuities avec option de rachat et garantie minimum.
L’algorithme de Longstaff-Schwartz a aussi suscité de l’intérêt chez certains auteurs. Le prin-
cipe de cet algorithme est de tirer différentes trajectoires du modèle Black-Scholes et ensuite
calculer par une méthode Monte-Carlo le prix de l’option. Nordahl (2008) utilise l’algorithme
de Longstaff-Schwartz pour déterminer la valeur de l’option de rachat des contrats d’assurance
vie et de retraite, qu’il assimile à deux options de type américaines ayant un strike stochastique.
Andreatta et Corradin (2003) propose une valorisation de l’option de rachat des contrats d’assu-
rance vie italiens, fixée comme le prix d’une option de vente de type américaine par simulation
Monte-Carlo selon l’approche des moindres carrées de Longstaff-Schwartz. Ils comparent ainsi
leur résultats à ceux de Grosen et Jorgensen (2000) qui utilisent l’approche binomiale récur-
sive du modèle CRR. Une dernière approche consiste à exprimer le prix de l’option sous forme
d’EDP et l’évaluer numériquement par Monte-carlo. Steffensen (2002) analyse les différentes
options cachées incluses dans les contrats d’assurance vie et de retraite et évalue l’option de ra-
chat comme le prix d’une option américaine en utilisant les EDP. Shen et Xu (2005) cherchent à
déterminer la juste valeur des contrats en UC indéxés sur les actions et à taux d’intérêt garanti,
avec ou sans option de rachat, par la méthode des EDP. Pour l’évaluation des contrats avec
option de rachat, le problème se réduit à un modèle à EDP avec les limites libres.
Kaltwasser et Le Moine (2007) abordent le rachat dans une optique de solvabilité des com-
pagnies d’assurance vie et évaluent le prix théorique de la couverture des rachats des contrats
fonds euros à taux garantis rg. En effet, pour un taux de rachat empirique en nombre xi à la
date i, l’assureur doit payer xi(1 + rg)i aux assurés qui rachètent et doit donc par conséquent
vendre une partie de ses actifs xiSi. Dans le but de se protéger contre ces rachats, l’assureur
doit donc couvrir la perte éventuelle [xi(1 + rg)i−xiSi]+ qui a la forme du pay-off d’une option
de vente et obtient ainsi ce prix en utilisant un modèle de Black-Scholes classique. Vandaele et
Vanmaele (2008) aborde aussi le rachat des contrats en UC dans une optique de stratégie de
couverture et se basent sur le fait que l’introduction d’une option de rachat sur les contrats UC
entraine une dépendance entre le moment du rachat et la santé des marchés financiers.
2015-2016 17 ENSAE ParisTech
Mémoire d’Actuariat
Ainsi, notons que l’approche financière de modélisation du risque de rachat comme une
option américaine se base sur l’hypothèse de rendement et concerne davantage les rachats
conjoncturels. Toutefois, cette approche ne modélise pas les comportements des assurés. Par
ailleurs, sa faiblesse est l’absence de prise en compte de l’irrationnalité des assurés car elle
suppose qu’à tout instant les assurés sont rationnels et ne rachètent que suite à des variations
de taux d’intérêt alors qu’il peut arriver que l’assuré ait un besoin de liquidité ponctuel.
2.1.2 Approche statistique
L’approche statistique dont nous faisons allusion ici est celle sous forme de série temporelle
qui modélise de façon agrégée les taux de rachat. L’objectif est d’analyser et prévoir les taux de
rachat temporels (mensuellement, trimestriellement ou annuellement) en utilisant la notion de
cointégration, qui est une propriété statistique des séries temporelles introduite dans l’analyse
économique par Engle et Granger (1981), pour détecter la relation de long terme entre deux
ou plusieurs séries temporelles. Il s’agit donc de mettre en relation le taux de rachat avec les
variables économiques et financières pouvant influencer le rachat (taux d’intérêt, taux d’infla-
tion, taux de chômage, etc.) afin d’estimer la relation de long terme et ainsi prévoir le taux de
rachat.
Dans la littérature, cette approche a sucité de l’engouement chez bon nombre d’auteurs. Engle
et Granger (1987) utilisent la méthode des Moindres Carrées Ordinaires (MCO) pour estimer
un modèle de cointégration entre le taux de rachat, le taux d’intérêt et le taux de chômage. Kuo
et al. (2003) utilise la technique de cointégration pour examiner les hypothèses rivales de rachat
(hypothèse de fonds d’urgence et hypothèse de rendement) en assurance vie. En mettant en
oeuvre un modèle à correction d’erreur (VEC), ils trouvent que le taux de chômage influence
le taux de rachat à long terme comme à court terme, tandis que le taux d’intérêt l’affecte
principalement à long terme. Ainsi, si l’hypothèse de fonds d’urgence semble l’emporter, les
résultats de leur analyse des réponses impulsionnelles montre que l’impact du taux d’intérêt
sur le taux de rachat prédomine par rapport à celle du taux de chomage. En d’autres termes,
l’hypothèse de rendement est favorisée par rapport à l’hypothèse de fonds d’urgence. Grimal
(2007) estime un modèle autoregressif vectoriel (VAR) sur la période 2003-2008 pour mettre
en relation les variables indice CAC40, OAT à 10 ans et taux de rachat dans le but de détecter
les variables financières pertinentes influançant le rachat et ainsi construire une loi de rachat
dynamique multivariée. Les résultats montrent une influence notable des variations de l’indice
du CAC40 sur le taux de rachat. 1
1. L’indice CAC40 représente l’indicateur financier des 40 plus grandes entreprises françaises et l’OAT à 10ans désigne le taux d’Obligation Assimilable du Trésor de maturité 10 ans.
2015-2016 18 ENSAE ParisTech
Mémoire d’Actuariat
Nous retrouvons aussi dans la littérature, une approche statistique visant à déterminer des lois
de rachat paramétriques en fonction de l’ancienneté. L’objectif est de calibrer les taux de rachat
à partir de données empiriques agrégées de rachats à partir de la formulation mathématique
suivante :
r(x) = r0 ∗ [1− a ∗ ln(x+ 1) ∗ (ln(x+ 1)− b)]
r(x) désigne l’estimation du taux de rachat à l’ancienneté x du contrat
r0 désigne le taux de rachat au cours de la première année
a est le paramère d’échelle positif qui détermine la fréquence de rachats sur le contrat
b est le paramètre indiquant l’emplacement du pic de rachat
Les paramètres a et b peuvent être estimés par la méthode des MCO/
(a, b) = argminN∑x=0
(robs(x)− r0 ∗ [1− a ∗ ln(x+ 1) ∗ (ln(x+ 1)− b)]
σr
)2
2.1.3 Approche microéconomique
L’approche microéconomique tente de modéliser les comportements des assurés en se basant
sur la théorie de l’espérance d’utilité. En effet, la théorie microéconomique étudie les décisions
individuelles des agents économiques et s’applique ici à la décision de rachat. Pour pallier
au paradoxe de Saint Pertersburg, le célèbre axiome de Von Neumann-Morgenstern (VNM)
stipule que tout agent économique confronté à une décision risquée choisirait celle qui maximise
son espérance d’utilité appelée utilité de VNM. La littérature sur le rachat s’accorde à faire
l’hypothèse que les assurés sont des investisseurs rationnels et sont averses au risque, et postule
alors une fonction d’utilité de type CRRA (Constant Relative Risk Aversion).
Cheung et Yang (2005) étudient le moment optimal de rachat pour les produits UC indéxés
sur les actions en supposant des préférences CRRA et utilisent un modèle à changement de
régime markovien à temps discret. Ils explicitent la valeur du contrat par Wt = W0
t−1∏k=0
f(RWkk )
avec RWkk désignant le rendement du support de l’unité de compte entre les dates k et k + 1
sous le régime Wk. Etant donné la fonction d’utilité CRRA U(W ) = W γ
γ, le temps optimal de
rachat est le temps d’arrêt τ , solution du programme d’optimisation suivant :
maxτ∈T0
E
(U(Wτ )
(1 + r)τ
)Fauvel et Le Pévédic (2007) adoptent cette approche microéconomique dans leur mémoire
pour analyser l’arbitrage entre emprunts et rachats partiels des contrats multisupports. Ils
2015-2016 19 ENSAE ParisTech
Mémoire d’Actuariat
caractérisent un contrat d’assurance vie par son ancienneté, son taux de rendement re et la
part des primes versées dans la Provision Mathématique (PM) égale à CPVPM
. Le taux sans
risque du marché étant r, τ0 et τ1 les taux fiscaux aux dates 0 et 1 respectivement. Dans un
premier temps, ils étudient le cas des contrats totalement investis en euros et en appliquant la
théorie de Von Neumann et Morgenstern, ils déterminent la courbe d’indifférence entre emprunt
et rachat partiel par :
f(re) = (1 + re) ∗
1− τ1 ∗(
1− CPVPM∗(1+re)
)1− τ0 ∗
(1− CPV
PM
)
L’assuré emprunte lorsque r < f(re), il réalise un rachat partiel lorsque r > f(re) et
est indifférent entre rachat partiel et emprunt lorsque r = f(re). Dans un second temps, ils
étudient les contrats investis totalement en UC et différencient le cas des fonctions d’utilité
CARA (Constant Absolute Risk Aversion) et CRRA. Ils démontrent que l’assuré averse au
risque choisit d’emprunter plutôt que de racheter lorsque la volatilité du rendement du support
de l’UC est inférieure à un certain seuil et que la baisse de la fiscalité en cas d’emprunt attenue
la contrainte sur ce seuil.
2.1.4 Approche probabiliste
L’approche probabiliste est une approche individuelle permettant d’expliquer les comporte-
ments de rachat des assurés par un ensemble de caractéristiques du produit et/ou de l’assuré.
Elle vise à modéliser la décision de rachat en utilisant des modèles probabilistes et/ou écono-
métriques et ainsi obtenir des probabilités individuelles de rachat afin de prédire le rachat d’un
assuré.
Renshaw et Haberman (1986) se sont intéressés à la modélisation des comportements de
rachat des contrats d’assurance vie en Ecosse. À partir des données de sept compagnies d’as-
surance sur l’année 1976, ils ont modélisé le rachat à partir de l’âge et le sexe de l’assuré,
l’ancienneté, le type de produit et la compagnie en utilisant le modèle de régression logistique
et le modèle binomial. Ils ont pu déceler quatre facteurs importants de risque de rachat : l’âge
de souscription, l’ancienneté, la compagnie et le type de contrat. De plus, ils ont mis en évi-
dence une interaction significative entre le type de contrat et l’ancienneté. Kagraoka (2005)
analyse la décision de rachat des contrats d’assurance auto d’une compagnie Japonnaise sur
la période 1993-2001. Ils utilisent un modèle de Poisson et un modèle binomial négatif à par-
tir des variables explicatives : âge et sexe de l’assuré, taux de chômage et une variable pour
capter la saisonalité et l’hétérogénéité. Il en découle de ces travaux que la décision de rachat
2015-2016 20 ENSAE ParisTech
Mémoire d’Actuariat
est expliquée par une variation du taux de chômage au cours de la vie du contrat. Cerchiara
et al.(2009) utilisent un modèle de Poisson pour expliquer les rachats des contrats d’épargne
d’une compagnie Italienne sur la période de 1991 à 2007. Ils retiennent les variables explica-
tives : l’âge de l’assuré et du contrat, le type de produit et l’année calendaire. Les résultats
montrent une forte influence de l’ancienneté mais aussi une sensibilité significative des taux
de rachats à l’année calendaire d’exposition, du type de produit et de l’âge de l’assuré. Eling
and Kiesenbauer (2011) s’intéressent aux contrats d’assurance vie en Allemagne et utilisent les
modéles de Poisson, binomial et binomial négatif pour expliquer le rachat à partir de l’âge et
le sexe de l’assuré, l’ancienneté et le type de produit. Il en ressort que les caractéristiques du
produit (type de produit et ancienneté) ainsi que les caractéristiques de l’assuré (genre et âge)
sont des facteurs importants expliquant le rachat.
Milhaud (2011) dans son excellent mémoire s’intéresse au risque de rachat et cherche à modé-
liser la décision de rachat des contrats d’assurance vie sur la période 2000-2007. Dans un premier
temps, il réalise une analyse statique et utilise les techniques de classification (arbres de décision,
forêt aléatoire et régression logistique) pour segmenter et prévoir le risque de rachat à partir du
type de contrat, l’ancienneté, la richesse de l’assuré, la fréquence de prime, la prime d’épargne,
l’âge de souscription, le sexe de l’assuré et la prime de risque. Ces variables influencent de façon
significative la décision de rachat à l’exception des deux dernières qui semblent peu significa-
tives. Les forêts aléatoires mettent en évidence l’importance de l’ancienneté suivi par le type
de contrat et la richesse de l’assuré. Dans un deuxième temps, afin de prendre en compte les
variables économiques et financières, il utilise le modèle de régression logistique dynamique en
rajoutant comme covariables le taux de chômage, le taux servi des contrats et le taux d’intérêt.
Bien que les résultats obtenus semblaient acceptables, ce modèle marche très mal en situation
extrême et il le corrige en prennant en compte les crises de corrélation dans le comportement
des assurés. Finalement, il adopte un modèle de mélange de régressions logistiques qui prédit
mieux les décisions de rachat des assurés, même en situation extrême.
Une dernière tentative d’analyse du rachat est de le modéliser par analyse de survie. La
question n’étant plus de prédire la survenance d’un rachat ou pas, mais plutôt de se demander
s’il y a rachat, dans combien de temps il interviendra ; ce qui pousse à une application du modèle
semi-paramétrique de Cox. Seror et Yengue (2013) dans leur mémoire mettent en oeuvre un
modèle de Cox intégrant les facteurs de risques structurels et conjoncturels pour modéliser le
rachat dans un cadre de risque compétitif, en s’inspirant du modèle de Fine-Gray qui a été
appliqué sur un portefeuille de contrats américains. Notons que cette approche par un modèle
de Cox permet de prendre en compte la censure et/ou la troncature du portefeuille.
2015-2016 21 ENSAE ParisTech
Mémoire d’Actuariat
Ainsi, nous constatons que la modélisation du rachat a sucité un grand intérêt dans la littéra-
ture avec principalement quatre grandes approches qui s’en dégagent. Les approches financières
et micréoconomiques se fondent principalement sur la rationnalité des assurés, hypothèse qui
nous semble très discutable. L’approche statistique sous forme de série temporelle permet bien
de prévoir la dynamique des taux de rachat collectifs mais sans prendre en compte les spécificités
individuelles qui elles sont captées dans l’approche probabiliste.
2.2 Modélisation du rachat chez Allianz
L’objectif de cette section est de présenter la méthodologie de gestion du risque de rachat
au sein d’Allianz France. Dans le cadre d’une intégration dans les modèles de rentabilité et
de valorisation de portefeuille, les lois de rachats sont construites chaque année en distinguant
les lois de rachat partiel et les lois de rachat total, ainsi que les rachats structurels et les
rachats conjoncturels. Comme la grande majorité des professionnels de l’assurance vie, Allianz
France aborde ces lois de rachat en termes de montant et les construit à la fois sur les produits
monosupports et multisupports suivant les mailles famille de produits, réseau de distribution
et type de support.
2.2.1 Modélisation des rachats structurels
Le calcul des taux de rachat structurel se fait par ancienneté du contrat et suivant la taille
des mailles, la méthode de calcul est soit une méthode de Kaplan-Meier en prennant en compte
les mouvements, soit un calcul direct par ancienneté, soit un taux flat global. La méthodologie
de calcul est résumée sur la figure 2.1 ci-dessous.
Figure 2.1 – Méthodologie de calcul des taux de rachat au sein d’Allianz France
Ainsi, après avoir calculé les taux, ils sont prolongés par la moyenne des 5 derniers taux
après le pic fiscal. La loi de rachat proposée correspond donc à la moyenne des taux des trois
dernières années.
2015-2016 22 ENSAE ParisTech
Mémoire d’Actuariat
2.2.1.1 Estimation par Kaplan-Meier
Cette méthode d’estimation tente d’étendre l’estimateur non-paramétrique de Kaplan-Meier
appliqué aux taux de mortalité aux taux de rachat. En effet, dans le portefeuille, il existerait
d’autres évènements de sorties autres que les rachats (décès, transformation, etc.), alors nous
seront éventuellement en présence de censure et/ou de troncature et l’estimateur de Kaplan-
Meier permet de le prendre en compte. Au préalable, il est question de reconstituer la PM
d’ouverture qui représente donc l’exposition car nous ne disposons à priori que de la PM de
clôture.
PM ouverturei,N = PM clture
N −12∑j=i
Vj +12∑j=i
Prestj
Avec les notations :
PM ouverturei,N : la provision mathématique d’ouverture du mois i de l’année N
PM cltureN : la provision mathématique de clôture de l’année N
Vj : les versements du mois j de l’année N
Prestj : les prestations pour le mois j de l’année N
Ainsi, on obtient le taux brut de rachat Kaplan-Meier pour l’ancienneté k par la formule :
τk = 1−12∏i=1
(1− Rachati,k
PM ouverturei,k
)
La figure 2.2 ci-dessous nous présente un exemple de loi de rachat construite sur une maille
donnée (la gamme Tellus) en 2015.
Figure 2.2 – Loi de rachat 2015 : rachat partiel (en rouge) et rachat total (en bleu)
2015-2016 23 ENSAE ParisTech
Mémoire d’Actuariat
Nous constatons que les taux de rachat partiel sont plus élevés que les taux de rachat total.
Par ailleurs, on observe bien l’influence de la fiscalité sur les rachats avec le pic fiscal après 8 ans,
tant pour les rachats partiels que pour les rachats totaux. Nous constatons aussi une importance
des rachats précoces qui interviennent pour les contrats de moins de 2 ans d’ancienneté. De
plus, nous retrouvons bien le prolongement des lois qui deviennent stables à partir de 25 ans
d’ancienneté.
2.2.1.2 Estimation par calcul direct et taux flat
Cette méthode de calcul est utilisée lorsque la maille retenue est assez grande. Le calcul
des taux de rachats par ancienneté se fait de façon directe comme étant le rapport du montant
racheté sur l’exposition ou provision mathématique d’ouverture. La PM d’ouverture pour une
ancienneté k est obtenu par : PMk = PMcloture,k + RachatsTotauxk + RachatsPartielsk +
Termesk. Le taux de rachat à l’ancienneté k est donc défini par :
τk =Rachati,kPM ouverture
i,k
Pour les mailles de petite taille, un taux flat est appliqué. Ce taux flat est défini en excluant
l’ancienneté et en calculant un taux global par la formule :
τ =
N∑k=0
Rachatk
N∑k=0
PM ouverturek
La loi de rachat selon l’ancienneté telle qu’elle sera intégrée dans les modèles de rentabilité
est donc une constante fixée au taux flat.
2.2.2 Modélisation des rachats dynamiques
La modélisation des rachats dynamiques au sein d’Allianz France repose sur les travaux
de Suru (2011) dans le cadre de son mémoire. La loi de rachat dynamique prend la forme
d’une courbe en S et est étroitement liée à la forme de la loi réglémentaire présentée plus haut.
Le principe postule sur le fait que le taux de rachat dynamique dépend d’un taux de rachat
déterministe corrigé d’une déviation. Cette dernière dépend de la différence entre le taux servi
par l’assureur et un taux benchmark de marché δ.
τ = τdeterministe ∗ (1 + deviation(δ))
La forme en S de la loi est présentée par la figure 2.3 ci-dessous et prend en compte trois
2015-2016 24 ENSAE ParisTech
Mémoire d’Actuariat
principaux parmètres contrairement à six paramètres si la loi réglémentaire était utilisée.
surr-incr-begin : correspond au taux benchmark du marché tel que toute nouvelle augmen-
tation de la différence de taux entraîne une augmentation du taux de rachat.
surr-incr-end : correspond au taux benchmark tel que toute nouvelle augmentation de la
différence n’entraîne plus d’augmentation du taux de rachat (les assurés sont insensibles à un
taux de marché déjà assez important).
surr-incr-max : correspond à la pire déviation possible sur le taux de rachat.
Figure 2.3 – Forme de la loi de rachat dynamique au sein d’Allianz
Les paramètres surr-incr-begin et surr-incr-end sont calculés directement à partir d’un
arbitrage de l’assuré sur le retour sur investissement (ROI) de son contrat. En se basant sur le
fait que les taux de rachat ne peuvent pas prendre de valeurs très importantes sur une longue
durée, en parallèle avec la physique, ce phénomène peut être modélisé par une force de rappel
vers une valeur moyenne. Ainsi, le paramètre surr-incr-max est estimé à partir de l’historique
des taux de rachats calibrés sur un modéle de Vasicek que nous ne présenterons pas.
2.3 Méthodologie de l’étude
Dans le cadre de ce mémoire, nous priviliégions donc l’approche probabiliste qui permet bien
de modéliser les comportements individuels de rachats des assurés. Notons que la modélisation
du rachat peut être assimilable à une approche fréquence/coût empruntée à la tarification
en assurance non-vie. Ainsi, nous avons d’une part la survenance de rachat, et d’autre part
l’intensité de rachat. Ce dernier est égale à la totalité du montant racheté (pour les rachats
totaux) et la moyenne sur tous les rachats partiels de la part d’encours racheté partiellement
(pour les rachats partiels).
2015-2016 25 ENSAE ParisTech
Mémoire d’Actuariat
Nous nous proposons de modéliser les comportements de rachats en utilisant les techniques
de machine learning, en se restreignant dans le cadre de ce mémoire au cas du rachat total.
Traditionnellement, les modèles linéaires généralisés (GLM) sont utilisés mais malgré leur per-
formance, ces modèles imposent souvent des contraintes conduisant dans certaines populations
d’assurés à des estimations biaisées. De part leur nature non paramétrique, les algorithmes d’ap-
prentissage statistique s’affranchissent de ces contraintes notamment en prenant en compte les
incertitudes et permettent d’obtenir des prédictions plus individualisées.
2.3.1 Limites des GLM et apports du machine learning
Les GLM qui relèvent de la statistique classique sont des extensions du modèle linéaire
simple et permettent à la fois de modéliser des comportements non-linéaires (grâce aux fonc-
tions de liens) et des distributions de résidus non-gaussiens. De plus, ils bénéficient d’un cadre
théorique dans lequel il est possible d’effectuer des tests statistiques pour évaluer l’adéquation
du modèle aux données. Toutefois, ces modéles issus de la statistique paramétrique possèdent
deux limites qui sont de nature à réduire leurs capacités prédictives : la détection et la modéli-
sation d’interactions entre les variables quantitatives ou qualitatives car dans un modèle GLM,
les interactions doivent être spécifiées à priori par l’actuaire.
Contrairement à la statistique classique, les techniques machine learning n’imposent pas des
hypothèses sur la structure et la distribution des données (d’où sa nature non paramétrique) ; il
ne formule qu’une seule hypothèse : les données à prédire doivent être générées de façons iden-
tiques et indépendantes par un processus donné à partir d’un vecteur des variables explicatives.
Ici, nous n’avons plus un seul modèle, mais des modèles qui seront agrégés ou synthétisés par
la suite ; ce qui réduit le risque modèle. Il s’agit donc de construire un algorithme à complexi-
fication croissante, qui va apprendre des données à partir de différents modèles et prédire de
façon précise la valeur d’une variable en fonction des valeurs explicatives en commettant l’er-
reur la plus faible. Ces algorithmes sont capables de modéliser des structures de dépendances
complexes à partir des données, alors que ces dépendances doivent être spécifiées par l’actuaire
en utilisant les GLM. De plus, il utilise des techniques de reéchantillonnage pour décorréler les
différents estimateurs. Le modèle optimal n’est pas forcément celui qui donne le meilleur ajus-
tement sur la base de données, mais celui qui réduit l’erreur de la valeur prédite sur une autre
base, ce qui est donc de nature à renforcer la robustesse des résultats prédits. Cependant, bien
que les méthodes de machine learning conduisent à des estimations plus précises, leurs résultats
restent plus difficilement interprétables contrairement aux GLM : c’est pourquoi on les qualifie
généralement de modèle boite noire. Ainsi, une utilisation conjointe de ces deux approches est
souvent préconisée.
2015-2016 26 ENSAE ParisTech
Mémoire d’Actuariat
2.3.2 Démarche retenue
La démarche d’analyse que nous retenons est la démarhe classique de tout projet de ma-
chine learning. Dans un premier temps, nous faisons une analyse statique qui renvoie à une
photographie du portefeuille en Décembre 2015 des produits multisupports phares d’Allianz
vie. Elle couvre la période 2011-2015 et porte sur une vingtaine de variables concernant à la
fois les caractéristiques du produit et de l’assuré. Ces variables sont observées à leur date de
rachat pour les contrats rachetés et en Décembre 2015 pour les contrats non rachetés. Dans un
second temps, nous nous proposons d’aller vers des comportements dynamiques en rajoutant
les facteurs économiques et financiers pour capter les effets croisés structurels et conjoncturels.
La phase d’extraction et de préparation des données s’est faite sous le logiciel SAS et la phase
d’analyse et de modélisation sous les logiciels R et Python.
Etape 1 : Exploration des données et feature engineering
L’exploration et/ou la préparation des données fait référence au nettoyage et à la mise en
forme des données. Elles passent essentiellement par une analyse préliminaire des données :
tris à plat, statistiques descriptives, etc. Cette étape nous permet aussi d’apurer la base de
données afin de nous assurer de la qualité des données. Elle passe alors par des techniques
d’écrétage et de correction des données brutes par le traitement des données manquantes et/ou
aberrantes. Ainsi, à partir de cette base dite propre, s’ensuivra l’étape de feature engineering qui
consistera à modifier et/ou créer de nouvelles variables pertinentes (les features) pour l’étape
d’apprentissage proprement dite.
Etape 2 : Echantillonnage ou splitting
La phase de splitting ou encore d’échantillonnage est délicate et incontournable en machine
learning. Elle est très cruciale ce d’autant plus que nombreuses sont les techniques de prédiction
qui en sont très sensibles. Classiquement, la base de données est divisée en un échantillon
d’apprentissage (70%) sur lequel sont implémentés les différents modèles, un échantillon de
validation (20%) n’ayant pas servi à l’apprentissage, et qui permet de faire le tunning parameters
et de comparer la qualité prédictive des différents modèles, et enfin un échantillon test (10%)
pour tester l’adéquation du modèle optimal (au sens de l’échantillon de validation) et évaluer
objectivement l’erreur commise.
2015-2016 27 ENSAE ParisTech
Mémoire d’Actuariat
Figure 2.4 – Illustration du sur-apprentissage
Cette étape d’échantillonnage nous permet donc d’éviter le risque de sur apprentissage. En
prenant le cas où l’on utilise un échantillon d’apprentissage et de test, la figure 2.4 ci-avant
nous illustre le sur-apprentissage. En effet, les prédictions sur l’échantillon d’apprentissage ne
doivent pas s’écarter de celle sur l’échantillon test : elles doivent être comparables. Ainsi, si les
prédictions sont beaucoup moins précises sur l’échantillon test que sur l’échantillon d’appren-
tissage alors on parle de sur-apprentissage (overfiting) car le modèle s’ajuste trop aux données
d’apprentissage en se trompant lorsqu’on change d’échantillon. Par contre, si les prédictions
sont beaucoup plus précises sur l’échantillon test que sur l’échantillon d’apprentissage alors on
parle de sous-apprentissage (underfiting).
Ces échantillons pouvent être obtenus en utilisant différentes techniques de sélection d’échan-
tillon (tirage aléatoire simple, par tirage systématique, par stratification ou encore par grappes).
Dans le cadre de notre étude, nous avons retenu un tirage aléatoire simple sans remise et nous
avons fait le choix de diviser en deux échantillons : échantillon d’apprentissage (70%) et échan-
tillon test (30%).
Etape 3 : Apprentissage supervisé
Le coeur de l’apprentissage automatique, ce sont les algorithmes qui permettent d’entraîner
le modèle. On distingue généralement l’apprentissage non supervisé (on fournit au modèle un
jeu de données pour le laisser déterminer des structures en son sein) et l’apprentissage supervisé
(on fournit au modèle un jeu de données associé à un signal et il doit réaliser des prédictions).
Dans le cadre de notre étude, le signal est la décision de rachat et nous aurons donc recours
à l’apprentissage supervisé en implémentant différents modèles de prédiction. La figure 2.5 ci-
dessous (source : Friedman et al. (2008)) nous présente quelques éléments de comparaison des
modèles de machine learning, lesquels nous guiderons dans le choix des méthodes à implémenter.
2015-2016 28 ENSAE ParisTech
Mémoire d’Actuariat
Nous constatons que le Gradient Boosting est bien noté sur presque tous les critères tandis
que les réseaux de neurones et les Supports Vectors Machine (SVM) apparaissent comme des
modèles boîte noire malgré leur fortes capacités prédictives. Les arbres de décisions semblent être
le meilleur modèle mais ils ont de très faibles capacités prédictives. La présentation théorique
plus détaillée de ces méthodes de machine learning se fera au chapitre qui suit.
Figure 2.5 – Quelques élements de comparaison des modèles de machine learning
Etape 4 : Comparaison des modèles
Une fois les prédictions faites à travers les différents modèles, il est important de mesurer
leur qualité et de comparer leurs performances. Nous présentons ci-dessous quelques indicateurs
permettant de mesurer la qualité d’un modèle.
Courbe ROC
La courbe ROC (Receiver Operating Characteristic) est une mesure de la performance d’un
classifieur binaire et fût inventé pendant la seconde guerre mondiale pour montrer la séparation
entre les signaux radar et le bruit de fond. En statistique, elle est utilisée pour évaluer l’efficacité
d’une discrimination en deux groupes. c’est une représentation du taux de vrais positifs en
2015-2016 29 ENSAE ParisTech
Mémoire d’Actuariat
fonction du taux de faux positifs. Son intérêt est de s’affranchir de la taille des données de
test dans le cas où les données sont déséquilibrées. A partir des deux groupes à discriminer (le
groupe des « Rachat » ou des « positifs » et le groupe des « Non rachat » ou des « négatifs »),
nous définissons deux fonctions du seuil de séparation s du score :
— La sensibilité : α(s) = P(score ≥ s|Rachat) = probabilité de bien détecter un positif
— La spécificité : β(s) = P(score < s|Nonrachat) = probabilité de bien détecter un négatif
La courbe ROC est donc la courbe ayant pour abscisse 1-spécificité et d’ordonnée la sensibi-
lité. Le modèle optimal permet alors de capturer le plus possible de vrais positifs avec le moins
possible de faux positifs. En superposant les courbes ROC des différents modèles, le meilleur
modèle sera celui le plus éloigné de la première bissectrice c’est à dire celui qui est au-dessus
des autres courbes. Toutefois, en cas d’ambiguïté, cette représentation met en avant un nouvel
indicateur qui est l’aire sous la courbe (AUC), plus elle se rapproche de 1, plus le classifieur
est performant. Cet indicateur est obtenu par AUC = P (score(x) > score(y)) avec x et y tirés
au hasard dans le groupe des « Rachat » et « Non rachat » respectivement. l’AUC varie ainsi
entre 0 et 1.
Courbe Lift
La courbe lift est une autre mesure de la performance d’un modèle prédictif. Elle est très
utilisée en marketing pour le ciblage des clients les plus appétents en vu d’optimiser les cam-
pagnes marketing. Elle synthétise de façon visuelle l’information apportée par un modèle de
prédiction dans le cas d’une variable cible binaire, mais aussi dans le cas de variables cibles
multinomiales (les courbes Lifts sont ainsi construites pour chaque catégorie). La courbe lift
encore appelé courbe de gain synthétise les gains auxquels l’on pourrait s’attendre en utilisant
un modèle par rapport à l’utilisation de l’information de référence uniquement. Cette courbe
est obtenue en ordonnant en abscisse les observations par score décroissant α(s) en fonction de
1− γ(s) (avec γ(s) désignant le taux de positifs dans la population avec score supérieur à s).
A partir de la courbe Lift, nous pouvons dégager deux indicateurs de performance :
— Indicateur KI : le rapport de l’aire M entre les courbes modèle statistique et aléatoire
à l’aire W entre modèle parfait et aléatoire.
KI =M
W
— Indicateur KR : le rapport de l’aire G entre les courbes du modèle sur les ensembles
2015-2016 30 ENSAE ParisTech
Mémoire d’Actuariat
d’estimation et de validation à l’aire W entre les courbes modèle parfait et aléatoire
KR = 1− G
W
Indicateur de régression
Une troisième classe d’indicateur de performance des modèles prédictifs sont les indicateurs
de performance classiquement utilisé en régression. L’idée étant d’obtenir un modèle avec une
erreur d’estimation (qui renvoie à l’écart entre la valeur observée et la valeur prédite) minimale.
Nous distinguons ainsi les indicateurs suivants :
— Mean Squared Error (MSE) : MSE = 1n
∑ni=1 (yi − yi)2
— Root Mean Squared Error (RMSE ou L2) : RMSE =√MSE =
√1n
∑ni=1 (yi − yi)2
— Mean Absolute Error (MAE ou L1) : MAE = 1n
∑ni=1 |yi − yi|
— Maximum Absolute Error (ou L∞) : L∞ = maxi|yi − yi|
— Corrélation de Pearson : ρ2 = r2s
rs =
∑ni=1 (yi − ¯yi)(yi − yi)√∑n
i=1 (yi − ¯yi)2∑n
i=1 (yi − yi)2
2015-2016 31 ENSAE ParisTech
Chapitre 3
Méthodes de Machine Learning : un pas
dans la théorie
Dans ce chapitre, nous nous proposons de présenter le cadre théorique de quelques algo-
rithmes de machine learning. L’ambition est de passer en revue les techniques paramétrique,
semi-parmétrique et non-paramétrique que nous utiliserons par la suite pour prédire la décision
de rachat. Dans un premier temps, nous présenterons les modèles généralisés, puis le modèle
d’arbre de décision. Les réseaux de neurones et les Support Vector Machines (SVM) s’ensui-
vront avant de terminer sur les modèles d’aggrégations (Bagging, Forêt aléatoire, Boosting).
Pour réaliser cette revue théorique, nous nous sommes appuyés sur de nombreux auteurs comme
Friedman et al. (2008), Vandal (2005), Besse et Laurent (2014) pour ne citer que ceux là.
3.1 Rappel sur les modèles généralisés
Nous souhaitons expliquer une variable aléatoire Y par un ensemble de variables explica-
tives X = (X1, X2, . . . , Xp). La formalisation mathématique des modèles linéaires généralisés
classique est de la forme :
E(Y |X) = β0 +
p∑j=1
βjXj
Les paramètres du modèle sont estimés par Moindres Carrées Ordinaires (MCO) :
β = argminβ
n∑i=1
(yi − β0 −p∑i=1
βixij)2
Dans cette section, nous présenterons la régression logistique (LR) qui est un cas particulier
de GLM et aussi les modèles non-linéaires généralisés : la régression Spline et le modèle GAM.
32
Mémoire d’Actuariat
3.1.1 LR
La LR est une adaptation du modèle linéaire dans le cas d’une variable à expliquer binaire.
En effet, lorsque Y ∈ {0, 1}, le paramètre β du modèle linéaire n’est pas interprétable et
l’hypothèse de normalité des résidus est violée. Une solution est d’introduire une variable latente
ou inobservée Y ∗ continue de telle manière que le modèle devient :
Yi =
1 si y∗i = εi + xiβ > 0
0 sinon
Ce modèle peut également s’exprimer sous la forme pi = P(yi = 1|xi) = F (xiβ) où F désigne
une fonction de répartition. La régression logistique correspond ainsi au modèle où la fonction
de répartition est celle de la loi logistique.
F (x) =1
1 + e−x= Λ(x)
Ainsi, nous obtenons le modèle LR par la spécification suivante :
pi = Λ(xiβ) =1
1 + e−xiβ
L’estimation des paramètres se fait par maximum de vraisemblance. A l’évènement yi = 1
est associée la probabilité pi = Λ(xiβ) et à l’événement yi = 0 correspond la probabilité
1− pi = 1− Λ(xiβ). Ainsi, les observations yi suivent une loi binomiale de probabilité Λ(xiβ).
La vraisemblance du modèle est donc :
L(y, β) =n∏i=1
pyii (1− pi)1−yi =n∏i=1
Λ(xiβ)yi(1− Λ(xiβ))1−yi
Afin de réduire la complexité du problème d’optimisation, les paramètres du modèle sont
donc obtenus en maximisant la log-vraisemblance du modèle (plutôt que la vraisemblance di-
rectement) :
β = arg minβ
l(y, β) = arg minβ
n∑i=1
yilog(Λ(xiβ)) + (1− yi)log(1− Λ(xiβ))
Classiquement, ce problème d’optimisation est résolu soit en utilisant un algorithme de la
méthode de Newton-Raphson, soit celui de la méthode du gradient.
2015-2016 33 ENSAE ParisTech
Mémoire d’Actuariat
3.1.2 Régression Spline
Dans cette section, nous nous mettons dans la cas où nous souhaitons expliquer une variable
aléatoire Y par la variable aléatoire X. Pour ce faire, on dispose d’un échantillon (xi, yi),
i = 1, 2, ..., n avec xi et yi les réalisations des variables X et Y respectivement. La formalisation
mathématique des splines de régression encore appelée B-splines est la suivante :
yi = s(xi) + εi (3.1)
Où les εi représentent l’erreur aléatoire telle que E(εi) = 0, V ar(εi) = 1 et Cov(εi, εj) = 0 ∀i 6= j
et s représente la fonction spline que l’on cherchera à estimer. En développant la fonction spline
s via la formule de Taylor, le modèle 3.1 ci-dessus se réécrit de la manière suivante :
yi =m∑j=1
θixj−1i + [(m− 1)!]−1
∫µ(m)(xi)[xi − ξ]m−1+ dξ + εi
µ(m) désigne la dérivée mime de la fonction spline s et [u]+ = max(0, u). Nous constatons
bien que le premier terme est un polynôme de dégré.
Ainsi, étant donné les paramètres θ1, ..., θm, δ1, ..., δk et un ensemble de points {ξ1, ..., ξk},lafonction des splines de régression peut être estimée par une fonction continue, définies par
intervalle et dont les morceaux sont des polynômes de dégré m − 1, qui prend la forme ci-
dessous :
s(x) =m∑j=1
θixj−1 +
k∑j=1
δi[x− ξj]m−1+
L’ensembleN = {ξ1, ..., ξk} désigne l’ensemble des noeuds et définie les points de coupures de
ces intervalles. Dans la littérature, les splines les plus utilisés sont les splines cubiques composés
de polynôme de dégré 3 et les splines linéaires composés de polynome de dégré 1. Afin d’estimer
cette fonction, nous devons estimer ses paramétres. Nous définissons tout d’abord les notations
ci-dessous :
Bj = xj−1, j = 1, ..,m
Bm+j = [x− ξj]m−1+ , j = 1, .., k
β = θ1, ..., θm, δ1, ..., δk)
La fonction des splines de régression peut donc se réécrire par l’expression ci-dessous, les
2015-2016 34 ENSAE ParisTech
Mémoire d’Actuariat
inconnues à priori étant m,Netβ.
s(x) =m+k∑j=1
βjBj(x)
Pour estimer le paramètre β, nous commençons tout d’abord par estimer le nombre de noeuds
et le dégré du polynôme. Il s’agit d’un problème classique en statistique d’arbitrage entre biais
et variance : le choix de M (nombre de noeuds ou dégré du polynôme) porte sur celui là qui
minimise le Mean Square Error (MSE) :
MSEM =1
n
n∑i=1
(yi − mM(xi))2 = V ariance+Bias2
Ces paramètres étant dorénavant connu, nous estimons β par la méthode des MCO tel que
décrit par Eubank (1999) :
β = arg minβ
n∑i=1
(yi −m+k∑j=1
βjBj(x))
La fonction des splines de régression étant estimée, afin d’enrichir le LR et ainsi augmenter
son pouvoir prédictif, pour une variable explicative X1 donnée, nous incluons donc dans le
modèle LR la fonction des splines estimée ˆs(X1) plutôt que la variable X1.
3.1.3 GAM
Les modèles additifs généralisés (GAM) ont été développés par Hastie et Tibshirani (1990)
et sont une version non-paramétrique des GLM. Ils généralisent la vision de la régression spline
avec plusieurs variables explicatives. Pour obtenir une estimation de la fonction de régression,
nous formalisons le modèle comme suit :
yi = f(xi) + εi
Les termes d’erreurs εi sont non corrélés entre eux, de moyenne nulle et de variance fixe. La
nature additive du modèle provient de la spécification additive de la fonction f :
f(xi,1, . . . , xi,p) = α +
p∑j=1
fj(xi,j)
Les fonctions fj sont des fonctions arbitraires pour lesquelles nous imposons E(fi(Xj)) = 0.
Comme dans le cas des GLM, nous supposons donc que la relation entre la variable dépendant
et les variables explicatives est additive quoique des interactions peuvent être spécifiées. Cette
2015-2016 35 ENSAE ParisTech
Mémoire d’Actuariat
hypothèse d’additivité donne l’avantage d’avoir des résultats simples à interpréter et à visualiser.
L’estimation d’un modèle GAM requiert donc l’estimation des fonctions fj qui peuvent
prendre n’importe quelle forme non paramétrique selon les données à ajuster. L’ajustement
du modèle se fait généralement par le biais de l’algorithme« backfitting ». Cet algorithme se
déroule en trois principales étapes décrites ci-dessous :
— L’initialisation de la constante α par y et les fonctions fj par f 0j
— A la suite de la phase d’initialisation, vient la phase d’itération pour rechercher les esti-
mateurs convergents. Les fonctions fk sont calculées de façon itératives par la formule :
f(Y − α−∑j 6=k
fj(Xj)) = fk(Xk) + ε
Où Y − α−∑j 6=k
fj(Xj) sont les résidus partiels pour la variable explicative Xk.
— Augmenter le nombre d’itérations jusqu’à ce que l’algorithme converge vers les fonctions
optimales : f ∗1 , . . . , f ∗p
3.2 Arbres de décision : CART
L’arbre de décision est une méthode d’apprentissage supervisée modélisant une discimina-
tion ou une régression. Il est construit à partir de règles de classification basant leur décision
sur des tests associés aux attributs et organisés de manière arborescente. En guise d’exemple
d’algorithmes d’arbre de décision, nous pouvons citer l’algorithme CART (Classification and
Regression Tree), CHAID (Chi-Square Automatic Interaction Detection) et QUEST (Quick
Unbiased Efficient Statistical Trees). Nous nous proposons de présenter l’algorithme de CART
qui a été utilisé dans le cadre de ce mémoire.
L’algorithme CART est le fruit des travaux de Breiman et al. (1984) qui ont apporté des
développements importants aux arbres de décision. Il s’agit d’un algorithme à la fois itératif et
récursif qui permet de construire des arbres en se basant sur des critères d’homogénéité. Son
principe est basé sur une partition de l’espace des variables d’entrée, puis l’ajustement d’un
modèle simple sur chaque partition.
Supposons un échantillon (Xi, Yi)i=1,...,n avec Xi ∈ Rd les variables explicatives et Yi ∈ R la
variable de réponse. La construction de l’arbre consiste à déterminer une séquence de noeuds
qui passe par une définition d’un critère de division optimal, une règle de décision du noeud
final et un critère d’affectation de chaque feuille obtenu à une valeur de la variable de réponse.
2015-2016 36 ENSAE ParisTech
Mémoire d’Actuariat
Critère de division
La construction de l’arbre passe par une construction des différentes branches constitutives,
lesquelles dépendent de la nature des variables explicatives. Si la variable explicative est qua-
litative ordinale ou quantitative à k valeurs, alors nous avons (k − 1) branches admissibles 1.
Dans le cas d’une variable normale à k modalités, nous avons 2(k−1) − 1 branches admissibles.
Le critère de division repose sur la définition d’une fonction d’hétérogénéité. Supposons que
la variable à expliquer qualitative Y a m modalités T1, ..., Tm, nous définissons la probabilité
qu’un élément du j-ième noeud appartienne à la i-ème classe par :
pij = P(Ti|Classe j) avecm∑i=1
pij = 1
Les probabilités conditionnelles sont soit définies par la formule de Bayes lorsque les proba-
bilités d’appartenance à une classe donnée est connue, soit estimées par des rapports d’effectif :
pij =nij∑mi=1 nij
. Le but étant de partager les individus en groupes plus homogènes au sens de la
variable cible, nous définissons ainsi le critère d’hétérogénéité par l’indice de Gini défini comme
suit :
Indice de Gini = 1−n∑i=1
p2ij
La règle d’affectation consiste à associer à chaque feuille la moyenne des observations re-
latives à cette feuille dans le cas où la variable cible est quantitative. Lorsque cette dernière
est qualitative, chaque noeud terminal ou feuille est affecté à la modalité de la variable cible
la mieux représentée dans le noeud. L’algorithme CART n’a pas de règle d’arrêt ; l’arbre est
construit de façon la plus ramifiée possible puis il est élagué.
Elagage de l’arbre
La procédure d’élagage ou pruning de l’arbre consiste à construire des arbres extrêmement
raffinés. La démarche consiste à construire pas-à-pas une séquence de sous-arbres à partir de
l’arbre initial et ensuite de retenir l’arbre optimal.
Etant donné un arbre initial A à k noeuds terminaux ou feuilles, la qualité de discrimination
de l’arbre est mesurée par le critère :
1. une branche est dite admissible si aucun des deux noeuds descendants qui en découlent n’est vide.
2015-2016 37 ENSAE ParisTech
Mémoire d’Actuariat
D(A) =k∑i=1
Di(A)
Où Di(A) désigne le nombre de mal classés ou encore la déviance de la i-ème feuille.
La construction des sous-arbres emboîtés se fait par itération en pénalisant la complexité
de l’arbre A : C(A) = D(A) + γk. En jouant sur la paramètre γ, nous obtenons ainsi une
séquence emboîtée de sous-arbres : Amax = Ak ⊃ Ak−1 ⊃ ... ⊃ A1. L’arbre optimal est ainsi
celui qui correspond à la valeur de γ minimisant le critère de complexité. De façon synthétique,
l’algorithme est le suivant :
— Sélection de l’arbre
— Construction de l’arbre maximal Amax.
— Construction de la séquence d’arbres emboîtés.
— Estimation sans biais des déviances
— Choix de i minimisant la déviance Di
Le modèle CART qui ne fait aucune restriction sur le type de données présente l’avantage
de fournir des résultats simples à interpréter et à visualiser, facilitant ainsi la prise de décision.
Cependant, il est souvent critiqué sur le fait que les divisions se basent sur une seule variable
alors que des combinaisons de variables peuvent être plus pertinentes. Par ailleurs, les arbres
de décisions sont très instables et peu robustes car une légère modification des données peut
engendrer différents classifieurs et ceci pénalise la prédiction. Les techniques d’aggrégation qui
seront présentées plus tard viennent résoudre ce problème en garantissant plus de stabilité et
de robustesse au modèle.
3.3 Réseaux de neurones
Les réseaux de neurones apparaissent pour la première fois à la suite des travaux de McCul-
loch et Pitts (1943) et le regain d’intérêt pour cette technique n’a pris de l’ampleur qu’avec les
travaux de Shun-Ichi (1967) qui a mis en exergue la réduction du taux d’erreur grâce à la pon-
dération des variables explicatives. Ainsi, les réseaux de neurones se sont largement répandus en
machine learning grâce à la grande précision de leur prédiction. Initialement liés aux domaines
de la médécine et de la biologie, les réseaux de neurones se sont rapidement répandus à d’autres
secteurs. Un réseau de neurone ou réseau neuronal a une architecture calquée sur celle du cer-
veau humain et se présente comme un ensemble de noeuds connectés entre eux. Ils peuvent
être utilisés à la fois comme un modèle de classification et comme un modèle de prédiction. Un
2015-2016 38 ENSAE ParisTech
Mémoire d’Actuariat
réseau de neurone se structure généralement en trois couches : une couche d’entrée, une couche
de sortie et éventuellement une couche cachée (cf figure 3.1 ci-dessous). Notons que c’est l’ajout
d’une couche cachée qui donne une dimension non-linéaire aux réseaux de neurones.
Les réseaux de neurones peuvent donner le poids aux variables explicatives lequel améliore ses
capacités prédictives. Toutes les variables explicatives qui doivent être normalisées (entre 0 et 1
ou entre -1 et 1) ou standardisées correspondent chacune à un noeud et l’ensemble constitue la
couche d’entrée. La variable à expliquer correspondant à un autre noeud ou plusieurs lorsqu’elle
est discrète (chacune de ses modalités représentant un noeud) constitue la couche de sortie.
Entre la couche d’entrée et la couche de sortie, certains noeuds correspondant à un niveau
intermédiaire sont parfois connectés, il s’agit de la couche cachée.
Figure 3.1 – Illustration du fonctionnement d’un réseau de neurone (source : Tufféry (2015))
Le principe du modèle des réseaux de neurones part d’une fonction de combinaison qui
calcule la première valeur à partir des noeuds ni connectés en entrée et de leurs poids pi (∑
i nipi
dans le cas des perceptrons). Ensuite, la fonction de transfert ou d’activation détermine
une valeur de sortie f(∑
i nipi). Ainsi, les réseaux de neurones n’utilisent pas les données brutes
des inputs : ils pondèrent tout d’abord les variables explicatives via la fonction de combinaison,
puis la fonction d’activation introduit la non-linéarité entre les sorties de la couche d’entrée afin
de prédire la variable cible. Pour la normalisation des variables catégorielles, chaque modalité
représentera un noeud, c’est-à-dire des variables binaires ou indicatrices (de valeur 1 ou 0)
seront crées pour chacune des modalités. En ce qui concerne les variables continues, elles sont
normalisées en utilisant la formule suivante :
2015-2016 39 ENSAE ParisTech
Mémoire d’Actuariat
Xi −min(Xi)
max(Xi)−min(Xi)
Fonction de combinaison
Comme nous l’avons dit précédemment, la fonction de combinaison permet de combiner
les valeurs brutes d’entrée avec leur poids synaptiques respectifs. Deux types de fonctions de
combinaisons sont généralement utilisées :
— une combinaison linéaire entre les entrées des noeuds et leurs poids :
C(ni, Xi, b) =∑i
niXi + b
Où ni, Xi, b représentent respectivement les poids, les valeurs d’entrée et le biais.
— la distance euclidienne entre les observations d’une couche initiale et les centres des
noeuds de la couche suivante :
C(ni, Xi, b) = ||Xi − ni||22 =∑i
(Xi − ni)2 + b
Fonction d’activation
La fonction d’activation permet d’introduire de la non linéarité au modèle. Nous distinguons
généralement les fonctions d’activation suivante :
— Fonction identité : A(x) = x
— Fonction sigmoïde : A(x) = 11+e−αx
— Fonction gaussienne : A(x) = 1√2πσ
e−(x−µ)2
2σ2
Le choix de la fonction d’activation n’obéit pas à une règle particulière. Cependant la fonction
sigmoïde est largement utilisée grâce à son caractère non-linéaire ainsi qu’au fait qu’elle permet
d’estimer le moins de paramètres possibles.
Il existe un bon nombre d’algorithme d’apprentissage par réseaux de neurones. En appren-
tissage surpervisée, deux méthodes sont généralement utilisées : le Perceptron MultiCouches
(PMC) et le réseau à fonction radiale (RBF).
Le PMC utilise une fonction de combinaison linéaire et une fonction d’activation sigmoïde
de paramètre α = 1, ce qui revient à la fonction de répartition d’une loi logistique. L’algo-
rithme de rétropropagation du gradient est plus utilisé pour les modèles d’apprentissage. En
2015-2016 40 ENSAE ParisTech
Mémoire d’Actuariat
ce qui concerne les RBF, ils utilisent la distance euclidienne comme fonction de combinaison
et la fonction d’activation est la fonction gaussienne. D’un point de vue pratique, la différence
fondamentale entre ces deux types de réseaux de neurones se situe au niveau du temps de
calcul lors des phases d’apprentissage et de test. Les RBF sont plus rapides lors de la phase
d’apprentissage contrairement au PMC qui le sont plutôt lors de la phase de test.
3.4 Support Vector Machine
Les Support Vectors Machines souvent traduit par l’appellation de Séparateur à Vaste Marge
(SVM) sont une classe d’algorithmes d’apprentissage initialement définis comme une généralisa-
tion de l’analyse discriminante, c’est-à-dire la prédiction d’une variable binaire. Son principe de
base consiste à ramener le problème de la discrimination à celui de la recherche d’un hyperplan
optimal qui, lorsque c’est possible, classe ou sépare correctement les données tout en étant le
plus éloigné possible de toutes les observations dans un espace de dimension plus grand, et de
trouver un classifieur, ou une fonction de discrimination, dont la capacité de généralisation est
la plus grande possible. Les SVM ont été développés dans les années 90 à partir des travaux de
Vapnik et Lerner (1963). On distingue les SVM linéaires et les SVM non linéaires correspondant
chacun à la nature du séparateur.
3.4.1 SVM linéaire
Les SVM linéaires utilisent un séparateur linéaire. Supposons un espace H de dimension m
contenant un ensemble fini de vecteurs X1, X2, ..., Xn. L’appartenance d’un vecteur à la classe
K ou à la classe L est codée -1 ou 1 dans la matrice des valeurs à prédire Y . Nous supposons
donc que les points sont linéairement séparables et on défini le séparateur linéaire f par :
f(x) =< ω, x > +b, ∀ ω ∈ H et b ∈ R
L’équation f(x) = 0 défini la frontiére de séparation des deux classes. Il existe plusieurs
hyperplans possibles pour séparer les classes (cf. figure de gauche ci-dessous) et il sera donc
question de trouver celui qui parmi eux optimise au mieux la séparation des données. Lorsque
f(x) > 0, le vecteur x appartient alors à la classe des échantillons dont l’étiquette est L et
réciproquement lorsque f(x) < 0, le vecteur x appartient à la classe des échantillons d’étiquette
K.
2015-2016 41 ENSAE ParisTech
Mémoire d’Actuariat
Figure 3.2 – Illustration d’un séparateur linéaire
La variable à prédire est donc définie par la formulation :
Y =
{+1 si f(x) > 0
−1 si f(x) < 0
En définissant la distance d’un point x0 à l’hyperplan Hω,b :< ω, x > +b par : d(x0, Hω,b) =|<ω,x>+b|||ω|| , le but des SVM sera de trouver l’hyperplan tel que sa distance aux points les
plus proches soit maximale. Pour ce faire, les supports vectors étant les points x tel que
|< ω, x > +b = 1|, la marge est définie par la distance des vectors supports à l’hyperplan et
est égale à 2||ω||2 . Afin d’obtenir l’hyperplan optimal, l’algorithme va minimiser l’inverse des
marges sous contrainte que l’hyperplan Hω,b sépare réellement les points :
min1
2< ω, ω > s.c : ∀ i, yi(< ω, xi > +b) ≥ 1
Ce programme d’optimisation s’avérant difficile à résoudre vu le nombre très important de
contraintes, nous le résolvons dans l’espace dual pour diminuer la complexité du problème. Dans,
l’espace initial nous avions ω =∑αiyixi avec
∑αiyi = 0. Dans l’espace dual, ce programme
s’écrit :
min{1
2αA>α− 1>α} s.c.
{0 ≤ αi ∀iy>α = 0
Où Q = [Qi,j] et Qi,j = yiyjx>i xj
Notons que lorsque nous sommes dans un cas où les points ne sont pas séparables, les slack
variables sont introduites dans le programme d’optimisation.
2015-2016 42 ENSAE ParisTech
Mémoire d’Actuariat
3.4.2 SVM non linéaire
Nous avons traité le cas où les points étaient séparables linéairement. Dans cette section,
nous traitons le cas d’une séparation non linéaire comme l’illustre la figure ci-dessous, en utili-
sant ainsi les SVM non linéaire ou à noyau.
Figure 3.3 – Illustration d’une séparation non linéaire
Dans le cas d’une séparation linéaire, nous utilisions la norme euclidienne pour définir la
distance d’un point à l’hyperplan. Dans le cas non linéaire, il ne s’agira plus de la norme
euclidienne mais d’une norme construite avec un noyau (kernel). La norme euclidienne est
définie par ||x0 − x|| =√< x0 − x, x0 − x > =
√< x0, x0 > −2 < x0, x > + < x, x > et nous
définissons la norme dite de kernel par ||x0−x||k =√k(x0, x0)− 2k(x0, x) + k(x, x) où k désigne
le noyau de kernel. Parmi les choix possibles de noyau de kernel, on compte en particulier :
— le noyau linéaire : k(x0, x) =< x0, x > (on retrouve ici les SVM linéaires)
— le noyau gaussien radial : k(x0, x) = exp (−σ||x0 − x||2)— les noyaux polynomiaux : k(x0, x) = (α + β < x0, x >)δ
— le noyau radial de Laplace : k(x0, x) = exp (−σ||x0 − x||)— le noyau sygmoïde : k(x0, x) = tan(α + β < x0, x >)
En utilisant les notations précédentes, le programme d’optimisation qui consiste toujours à
minimiser l’inverse de la marge se réécrit comme suit :
min1
2
∑1≤i,j≤n
αiαjyiyjk(xi, xj)
Sous les contraintes ∀i ∈ {1, 2, ..., n},
0 ≤ αi ≤1
net
n∑i=1
αi ≥ ν etn∑i=1
αi = 0
où ν ∈ [0, 1] est un paramètre approchant le pourcentage de supports vectors parmi les
données d’apprentissage.
2015-2016 43 ENSAE ParisTech
Mémoire d’Actuariat
3.5 Méthodes d’agrégations
Les techniques d’agrégation de modèle permettent de réduire la contrainte d’arbitrage biais-
variance des modèles statistiques. Le principe d’agrégation de modèle se base sur les techniques
de rééchantillonnage lors de la phase d’apprentissage et aussi la variation des paramètres d’ap-
prentissage. Ainsi, ces méthodes sont très adaptées pour les modèles très instables comme les
réseaux de neurones ou les arbres de décisions. Nous abordons deux algorithmes d’agrégation
dans ce mémoire. Le premier repose sur des stratégies aléatoires (bagging et forêt aléatoire) et
le second sur des stratégies adpatatives (boosting).
3.5.1 Bagging
Le bagging pour bootstrap aggregating est une technique d’agrégation de modèles développé
par Breiman (1996), dont l’algorithme peut être décrit de façon synthétique par la figure ci-
dessous :
Figure 3.4 – Illustration de l’algorithme du Bagging
Considérons un échantillon d’observations z = {(x1, y1), (x2, y2), ..., (xn, yn)} de loi commune
F et φ(x) un modèle fonction des variables explicatives x = (x1, x2, ..., xp). Nous notons φ(.) =
EF (φz) un estimateur du modèle sur l’échantillon z. Le principe du Bagging est de répliquer B
échantillons indépendants notés {zb}b=1,...,B suivant la mesure F par bootstrap et de construire
un modèle sur chacun de ces échantillons. Les B modèles obtenues seront par la suite agrégés
de la façon suivante :
— Si la variable cible Y est quantitative : φB(.) = 1B
∑Bb=1 φzb(.)
2015-2016 44 ENSAE ParisTech
Mémoire d’Actuariat
— Si la variable Y est qualitative : arg maxj
card{b|φzb(.) = j}Dans le premier cas, le modèle final est obtenu en faisant une simple moyenne des résultats
des sous-modèles alors que dans le second, c’est une technique de vote majoritaire qui est
utilisée pour élire la réponse la plus probable. Ce principe qui permet de moyenner ou de voter
les prédictions de plusieurs sous-modèles indépendants permet ainsi de réduire la variance et
par conséquent l’erreur de prédiction du modèle final.
L’erreur de prédiction des modèles d’aggrégations est évaluer de façon itérative par une
estimation out-of-bag (OOB) et nous parlons donc d’erreur out-of-bag. Il est obtenu par la
moyenne des erreurs de prédictions des sous-modèles. L’erreur OOB décroit donc de façon
naturelle en fonction du nombre de modèles avant de se stabiliser pour indiquer le nombre
optimal de modèles nécessaires à une agrégation éfficiente.
Cet algorithme d’agrégation présente l’avantage d’être simple à mettre en oeuvre sur n’im-
porte quelle méthode de modélisation (arbre de décision, regression logistique, réseaux de neu-
rones, etc.). Cependant, le temps de calcul important et son caractère boite noire sont des
inconvénients qui entâchent cette méthode.
3.5.2 Forêts aléatoires
Les forêts aléatoires sont une amélioration du bagging dans le cas spécifique du modèle
d’arbre de décision CART. Cette méthode des forêts aléatoires a été développée par Breiman
(2001) et elle vise à rendre les arbres de l’agrégation plus indépendants en rajoutant de l’aléa
dans le choix des features intervenant dans les différents sous-modèles : on parle de randomi-
sation des variables. Elle est donc très adaptée à des problématiques où le nombre de variables
explicatives est très important.
En fait, si nous considérons p variables identiquement distribuées de variance commune σ2
avec une corrélation ρ des variables deux à deux, alors la variance de la moyenne des p variables
est :
ρσ2 +1− ρB
σ2
Ainsi, lorsque ρ est élevé, l’avantage de réduction de variance du bagging est considéra-
blement pénalisé et c’est ceci qui a motivé Breiman (2001) d’opter pour une randomisation
des variables afin de réduire cette variance et ainsi améliorer l’agrégation. Comme dans le cas
2015-2016 45 ENSAE ParisTech
Mémoire d’Actuariat
du bagging, une évaluation itérative de l’erreur OOB permet de controler le nombre d’arbres
optimal nécessaire pour l’agrégation.
Comme nous l’avons mentionné précédemment, l’inconvénient des méthodes d’agrégation est
que le modèle construit est difficilement interprétable, d’où leur caractère boite noire. Pour les
forêts aléatoires, elles présentent des informations pertinentes relatives à l’importance de chaque
variable dans la discrimination ou la régression. Ces informations sont d’autant encore plus utiles
lorsques le nombre de features est important afin d’avoir une hierachie des variables les plus
importantes. Pour évaluer l’importance d’une variables, deux indicateurs sont généralement
utilisés :
— Le Mean Decrease Accuracy : Imp(Xj) = 1B
∑Bb=1 (Ej
b − Eb)Où Eb désigne l’erreur OOB du b-ième échantillon et Ej
b l’erreur OOB du b-ième échan-
tillon dans lequel on a pertubé aléatoirement les valeurs de la variable j.
— Le Mean Decrease Gini : Imp(Xj) = 1M
∑m
∑t∈Xj
NtN
∆I(t)
Où la première somme est sur tous les M arbres de la forêt, et la seconde sur tous les
noeuds splités suivant la variable Xk
Le premier indicateur repose ainsi sur une permutation aléatoire des valeurs de la variable :
plus l’erreur OOB est dégradée par la permutation d’une variable, plus cette dernière sera
importante. Le deuxième indicateur quant à lui repose sur la décroissance de l’entropie c’est
à dire une décroissance de l’hétérogénéité des variables. L’importance d’une variables est ainsi
mésurée comme une somme pondérée des décroissances d’hétérogénéité induites lorsqu’elle est
utilisée pour définir la division associée à un noeud (Source wikistat).
3.5.3 Boosting
Le Boosting est une méthode d’agrégation développée par Freud et Schapire (1996) reposant
sur des stratégies adaptatives. L’idée est de partir d’un faible classifieur afin de construire un
classifieur plus robuste. Son principe général est identique à celui du Bagging car il consiste à
construire une famille de modèles qui seront par la suite agrégés par une moyenne pondérée
ou vote majoritaire. Cependant, la différence avec le Bagging se situe au niveau de la façon
de construire les sous-modèles qui n’est plus itérative mais récurrente : chaque modèle est
une version adaptative du précédent en pénalisant les observations mal prédites. Selon la façon
d’agréger et de pondérer la famille successive de modèles, nous distinguons plusieurs algorithmes
de Boosting. Nous décrivons ici deux algorithmes les plus utilisés dans la littérature.
2015-2016 46 ENSAE ParisTech
Mémoire d’Actuariat
3.5.3.1 Adaptative boosting
Plus connu sous l’appelation Adaboost, l’algorithme Adaptative Boosting est le plus populaire
des algorithmes de Boosting dont le principe général est présenté sur la figure 3.5 ci-dessous :
Figure 3.5 – Illustration de l’algorithme Adaboost
Etant donné une règle de décision faible G(x), l’idée est d’appliquer cette règle plusieurs fois
en pondérant différemment les observations à chaque itération de façon judicieuse. Le problème
est la façon de choisir la règle G parmi une grande famille donnée. Ce problème classique est
généralement abordé en minimisant l’espérance de perte l.
G∗(x) = argminG
E[l(Y,G(X)))]
La loi du couple (X, Y ) étant inconnue, c’est l’estimation empirique de E[l(Y,G(X)))] qui
sera minimisée :
G∗(x) = argminG
1
n
n∑i=1
l(Yi, G(Xi))) = argminG
1
n
n∑i=1
1Yi 6=G(Xi)
Même numériquement, ce problème de minimisation est souvent difficile à résoudre et une
solution est de rendre convexe la fonction de perte en posant par exemple : l(Y,G(X))) =
exp (−Y G(X)). Ainsi, nous obtenons la règle GM(x) =∑M
m=1 αmGm(x) après M itérations,
nous estimons l’erreur empirique OOB par :
e(GM) =1
n
n∑i=1
1Yi 6=GM (Xi)
2015-2016 47 ENSAE ParisTech
Mémoire d’Actuariat
3.5.3.2 Gradient boosting
Le principe de base de l’algorithme de Gradient Boosting est identique à celui de Adaboost.
La différence se situe au niveau de la méthode utilisée pour le programme de minimisation de
la fonction de perte. Le Gradient Boosting utilise l’algorithme du Gradient pour le programme
de minimisation.
Posons L = E[l(Y,G(X)))] = L(G(1), ..., G(n)) avec G(1) = G(X1), . . . , G(n) = G(Xn). Le
problème est donc de minimiser la quantité L et l’algorithme du gradient se déroule comme
suit :
— L’algorithme commence par fixer les valeurs initiales : G[0](1), G
[0](2), . . . , G
[0](n)
— A la m-ième itération :
G
[m](1)...
G[m](n)
=
G
[m−1](1)...
G[m−1](n)
+ ν
− ∂L∂G(1)
(G[m−1](1) )
...
− ∂L∂G(n)
(G[m−1](n) )
— Augmenter le nombre d’itérations jusqu’à ce l’algorithme converge vers les valeurs :
G[mopt]
(1) , G[mopt]
(2) , . . . , G[mopt]
(n)
Ainsi, à partir de là nous construisons une estimation de la règle de décision et nous procédons
comme dans le cas de l’algorithme Adaboost.
2015-2016 48 ENSAE ParisTech
Deuxième partie
Résultats Empiriques : Application au
Portefeuille d’Allianz
49
Chapitre 4
Prédiction des comportements de rachat
structurel
Dans ce chapitre, nous nous proposons de prédire les comportements de rachats structurels
des assurés. Il s’agit d’une analyse dite statique portant sur une photographie du portefeuille
des contrats multisupports à la date de décembre 2015. L’étude couvre la période de 2011-2015
et porte sur environ 544 460 contrats multisupports (il s’agit des contrats issus des produits
phares de l’entreprise) avec une trentaine de variables portant sur les caractéristiques du contrat
(ancienneté, type de produit, taux d’investissment UC, périodicité de cotisation, encours, prime
initiale, etc.) et les caractéristiques de l’assuré (sexe, âge, situation matrimoniale, catégorie
socioprofessionnelle, niveau d’éducation, etc.). Les caractéristiques du contrat et des assurés sont
observées soit à la date de rachat (pour les contrats rachetés), soit à la date de fin d’observation
(pour les contrats non rachetés). Rappelons une fois de plus que nous ne traitons que le cas des
rachats totaux dans le cadre de ce mémoire.
L’objectif ici est de déceler les principaux facteurs structurels influançant la décision de rachat
d’un assuré et ainsi prédire les comportements en termes de rachats. Ce chapitre s’articule sur
trois sections. Nous commençons par une analyse exploratoire de la base de données, puis
s’ensuivra l’implémentation des modèles prédictifs avant de déboucher sur la comparaison des
performances des différents modèles afin d’en choisir le meilleur au sens des capacités prédictives.
4.1 Analyse exploratoire
Notre base de données comporte environ 544 460 contrats d’épargne individuelle dont 103
576 contrats (soit environ une proportion de 19%) qui ont été rachetés totalement au cours
de la période 2011-2015. Par ailleurs, un peu plus des trois quart des assurés ont effectué au
50
Mémoire d’Actuariat
moins un rachat partiel sur la période. Dans notre base de données, les femmes (52%) dépassent
légèrement les hommes (48%). En ce qui concerne le statut matrimonial, les mariés prédominent
notre base de données (60%), suivis par les célibataires (18%) et les divorcés, les veufs ainsi que
les pacsés/union libre terminent le pallier avec des proportions presques égales (7%). De manière
générale, les assurés sont plutôt averse au risque et optent plus pour une gestion prudente de
leur contrat. Un peu moins de la moitié a une préférence pour le fonds euros (41% des assurés
ont un taux d’investissement d’UC égal à 0%) et un peu plus de 3 assurés sur 10 ont un taux
d’UC compris entre 1% et 40%. Cependant, un assuré sur 10 est risquophiles et a une forte
appétence pour les marchés financiers (taux d’investissement d’UC égal à 100%). Une grande
majorité des assurés opte pour une périodicité de cotisation unique à la souscription (environ
76%) contre 34% qui préfèrent une cotisation périodique et une proportion équivalente à ces
derniers a éffectué au moins un versement libre sur leur contrat au cours de la période d’étude.
Outre cette description précédente de notre base de donnée, notons que dans notre échan-
tillon, l’assuré moyen est âgé de 60 ans, a une ancienneté d’un peu plus de 9 ans (9,89 ans) et
a ainsi souscrit son contrat à l’âge de 50 ans. De plus, son encours est d’environ 32 000 euros
et sa prime initiale de 20 000 euros sur la période d’étude. Par ailleurs, un quart des assurés a
moins de 48 ans avec une ancienneté de contrat inférieure à 5 ans et la moitié a plus de 60 ans
avec une ancienneté de contrat inférieure à 9 ans. Si un contrat sur deux a un encours inférieur
à 14 000 euros et un quart un encours inférieur à 5 000 euros, l’encours maximal s’élève à 7
millions.
4.1.1 Statistiques descriptives
Ancienneté et âge
L’assurance vie bénéficie d’une fiscalité avantageuse qui fait de l’ancienneté la première va-
riable déterminante du rachat. Nous pouvons l’apercevoir au regard de la figure 4.1 ci-dessous.
En effet, nous observons un pic de rachat à 2 ans qui correspond à des rachats précoces dont
les causes seront analysées plus loin dans le mémoire. Le second pic de 9 ans correspond bien
au pic fiscal auquel on s’attend car la fiscalité après 8 ans pousse les assurés à racheter leur
contrat après pour bénéficier des taxes réduites sur les intérêts générés par leur contrat.
Le taux de rachat semble décroitre avec l’âge même si nous observons une légère croissance
autour de 60 ans. En effet, les jeunes rachèteraient beaucoup plus que les adultes même si en
montant cela n’est pas forcément le cas étant donné que les plus agés ont plus d’encours.
2015-2016 51 ENSAE ParisTech
Mémoire d’Actuariat
Figure 4.1 – Taux de rachat selon l’ancienneté et selon l’âge
Encours et prime initiale
Au regard de la figure ci-dessous, l’encours et la prime initiale semblent déterminer la décision
de rachat des assurés. En effet, les contrats rachetés ont tendance à avoir un encours moins
élevé que ceux des contrats non rachetés. Nous pouvons penser que les encours moins élevés
correspondent à des assurés jeunes qui ont plus besoin de liquidité et ont ainsi tendance à plus
racheter leur contrat. Par ailleurs, en utilisant la prime initiale comme proxy de la richesse des
assurés, nous nous rendons compte que les plus riches ont moins tendance à se désaisir de leur
contrat que les moins riches car ayant moins besoin de liquidité. Au contraire, leur encours
étant élevé, ils préfèrent fructifier de plus en plus leur épargne. Ainsi, les gros contrats semblent
être sensibles à au rendement de leur épargne tandis que les plus petits contrats à une besoin
de liquidité.
Figure 4.2 – Box plot de l’encours et de la prime initiale selon la décision de rachat
2015-2016 52 ENSAE ParisTech
Mémoire d’Actuariat
Taux d’investissement d’UC - Type de produit - Période cotisation - statut marital
Nous avons vu plus haut que la majorité des assurés était plutôt averse au risque étant
donné que le recours à des produits de types UC est très souvent déterminé par un niveau
d’information fiancière. En fait, une forte détention d’UC par un assuré donne un signal selon
lequel il aurait une meilleure connaissance des marchès financiers. Au vu de la figure 4.3 ci-
dessous, nous constatons que les assurés ayant un fort taux d’UC sont ceux-là qui ont des forts
taux de rachat. En effet, ils seraient très sensibles à l’hypothèse de rendement et ainsi lorsque
l’environnement économique se dégrade, ils préfèreraient plutôt racheter leur contrat que d’avoir
recours aux arbitrages. Les taux de rachat en fonction du type de produit nous conforte sur la
nécessité de construire les lois de rachats par maille de produit car on observe bien des taux
différents (mais comparables) entre les différentes grandes lignes de produit. Même si la gamme
Allianz Itinéraire Epargne (AIE) regorge de moins de contrats que les autres produits, il n’en
demeure pas moins que le taux de rachat y est plus élevé.
Figure 4.3 – Taux de rachat en fonction de certaines variables
2015-2016 53 ENSAE ParisTech
Mémoire d’Actuariat
En ce qui concerne le statut matrimonial de l’assuré, nous constatons que les taux de
rachats sont plus importants chez les assurés n’étant pas en couple (en dehors des veufs) que
chez ceux en couple. En effet, les divorcés, les célibataires et pacsé/union libre présentent les
taux de rachat les plus élevés tandis que les mariés et les veufs rachètent moins. Par ailleurs, la
période de cotisation du contrat semble déterminer le rachat. Nous constatons que les personnes
détenant un contrat en cotisation périodique achèteraient plus que ceux ayant une périodicité
de cotisation unique à la souscription.
4.1.2 Ajustement spline : âge et ancienneté
Grâce à la méthode par splines, la courbe représentant le rachat en fonction de l’âge de
l’assuré a été ajustée par un spline linéaire à 10 noeuds (courbe en rouge). Comme l’illustre
le premier graphique (à gauche) sur la figure 4.4 ci-dessous. La probabilité de rachat semble
décroître avec l’âge comme nous l’avons vu plus haut même si nous observons quelques cassures
autour de 60 ans. En ce qui concerne l’ancienneté, nous avons ajusté un spline cubique à 9
noeuds et nous obtenons aussi des résultats identiques à ceux obtenus précédemment. Sur les
mêmes graphiques, nous avons représenté en bleu le résultat vraisemblablement inapproprié
qu’aurait fourni un ajustement linéaire. Ces graphiques nous illustrent bien la pertinence d’une
approche non-linéaire plutôt qu’une approche linéaire et mettent en avant un premier avantage
des methodes de machine learning que nous mettrons en oeuvre dans la suite du document.
Figure 4.4 – Ajustement spline : âge (à gauche) et ancienneté (à droite)
4.1.3 Effets croisés
L’objectif ici est de ressortir l’effet combiné ou interaction des variables explicatives sur la
décision de rachat. Après plusieurs croisements motivés par des explications intuitives, un cas
2015-2016 54 ENSAE ParisTech
Mémoire d’Actuariat
particulier a retenu notre attention : le cas de l’ancienneté du contrat et de l’âge de l’assuré.
Ainsi, en guise d’illutration, nous avons retenu l’âge et l’anciennete tout en n’excluant pas
d’autres possibilités d’interaction. Pour mettre en évidence cet effet croisé, nous avons utilisé
plusieurs méthodes.
LR LR avec Spline GAM
Figure 4.5 – Effet croisé (1)
Ces premiers graphiques ci-dessus illustrent les résultats en utilisant les méthodes LR, LR
avec Spline et GAM. Nous constatons que les résultats obtenus avec la LR avec spline (sémi-
paramétrique) et le GAM (non paramétrique) sont plus précis que ceux de la LR (paramétrique).
En effet, nous visualisons deux grandes zones à risque en terme de rachat. Ils mettent en exergue
les rachats précoces de moins de 2 ans d’ancienneté d’une part et les rachats pour motif fiscal
après 8 ans d’ancienneté. D’autre part, ils nous montrent que les rachats touchent plus la
population jeune qui rachète beaucoup plus précocement. Notons que ces rachats précoces
contradictoires avec l’hypothèse d’optimisation fiscale sont plutôt dûs à un commissionnement
avantageux du personnel commercial.
SVM Linéaire Forêt aléatoire Boosting
Figure 4.6 – Effet crisé (2)
2015-2016 55 ENSAE ParisTech
Mémoire d’Actuariat
Nous obtenons les mêmes résultats en utilisant d’autres méthodes de machine learning
même si le modèle SVM linéaire donne plus d’importance à l’âge en priviligiant les rachats
des personnes agées. Une fois de plus nous nous apercevons des faiblesses d’une approche
linéaire. Par ailleurs, nous nous rendons compte que les modèles d’agrégations (forêt aléatoire
et boosting) semblent bien plus précis car les zones à risque y sont bien plus spécifiées.
Ainsi, ces résultats illustrent bien que les méthodes de machine learning modélisent mieux
les effets croisés et sont bien plus précises que les modèles statistiques classiques. En effet,
l’approche non paramétrique permet de bien prendre en compte les interactions entre variables
et ainsi accroît vraisemblement le pouvoir prédictif.
4.2 Modélisation prédictive
Dans cette section, nous nous attardons sur la modélisation prédictive de la décision de
rachat. Nous allons mettre en oeuvre diverses techniques de prédiction à savoir la Logistic Re-
gression (LR), la LR avec Spline, le Generalized Additive Model (GAM), le CART, les Forêts
aléatoires et le Gradient Tree Boosting. Les quatre premiers modèles ont l’avantage de fournir
des résultats facilement interprétables mais les capacités prédictives sont généralement insatis-
faisantes tandis que les deux derniers qui sont des modèles d’agrégation sont reconnus pour
modéliser les phénomènes complexes et pour leur grande précision de prédiction au détriment
de leur côté « boîte noire ».
Pour cette phase de modélisation, nous avons divisé notre échantillon en deux : un échantillon
d’apprentissage (70%) pour la phase d’apprentissage et un échantillon test (30%) pour la phase
de test du modèle obtenu lors de l’apprentissage. Ces échantillons ont été obtenus par tirage
aléatoire simple sans remise en s’assurant qu’ils aient chacun la même structure de donnée
que celle de la base de donnée mère. Ainsi, notre échantillon d’apprentissage contient 381 248
contrats dont 72 457 contrats qui ont été rachetés, soit une proportion de rachat d’environ
19% comparable avec la proportion de la base de donnée globale. L’échantillon test contient
quant à lui 163 392 contrats dont 31 059 contrats rachetés, soit une proportion d’environ 19%
également.
4.2.1 Modèles généralisés
Dans la grande classe des modèles généralisés, nous avons implémenté la LR, puis nous
l’avons amélioré avec un lissage spline pour les variables ancienneté et âge, et enfin nous avons
mis en oeuvre un modèle GAM.
2015-2016 56 ENSAE ParisTech
Mémoire d’Actuariat
Logistic Regression (LR)
Populaire et traditionnellement utilisée en assurance en tant que cas particulier de la grande
famille des GLM, la LR a l’avantage de conjuguer des résultats explicites et une prévision
relativement précise. Nous désirons modéliser la décision de racheter ou pas ; donc notre variable
cible est binaire. Nous avons implémenté la LR sur le logiciel R grâce à la fonction glm ; la
fonction stepAIC de la librairie MASS nous a permis de sélectionner de manière adéquate les
variables les plus pertinentes pour ainsi obtenir le meilleur modèle dont les résultats ci-dessous.
Coefficient Ecart-type z-value Pr(>|z|)Constante 2.892e+00 4.595e-02 62.945 < 2e-16 ***Age -1.053e-02 3.807e-04 -27.658 < 2e-16 ***Anciennete -2.066e-01 1.444e-03 -143.022 < 2e-16 ***Encours -1.436e-05 2.717e-07 -52.859 < 2e-16 ***Prime Initiale -1.952e-08 2.333e-07 -0.084 0.9333Pct UC2.0% (ref.)Pct UC2.0-20% 2.398e-01 1.692e-02 14.173 < 2e-16 ***Pct UC2.20-40% -3.411e-01 1.385e-02 -24.630 < 2e-16 ***Pct UC3.40-60% -1.369e-01 1.701e-02 -8.048 8.41e-16 ***Pct UC4.60-100% 2.647e-01 1.879e-02 14.083 < 2e-16 ***Pct UC5.100% 5.395e-01 1.505e-02 35.849 < 2e-16 ***Féminin (ref.)Masculin 1.437e-01 9.238e-03 15.554 < 2e-16 ***Veuf (ref.)Marié -2.370e-01 1.892e-02 -12.528 < 2e-16 ***Célibataire -4.116e-01 2.244e-02 -18.341 < 2e-16 ***Pacsé/UL -3.843e-01 2.553e-02 -15.052 < 2e-16 ***Divorcé 5.363e-02 2.350e-02 2.282 0.0225 *Cotisation Périodique (ref.)Cotisation Unique 3.889e-01 1.147e-02 33.902 < 2e-16 ***Produit AIE (ref.)Produit Ideavie -1.477e+00 1.397e-02 -105.686 < 2e-16 ***Produit Tellus 7.327e-01 2.524e-02 29.028 < 2e-16 ***Réseau AFC (ref.)Reseau AG -1.437e+00 2.612e-02 -55.016 < 2e-16 ***Non Fourgous (ref.)Fourgous -1.266e+00 2.404e-02 -52.660 < 2e-16 ***Aucun rachat partiel (ref.)Au moins un rachat partiel 5.443e-01 1.058e-02 51.446 < 2e-16 ***Aucun versement libre (ref.)Au moins un versement libre -4.984e-01 1.203e-02 -41.416 < 2e-16 ***
Table 4.1 – Coefficients estimés de la LR
Ainsi, nous constatons que toutes les variables explicatives sélectionnées sont statistiquement
significatives et que le modèle est globalement significatif. Cela indique que ces variables in-
fluencent bien la décision de rachat des assurés. Rappelons que nous ne pouvons pas interpréter
directement les coefficients de la LR mais plutôt leurs signes. Toutefois, nous ne nous attardons
pas sur ces interprétations étant donné que ce qui nous importe c’est la prédiction.
2015-2016 57 ENSAE ParisTech
Mémoire d’Actuariat
LR avec Spline
Dans un souci d’amélioration des performances de la LR, nous avons ajouté une dimension
non-paramétrique pour certaines variables en incluant non pas directement la variable concernée
dans le modèle, mais plutôt la fonction spline estimée. Nous l’avons fait pour les variables
âge et ancienneté. Les coefficients des différentes composantes de la fonction spline sont tous
significatifs et nous confortent quant au choix des meilleures fonctions d’ajustement. En effet,
nous avons fait un léger gain d’AUC qui passe de 78,4% sur la LR à 79.4% avec la LR avec
spline. Nous aurions certainement un gain bien plus important si nous utilisons ce lissage spline
avec d’autres variables et pas uniquement l’âge et l’ancienneté.
GAM
La méthode GAM fait partie de la classe des modèles généralisés et permet de prendre en
compte des effets non linéaires. Les résultats de cette modélisation nous montrent quelques
peu les vertus de l’approche non paramétrique. En effet, nous obtenons un gain de prédiction
en utilisant GAM plutôt que la LR. L’AUC du modèle GAM sur l’échantillon d’apprentissage
s’établit à environ 80% contre 78.4% pour la LR.
4.2.2 CART
Dans la classe des arbres de décisions, nous avons implémenté l’algorithme CART et ce à
partir de la librairie rpart du logiciel R. Comme nous l’avons vu plus haut, le critère de division
de l’arbre est l’indice de gini et la construction de l’arbre repose sur un critère de pénalisation
(noté ici cp) qui complexifie de proche en proche l’arbre. Ainsi, après construction d’un premier
arbre, nous nous sommes attelés à l’élaguer pour obtenir un arbre plus performant (Pruned
tree), ce qui passe par la recherche du cp optimal.
Figure 4.7 – Elagage de l’arbre
2015-2016 58 ENSAE ParisTech
Mémoire d’Actuariat
Notons que plus l’indicateur cp est élevé, moins le sera le nombre de noeuds et donc de
segmentations de l’arbre. La figure à droite ci-dessous nous montre la décroissance de l’erreur
lorsque le cp baisse. Par ailleurs, la règle de Breiman nous suggère un seuil d’erreur inférieur à
0.7177399 (0.71482+0.0029199). Ce qui nous pousse à retenir un cp compris entre 0.00038565
et 0.00038661. Nous faisons ainsi le choix de retenir une valeur de cp égale à 0.0003857. Nous
obtenons ainsi l’arbre élagué ci-dessous :
Figure 4.8 – Arbre de décision élagué
Les variables sélectionnées dans la construction de cet arbre sont l’encours, l’ancienneté et
le type de produit. L’arbre nous donne au final 10 segments d’assurés dont trois segments à
risque en terme de comportement de rachat. La première division concerne la variable encours
et différencie les petits contrats (encours inférieur à environ 7 700 euros) des grands contrats
(encours supérieur à environ 7 700 euros). Ensuite, nous retrouvons l’ancienneté du contrat qui
met en évidence les rachats précoces et les rachats pour motifs fiscaux après 8 ans. Ces trois
segments à risque sont donc dans un premier temps les contrats de faible encours (inférieur à
environ 2 144 euros ) et d’ancienneté inférieure à 3.5 ans (rachat précoce dû à un commission-
2015-2016 59 ENSAE ParisTech
Mémoire d’Actuariat
nement avantageux), dans un deuxième temps, les contrats d’encours inférieurs à 7 725 euros et
d’ancienneté comprise entre 3.5 à 9.5 ans, concernant plus le produit AIE et dans un troisème
temps, les contrats d’encours supérieurs à 7 725 euros et d’ancienneté comprise entre 8.5 à 12
ans, concernant plus le produit AIE.
4.2.3 Agrégation d’arbre de décision
Etant donné que les arbres de décision sont très instables et ont de faibles capacités préditives
comme nous l’avons mentionné dans le chapitre précédent, afin d’améliorer son pouvoir prédictif,
nous avons eu recours aux modèles d’agrégations. L’objectif n’est plus de construire un seul
arbre mais plusieurs arbres et de les agréger par la suite. Ainsi, nous avons choisi d’implémenter
deux modèles d’agrégations : les forêts alétoires et le Gradient Tree Boosting.
Forêt aléatoire
En apprentissage statistique, la méthode des forêts aléatoires est l’une des plus utilisées,
car réalisant un bon compromis entre les méthodes les plus simples (GLM) et les algorithmes
d’apprentissage les plus sophistiqués. Nous l’avons ainsi mis en oeuvre sous le logiciel R en
utilisant la librairie RandomForest. La figure ci-dessous nous présente d’une part à gauche
l’importance des variables dans la modélisation de la décision de rachat et d’autre part le taux
d’erreur OOB en fonction du nombre d’abres utilisés.
Figure 4.9 – Erreur OOB en fonction du nombres d’arbres et importances des variables
Tout d’abord, constatons une décroissance de l’erreur en fonction du nombre d’arbres ce
qui paraît intuitif car en augmentant le nombre d’arbres, nous augmentons ainsi le dégré de
2015-2016 60 ENSAE ParisTech
Mémoire d’Actuariat
complexité du modèle et donc son pouvoir préditif. Cependant, il nous suggère de retenir
100 arbres pour notre modèle final car à partir de 100 arbres, l’erreur OOB ne varie plus
significativement et se stabilise autour de 0.10. Par ailleurs, il ressort que l’encours du contrat,
son ancienneté, la prime initiale versée (proxy pour capter le niveau de richesse de l’assuré) et
l’âge de l’assuré sont les variabes les plus importantes en termes de comportements de rachat.
A ce groupe de variables les plus pertinentes, nous pouvons ajouter le taux d’investissement
D’UC, le type de produit ainsi que le statut matrimonial. Nous remarquons que l’importance
des autres variables semble faible et reste comparable. C’est dire que ces variables influencent
très faiblement la décision de rachat des assurés. Nous citons ainsi par exemple le sexe de
l’assuré et la période de cotisation du contrat qui semblent très peu importants pour prédire le
rachat.
Gradient Tree Boosting
Le Gradient Boosting permet d’agréger des "faibles" classifieurs afin d’obtenir un "fort"
classifieur. Nous l’avons implémenté ici en raison de ses fortes capacités prédictives sous le
logiciel R en utilisant la librairie dismo avec la fonction d’estimation du modèle gbm.step.
Figure 4.10 – Erreur OOB en fonction du nombres de stumps et importances des variables
Au regard de la figure 4.10 ci-dessus (gauche) présentant la décroissance de l’erreur commise
en fonction du nombre de stumps, le choix de retenir 10 000 stumps nous semble être le meilleur
compromis entre temps de calcul et erreur faible ; cet erreur se stabilisant autour de 0.6. Ensuite,
en ce qui concerne l’importance des variables, nous retrouvons des résultats comparables avec
ceux obtenus avec les forêts aléatoires. Cependant, le boosting donne plus d’importance à
l’anciennete comme première variable la plus disciminante au détriment de l’encours qui passe
2015-2016 61 ENSAE ParisTech
Mémoire d’Actuariat
deuxième. Par ailleurs, il n’accorde pas une grande importance à l’âge de l’assuré contrairement
au modèle de forêts alétoires. Ainsi, au vu de ce modèle, les variables les plus déterminantes sont
tout d’abord l’ancienneté et l’encours du contrat, suivis par la prime initiale, le type de produit
et le taux d’investissement d’UC. Les deux modèles d’agrégations que nous avons implémentés
s’accordent sur le fait que le sexe de l’assuré influence très peu la décision de rachat des assurés.
Le modèle d’agrégation par boosting nous fournit comme la LR les effets marginaux des va-
riables explicatives. Nous nous sommes ainsi intéressés à ces effets marginaux en nous focalisant
sur les variables les plus importantes (cf figure 4.11 ci-dessous).
Figure 4.11 – Courbes des effets marginaux des variables
En ce qui concerne l’ancienneté, nous retrouvons bien encore les rachats précoces. De manière
générale, l’effet marginal de l’ancienneté sur la décision de rachat baisse lorsque l’ancienneté
augmente même si nous retrouvons bien le rachat pour motif fiscal. C’est dire que lorsqu’un
assuré a déjà entretenu une relation de plus de 8 ans avec son assureur et qu’il ne detenait pas son
contrat juste pour une optimisation fiscale, alors il a tendance à moins racheter que les autres.
2015-2016 62 ENSAE ParisTech
Mémoire d’Actuariat
Une explication serait que lorsque les assurés atteignent un certain âge, plutôt que de racheter
leur contrat, il préfère le léguer à leurs proches en cas de décès. Par ailleurs, nous constatons
une décroissance de l’effet marginal de l’encours et de la prime initiale du contrat pour les
petits contrats, puis une croissance légère pour les contrats moyens et enfin une stabilisation
pour les grands contrats. Ainsi, les grands contrats seraient moins sensibles au rachat que les
petits contrats. Enfin, la croissance de l’effet marginal du taux d’investissement d’UC pour les
contrats ayant un taux d’UC supérieur à 40% nous confirme bien que les assurés ayant une
forte appétence pour les marchés financiers ont tendance à beaucoup plus racheter.
4.3 Benchmark des modèles
Nous différents modèles prédictifs étant mis en oeuvre, nous nous attelons dans cette section
à évaluer leur performance en terme de pouvoir prédictif et d’en choisir le meilleur modèle qui
sera utilisé pour la prédiction de la décision de rachat des assurés. Pour ce faire, nous avons
retenu deux principaux indicateurs de performance : la courbe ROC (avec l’aire en dessous
de cette courbe : AUC) et la courbe lift. Ainsi, la figure 4.12 ci-dessous nous présente une
superposition des courbes ROC et Lift de nos différents modèles sur l’échantillon test qui n’a
pas participé à la phase d’apprentissage.
Figure 4.12 – Courbe ROC (à gauche) et courbe lift (à droite)
En ce qui concerne les courbes ROC, nous constatons sans grande surprise que le modèle par
arbre de décision est le pire modèle en terme de prédiction car sa courbe est la plus proche de la
première bissectrice. Le modèle logistique avec spline améliore légèrement le pouvoir prédictif
du modèle logistique simple et le modèle GAM un peu plus encore. Les modèles d’agrégations
2015-2016 63 ENSAE ParisTech
Mémoire d’Actuariat
s’avèrent être les meilleurs modèles en terme de prédiction. Les courbes du modèle de forêt
aléatoire et du Gradient Tree boosting sont presques identiques. Cependant, au regard de la
courbe Lift, le pire modèle serait plutôt le modèle GAM, suivi par celui d’arbre de décision.
Les modèles d’agrégations apparaîssent toujours comme les meilleurs avec des courbes toujours
presque identiques.
A ces courbes s’ajoutent des indicateurs de performance plus chiffrables à savoir l’AUC et
le Lift à 10%. Tout d’abord, nous remarquons qu’en ce qui concerne l’AUC, nous obtenons
des résultats comparables sur l’échantillon d’apprentissage et l’échantillon test. En effet, la
prédiction faite à partir de l’échantillon test reflète celle obtenue lors de la phase d’apprentissage.
Ainsi, nous n’avons pas de risque de sur-apprentissage, ni de sous-apprentissage.
Modèle LR LR Spline GAM CART CART Elagué RF BoostingAUC Train 78.3% 79.4% 80.0% 76.1% 81.2% 87.1% 87.7%AUC Test 78.4% 79.3% 79.6% 74.9% 81.0% 85.9% 86.5%Lift à 10% 3.23 3.38 1.628 0.20 0.24 4.36 4.247
Table 4.2 – Comparaison performance des différents modèles
Ces résultats nous confortent quant aux fortes capacités prédictives des modèles d’agréga-
tions. Nous obtenons un très bon niveau d’AUC s’établissant à environ 87.1% et 87.6% pour
le modèle des forêts alétoires et de boosting respectivement. Par ailleurs, nous constatons une
augmentation du pouvoir prédictif du modèle d’arbre de décision après élagage car l’AUC passe
de 76.1% à 81.2% du modèle d’arbre sans élagation au modèle d’arbre élagué qui dépasse même
le pouvoir prédictif du modèle GAM. En ce qui concerne le lift, il est très utilisé en marketing
pour optimiser le clibage des campagnes marketing et est aussi utilisé pour apprécier les per-
formances d’un modèle de prédiction. En effet, un lift à x% étant égale à y% signifierait que
si l’on cible x% des assurés, nous détecterions bien y% de ceux qui vont réellement racheter
leur contrat. Nous constatons ainsi que même au regard du lift à 10%, ce sont les modèles
d’agrégations qui sont les plus prédictifs. En fait, en utilisant un modèle de boosting d’arbre
de décision, si l’on cible 10% des assurés prédisposés à racheter leur contrat au regard de leur
probabilité de rachat, nous espérons ne pas nous tromper sur 42,4% d’entre eux qui racheterons
effectivement.
En somme, pour prédire la décision de rachat, nous priviligeons les modèles d’agrégations
grâce à leur forte capacité prédictive. Cependant, bien que le modèle forêt aléatoire utilise moins
d’arbres que le boosting, il reste pour autant plus chronophage que celui du boosting. Ainsi,
nous retenons le modèle Gradient boosting comme meilleur modèle optimisant temps de calcul
2015-2016 64 ENSAE ParisTech
Mémoire d’Actuariat
et pouvoir prédictif. Ce modèle nous donne ainsi une estimation des probabilités de rachat pour
chaque assuré. La figure ci-dessous nous présente les fonctions de répartition des probabilités
de rachat de la population des assurés qui rachètent d’une part, et de la population des assurés
qui ne sont pas pas prédisposés à racheter et nous constatons bien une bonne discrimination
des deux populations.
Figure 4.13 – Fonctions de répartition des probabilités de rachat
Ainsi, nous proposons une estimation des taux de rachat structurel en montant à partir
des probabilités de rachat= P(Yi = 1/Xi) que l’on peut ramener à l’ancienneté, à l’encours
et à la maille produit ou tout autre segment afin de les rendre opérationnels dans les modèles
de valorisation. Nous définissons la variable aléatoire RT désignant la perte individuelle en
montant.
RTi =
{PMi si rachat total avec probabilité pi0 sinon avec probabilité 1− pi
Ainsi, pour un contrat i donné, l’espérance du montant racheté est de E(RTi) = pi ∗PMi +
(1−pi)∗0 = pi∗PMi. En notant RT =∑
iRTi le montant global totalement racheté, l’espérance
du montant global racheté est alors de E(RT ) =∑
iRTi =∑
i E(RTi) =∑
i pi ∗ PMi. Ainsi,
nous proposons d’estimer le taux de rachat global appliqué sur le contrats en cours de l’année
d’étude comme suit :
TxRacTot =E(RT )∑i PMi
=
∑i pi ∗ PMi∑i PMi
2015-2016 65 ENSAE ParisTech
Chapitre 5
Vers des comportements dynamiques de
rachat
Le chapitre précédent nous a permis de prédire les comportements de rachat en fonction des
facteurs structurels. Dans ce chapitre, nous nous proposons d’aller vers des comportements de
rachats dynamiques en ajoutant aux facteurs structurels, les facteurs économiques et financiers
pour prédire les comportements de rachat des assurés. Hormis la prise en compte des facteurs
économiques qui permettent de mieux prédire les comportements en captant les effets croisés
structurels et conjoncturels, cette analyse dynamique permet aussi d’éviter les problèmes liés à
la délimitation de la période d’étude pour analyser le phénomène.
Afin de mener à bien cette analyse dynamique, nous postulons une hypothèse très forte
d’indépendance temporelle entre les décisions des assurés. De plus, nous avons négliger dans
cette étude le décès des assurés. Pour alléger la modélisation, nous avons fait le choix de
segmenter la base de données par grande ligne de produits ceci étant donné que le chapitre
précédent nous a montré que les comportements de rachat étaient différents d’un produit à
l’autre. La base de données que nous avons utilisées porte sur la maille de produit AIE qui
représente l’un des produits phares de l’entreprise. Pour la construction de la base d’analyse,
nous partons de la base de donnée utilisée pour les rachats structurels. Puis nous dupliquons
chaque assuré chaque mois où son contrat est en cours en portefeuille. Enfin nous ajoutons
les variables économiques (taux de croissance, taux d’inflation, taux de chômage, OAT court
et long terme, Taux de Participation aux Bénéfices (PB) servi, l’indice de l’immobilier, le
Taux moyen d’emprunts d’Etats (TME), indice de CAC40 et l’indice de situation financière).
Nous obtenons ainsi une base de données d’environ 4 millions de lignes et une quarantaine de
variables. Nous ajoutons aussi l’année d’observation (pour capter l’effet temporel) et le mois
d’observation (pour capter l’effet de saisonnalité) comme covariables.
66
Mémoire d’Actuariat
Notre base de données devenant de plus en plus volumineuse, afin d’optimiser les temps de
calcul nous avons fait recours lors de la phase d’apprentissage au language Python via sa pla-
teforme Anaconda. Nous avons ainsi utilisé le module scikit-learn de Python pour implémenter
les méthodes de machine learning.
5.1 Analyse du contexte économique
Dans cette section, nous nous proposons de faire une analyse de la situation économique
de la France au cours de notre période d’étude étant donné que l’activité épargne est très
corrélée avec le marché. Dans un premier temps nous mettons en avant une détérioration de
l’environnement économique et financier, et dans un second temps nous abordons la dynamique
des taux servis aux assurés.
5.1.1 Une détérioration du contexte économique et financier
La situation économique de la France n’a cessé de se dégrader depuis 2011. Après la crise
économique mondiale de 2008, nous avions assisté à une légère reprise de l’activité économique.
Cependant, les indicateurs économiques et financiers peinent encore à être véritablement rede-
venir verts en France. En effet, le taux croissance n’a pas franchi la barre des 2% depuis 2011.
Par ailleurs, la figure ci-dessous nous présente l’évolution de quelques indicateurs économiques
et financiers pouvant influencer la décision des assurés detenant un contrat d’assurance vie, ce
étant donnée que les contrats d’épargne sont très corrélés avec le marché.
Tout d’abord, malgré les promesses du gouvernement, l’inversion de la courbe du chômage
n’est pas encore une réalité. En effet, le taux de chômage amorce une croissance très prononcée
en 2011 et 2013, avant d’entamer une stabilisation à partir de 2014. L’analyse du taux de
chômage nous intéresse dans la mesure où nous savons que pour épargner il faut avoir des revenus
et que si un assuré perd son emploi, alors cela pourrait le pousser à racheter son contrat pour
satisfaire l’hypothèse de fonds d’urgence. Par ailleurs, l’un des points déterminants de la décision
des assurés est la perception qu’ils font de leur situation financière personnelle. Nous pourrions
penser que lorsque les agents économiques pensent que cette dernière est médiocre, cela les
pousse à racheter leur contrat. Ainsi, au regard de l’évolution de l’indice de situation financière
construit par l’INSEE nous constatons que de 2011 à 2014, cet indice est relativement stable
avant d’amorcer une croisance soutenue. C’est dire qu’à partir de 2014, les ménages français
estiment que leur situation financière s’est améliorée. En faisant le parallèle avec l’évolution du
chômage, cette amélioration pourrait être due à la stabilisation de la croissance du chômage.
2015-2016 67 ENSAE ParisTech
Mémoire d’Actuariat
Figure 5.1 – Evolutions de quelques indicateurs fianciers et économiques
Cette détérioration se manifeste aussi par l’évolution du taux d’intérêt court terme à 1 an où
nous observons une chute brutale du milieu de l’année 2011 à 2013, puis se stabilise entre 2013
et 2014 avant d’entamer encore une décroissance. Cependant, l’indice des prix de l’immobilier
ne cesse de chuter depuis 2011. Notons qu’une grande majorité des assurés détient des contrats
d’épargne pour des investissements de grande envergure dont l’immobilier. Ainsi, si les prix de
l’immobilier chute, cela pourrait pousser certains assurés à racheter leur contrat pour bénéficier
de cette baisse des prix afin de faire une bonne affaire.
5.1.2 Une baisse du taux servi
Dans la littérature, les rachats dynamiques sont modélisés en utilisant la différence de taux
servi et de taux benchmark ou de marché comme nous l’avons vu au chapitre 1. La figure
ci-dessous nous présente une évolution des taux moyens annuels de PB servis sur les contrats
d’épargne de la maille d’étude.
2015-2016 68 ENSAE ParisTech
Mémoire d’Actuariat
Figure 5.2 – Evolution du taux de PB servi et de l’OAT 10 ans
Depuis 2011, nous observons une diminution des taux servis et cette tendance baissière est
généralisée à l’ensemble du marché. Les taux de participation aux bénéfices s’élévaient à environ
3.4% en 2011. Depuis lors, ils n’ont cessé de décroitre jusqu’à atteindre la barre de 2.7% en
2015. Par ailleurs, nous observons une baisse des taux longs termes d’obligations souveraines
françaises à 10 ans qui atteignent des niveaux historiquement bas à hauteur d’environ 0.9% en
Décembre 2015 alors qu’ils s’établissaient à environ 3.4% en Janvier 2011. Ainsi, cette baisse a
pesé non seulement sur le rendement des actifs des assureurs constitués en très grande majorité
d’obligations (les actifs des compagnies d’assurances sont constitués environ de 80% en obliga-
tions), mais aussi sur les rendements futurs. Ce qui justifie ainsi la baisse des taux servis aux
assurés même si l’on constate que cette baisse du taux servi aurait été plus prononcée au regard
de celle des taux d’obligations. Mais, pour rester compétitifs afin de ne pas perdre les clients,
les assureurs préfèrent puiser dans leurs réserves pour contineur à servir des taux relativement
élevés même si la Banque de France leur somme de réduire d’avantage leurs taux servis.
5.2 Comportements de rachats suivant les facteurs dyna-
miques
Dans cette section, nous nous intéressons à l’analyse des décisions de rachats totaux en ne
prennant en compte que les variables économiques et financières. Pour ce faire, nous avons fait
le choix d’utiliser le modèle d’arbre de décision grâce à sa facilité d’interprétation ainsi qu’aux
forêts aléatoires pour détecter les variables dynamiques les plus importantes qui déterminent
la décision de rachat d’un assuré.
2015-2016 69 ENSAE ParisTech
Mémoire d’Actuariat
5.2.1 Effet saisonnier des rachats
Comme nous l’avons mentionné précédemment dans ce mémoire, la décision de rachat se
base sur deux principales hypothèses : le besoin immédiat de liquidité et la baisse de rendement
du contrat. Etant donné que le besoin d’argent peut être plus prononçé à certaines périodes de
l’année (paiement des impôts, rentrée scolaire, fêtes de fin d’année, etc.) et que la participation
aux bénéfices qui détermine le rendement du contrat est souvent communiquée à un mois précis
de l’année, nous soupçonnons ainsi une certaine saisonnalité dans les décisions de rachat. L’arbre
de décision ci-dessous semble bien nous confirmer cet effet saisionnier des rachats. En effet, il
apparaît que la variable la plus discriminante dans l’ensemble des variables dynamiques retenues
est le mois. Nous constatons ainsi que les rachats sont plus importants en début d’année (les
mois de Janvier, Février, Mars).
Figure 5.3 – Arbre de décision - Effet saisonnier
5.2.2 Les rachats déterminés par les variables économiques
Dans ce paragraphe, nous excluons l’effet saisonnier et nous nous rendons compte d’une
dominance des variables économiques pour expliquer la décision de rachat. En effet, le taux de
croissance de l’économie qui donne une vue d’ensemble global de la santé économique d’un pays
semble être la plus disciminante, suivi par le taux d’inflation et la variation de l’indice des prix
de l’immobilier. Nous retrouvons aussi sur cet arbre le taux d’intérêt court terme. Ainsi, un taux
de croissance très faible couplé avec un taux d’inflation également très faible inciteraient les
assurés à racheter leur contrat car il craigne qu’une dégradation de l’environnement économique
affecterait le rendement de leur contrat ou alors il souhaiterait acheter d’autres supports devenus
moins chèrs (les taux d’immobiliers qui chutent). D’un autre côté, une forte variation de l’indice
immobilier à la baisse couplée à un taux d’intérêt court terme faible inciteraient aussi les assurés
à racheter leur contrat.
2015-2016 70 ENSAE ParisTech
Mémoire d’Actuariat
Figure 5.4 – Arbre de décision - variables dynamiques
Afin d’être plus précis et exhaustif, nous avons mis en oeuvre un modèle de forêt aléatoire
pour détecter les variables dynamiques les importantes déterminants la décision de rachat.
Tout d’abord, la figue 5.5 ci-dessous de gauche nous fourni les l’erreur OOB sur l’échantillon
d’apprentissage et l’échantillon test en fonction du nombre d’arbres retenus. Nous constatons
que les deux courbes ont la même allure et que celle de l’échantillon test est au-dessus de
l’echantillon d’apprentissage car c’est ce dernier qui a participé à la construction du modèle.
Par ailleurs, cette erreur se stabilise à partir de 50 arbres et nous retenons donc ce nombre
d’arbre pour évaluer l’importance des variables.
Figure 5.5 – Erreur OOB (à gauche) et importance des variables (à droite)
2015-2016 71 ENSAE ParisTech
Mémoire d’Actuariat
Par ailleurs, le graphique de gauche nous donne les variables dynamiques les plus impor-
tantes qui déterminent la décision de rachat. Nous avons taux d’abord le mois suivi du taux de
croissance qui semblent être les plus importantes. Ensuite, nous avons le TME, la variation de
l’indice des prix de l’immobilier, le taux d’intérêt long terme, l’indice de l’immobilier, le taux
de chômage, le taux d’inflation, la variation de l’indice du CAC 40 et enfin l’indice de situation
financière. Le taux de PB et la variable année arrivent en dernière position. Ce dernier résultat
nous laissent quelque peu perplexe étant donné que le taux servi est considéré comme l’un
des drivers des rachats dynamiques. Alors, nous avons creusé davantage ce résultat et nous
avons ainsi relancé le modèle en excluant l’effet saisonnier qui est typiquement lié à la PB et
en incluant plûtot le différentiel entre le taux servi et le taux benchmark (nous avons retenu ici
comme taux benchmark le TME).
Figure 5.6 – Importance des variables dynamiques (2)
Ainsi, il ressort de la figure ci-dessous que la variable dynamique la plus importante pour
prédire les comportements de rachats est toujours le taux de croissance suivi du différentiel
entre le taux servi et le taux benchmark (variable utilisée actuellement pour construire les lois
de rachat dynamique).Par ailleurs, notons l’importance de la variation de l’indice des prix de
l’immobilier car très souvent les assurés rachètent leur contrat pour effectuer des achats de
grandes envergures ; très souvent les biens immobiliers.
5.3 Modélisation prédictive des comportements dynamiques
Dans cette section, nous nous attelons à une modélisation plus complète des comportements
de rachats en prenant à la fois les facteurs structurels et les facteurs conjoncturels. Ainsi, cette
démarche nous permettra de prendre en compte les effets croisés structurels et conjoncturels.
2015-2016 72 ENSAE ParisTech
Mémoire d’Actuariat
En guise d’illustration, les jeunes ne seraient pas aussi sensibles aux variations économiques
et financières ou du moins pas de la même manière que les personnes agées. Par ailleurs, les
assurés ayant un fort taux d’investissement à l’UC qui ont ainsi une forte appétence pour les
marchés financiers auraient tendance à racheter leur contrat plutôt que d’arbitrer vers le fonds
euros, en cas de baisse ou de moins value sur leur contrat.
La base de données globale comporte ainsi environ 4 992 458 lignes et une trentaine de va-
riables. Nous n’avons retenu ici que les variables les plus importantes ressortis de nous analyses
précédentes. Nous avons ainsi divisé notre base en deux échantillons : un échantillon d’appren-
tissage (70%) et un échantillon test (30%). L’échantillon d’apprentissage contient ainsi environ
3 328 305 lignes et l’échantillon test 1 664 152 lignes. Par ailleurs, nous avons pu nous apper-
cevoir des fortes capacités prédictives des modèles d’agrégations dans le chapitre 4. Ainsi, nous
proposons ici d’implémenter le modèle d’arbre de décision ainsi que les modèles d’agrégations
de ce dernier : les forêts aléatoires et le Gradient Tree Boosting. Comme nous l’avons mentionné
plus haut, nous utiliserons le module scikit-learn du language Python.
5.3.1 Arbre de décision : CART
Nous implémentons tout d’arbord le modèle d’arbre de décision en utilisant la fonction
DecisionTreeClassifier du module scikit-learn. Dans un premier temps, nous nous proposons de
déterminer la profondeur optimal (max depth) de l’arbre. Pour ce faire, nous faisons varier cette
profondeur de 1 à 15 et nous regardons l’évolution du MSE sur l’échantillon d’apprentissage et
l’échantillon test. La figure 5.6 ci-dessous nous montre ainsi cette évolution.
Figure 5.7 – MSE en fonction de la profondeur de l’arbre
2015-2016 73 ENSAE ParisTech
Mémoire d’Actuariat
Nous constatons que lorsque la profondeur maximale est entre 1 et 6, les MSE sur échantillon
d’apprentissage et échantillon test sont presque identiques, ce qui est ceux à quoi nous nous
attendons. Mais à partir d’une profondeur de 7, les deux courbes s’écartent progressivement : le
MSE sur échantillon d’apprentissage tend à s’annuler rapidement alors que celui sur échantillon
test tend à augmenter davantage ; nous serions ainsi dans une situation de sur-apprentissage.
Par conséquent, nous retenons donc une profondeur maximale de 6 pour construire notre arbre
final. Toutefois, pour obtenir un arbre lisible, nous avons décidé d’illustrer l’arbre avec une
prodondeur de 4. La figure 5.7 ci-dessous nous illustre ainsi l’arbre obtenu.
Ainsi, nous retrouvons encore notre effet saisonnier car le mois semble être la variable la plus
discriminante pour prédire les décisions de rachat. Ensuite vient l’encours, le taux d’investis-
sement d’UC, la variation de l’indice des prix de l’immobilier, le taux d’inflation et le taux
d’intérêt long terme. En décrivant par exemple la première branche de l’arbre, nous consta-
tons que : un encours faible, les premier mois de l’année (Janvier, Février, Mars) et un taux
d’inflation faible sont des indicateurs de rachat total.
2015-2016 74 ENSAE ParisTech
Mémoire d’Actuariat
Fig
ure5.8–arbrede
décision
finale-variab
lesstructurelleset
dyna
miques
2015-2016 75 ENSAE ParisTech
Mémoire d’Actuariat
5.3.2 Forêt aléatoire
A la suite de la construction de l’arbre de décision, nous avons implémenté un modèle
d’agrégation d’arbre : les forêts aléatoires. La figure 5.8 ci-dessous nous présente les résultats
obtenus : à gauche nous avons l’erreur OOB en fonction du nombre d’arbre et à droite nous
avons l’importance des variables. Nous retrouvons bien une décroissance de l’erreur en fonction
du nombre d’arbres, ce qui nous paraît intuitif car en augmentant le nombre d’arbres, nous
augmentons ainsi le dégré de complexité du modèle et donc son pouvoir préditif. Les courbes
sur l’échantillon d’apprentissage et test ont la même allure et sans surprise celle sur l’échantillon
test est au-dessus. Ce graphique nous suggère de retenir 50 arbres pour construire le modèle
car l’erreur OOB ne varie plus considérablement et se stabilise autour de 0.3.
Figure 5.9 – Erreur OOB (à gauche) et importance des variables (à droite)
Il en ressort de la figure à gauche que la variable la plus importante pour expliquer la
décision de rachat est l’encours du contrat, puis la prime initiale, l’âge de l’assuré, le taux
d’investissement d’UC, le taux de croissance et l’ancienneté. Ensuite, nous avons un second
groupe où nous retrouvons la variation la variation de l’indice des prix de l’immobilier, le taux
d’intérêt court terme, le différentiel entre le taux de PB servi et le taux benchmark, et le taux
d’intérêt long terme. Dans un dernier groupe, nous avons le taux d’inflation, le taux de chômage,
l’indice de situation financière et la variation de l’indice du CAC 40. Nous nous attendions à
une plus grande importance de l’ancienneté comme nous l’avons remarqué dans le chapitre
précédent. Cependant, les effets croisés structurels et conjoncturels induits sont certainement
une explication à ce résultat qui peut paraître contrintuitif.
2015-2016 76 ENSAE ParisTech
Mémoire d’Actuariat
5.3.3 Gradient Tree Boosting
Après l’implémentation des forêts aléatoires, nous mettons en oeuvre un deuxième modèle
d’agrégation : le boosting d’arbre de décision. Les résultats obtenus sont présentés sur la figure
5.9 ci-dessous : à gauche nous avons l’erreur OOB en fonction du nombre d’arbre et à droite
nous avons l’importance des variables. Nous constatons sur le graphique de gauche une décrois-
sance de la déviance en fonction du nombre d’itérations du boosting. Par ailleurs, à partir de
la 12000me itérations nous constatons que le déviance ne varie plus considérablement et est
relativement stable. Ainsi, nous faisons le choix de retenir 12 000 itérations pour implémenter
notre modèle de boosting final.
Figure 5.10 – Erreur OOB (à gauche) et importance des variables (à droite)
La figure de droite nous donnent l’importance des variables les plus discriminante. Il en
ressort que l’encours et la prime initiale sont les variables les plus importantes pour prédire les
comportements de rachat des assurés. Ensuite, vient le taux d’investissement d’UC, l’ancien-
neté du contrat, le taux de croissance et l’âge de l’assuré. Puis, nous retrouvons les variables
dynamiques : la différence entre le taux de PB servi et le taux benchmark, le taux d’inté-
rêt court et long terme, la variation de l’indice des prix de l’immobilier, le taux d’inflation ,
la variation de l’indice du CAC 40 et l’indice de situation financière. Ainsi, nous retrouvons
quelques différences avec les résultats obtenus avec les forêts aléatoires mais globalement, ces
résultats convergent et nous confortent sur le fait que ce sont davantage les facteurs structurels
qui déterminent la décision de rachat total des assurés.
2015-2016 77 ENSAE ParisTech
Mémoire d’Actuariat
5.3.4 Benchmark des modèles
Dans ce chapitre, nous nous sommes proposés d’aller vers des comportements dynamiques et
nous avons décidé d’implementer le modèle d’arbre de décision ainsi que les modèles d’agrégation
de ce dernier (forêt aléatoire et boosting). Nous nous attelons dans cette section à évaluer les
performances de ces trois modèles retenus en terme de pouvoir prédictif et d’en choisir le
meilleur modèle qui sera utilisé pour la prédiction de la décision de rachat des assurés. Pour ce
faire, nous avons retenu comme critère de performance la courbe ROC (avec l’aire en dessous de
cette courbe : AUC) tout en gardant à l’esprit qu’il existe bien d’autres critères de performance.
Ainsi, la figure 5.9 ci-dessous nous présente une superposition des courbes ROC de nos différents
modèles sur l’échantillon test qui n’a pas participé à la phase d’apprentissage.
Figure 5.11 – Courbes ROC des différents modèles
Ainsi, au regard de ces courbes ROC, le modèle de boosting s’avère être le meilleur modèle
car sa courbe étant au-dessus des autres. Puis nous retrouvons le modèle de forêt aléatoire et
enfin celui de l’arbre de décision. Ces résultats nous confortent sur le fait que les modèles d’agré-
gations transforme bien un mauvais classifieur en bon classifieur, en améliorant les capacités
prédictives du modèle de base. Par ailleurs, l’AUC sur l’échantillon test nous confortent bien
sur l’évaluation de ces modèles et le choix du meilleur modèle : modèle de boosting (92.8%),
modèle de forêt aléatoire (90.1%) et modèle d’arbre de décision (88.4%). En outre, nous consta-
tons qu’en rajoutant les variables dynamiques aux variables structurelles du chapitre précédent,
nous avons un gain d’AUC et donc de pouvoir prédictif. En effet, le meilleur modèle avec juste
les variables structurelles nous donnait un AUC de l’ordre de 87% et en ajoutant les variables
dynamiques, nous obtenons un AUC de l’ordre de 92%.
2015-2016 78 ENSAE ParisTech
Conclusion
Au début de ce travail, nous nous sommes fixés comme objectif de prédire les comportements
de rachat des assurés détennant des contrats d’épargne individuelle. L’approche probabiliste a
été priviligié en faisant recours aux techniques de machine learning. Ainsi, après des analyses
descriptives et exploratoires, nous avons implémenté diverses techniques de prédiction à savoir :
la régression logistique, la régression logistique, le modèle GAM l’arbre de décision et s modèles
d’agrégations d’arbres de décision (les forêts aléatoires et le boosting), que nous avons évalué
par la suite afin d’en choisir le meilleur modèle.
Dans un premier temps, nous nous sommes intéressés à la prédiction des comportements de
rachat structurel en prennant en compte comme variables explicatives les facteurs structurels.
Les modèles d’agrégations (boosting et forêt aléatoire) s’avèrent être les meilleurs modèles en
terme de prédiction. En effet, nous obtenons des AUC de l’ordre de 87% sur l’échantillon test
démontrant une très bonne qualité de prédiction des modèles. Le modèle de forêt aléatoire
étant plus chronophage que celui du boosting, nous avons retenu ce dernier comme meilleur
modèle qui nous a permi d’obtenir les probabilités individuelles de rachat. Par ailleurs, il en
ressort que les variables les plus importantes qui détermineraient le rachat sont l’ancienneté,
l’encours, la prime initiale, le type de produit et le taux d’investissement d’UC. Le sexe de
l’assuré n’influence pas vraiment la décision de rachat total des assurés.
Dans un second temps, nous nous sommes tourné vers des comportements dynamiques de
rachat en ajoutant aux facteurs structurels, les facteurs économiques et financiers. Ainsi, nous
avons priviligié les modèles d’agrégations d’arbre de décision vu leur forte capacité prédictive.
Le modèle de boosting s’avère être une fois de plus le meilleur modèle avec un AUC d’environ
92.8% jugeant d’une très bonne qualité prédictive. Par ailleurs, nous constatons que ce sont
davantage les variables structurelles qui expliquent la décision de rachat sur notre prériode
d’étude que les variables dynamiques. Nous retrouvons donc deux grands groupes de variables
importantes pour expliquer la décision de rachat : d’une part les variables structurelles à savoir
l’encours, la prime initiale, l’âge de l’assuré, le taux d’investissement d’UC et l’ancienneté, et
79
Mémoire d’Actuariat
d’autre part, le taux de croissance, le différentiel entre le taux de PB servi et le taux benchmark,
le taux d’intérêt court et long terme, la variation de et l’indice des prix de l’immobilier.
Comme tout travail scientifique, cette étude ne saurait être parfaite et présente ainsi quelques
limites. L’une des principales concerne la non prise en compte de la censure de nos données
car nous avons négligé dans notre étude l’effet des décès. En outre, notre étude aurait été
complète si nous avions traité les deux types de rachat (total et partiel). En perspective, nous
proposons ainsi d’étendre cette étude au cas des rachats partiels car les comportements de
rachat total et de rachat partiel ne sauraientt être identiques. Ensuite, nous pouvons aussi cité
la non prise en compte de certaines variables explicatives susceptibles de déterminer la décision
de rachat. Nous pensons par exemple au niveau d’éducation ou encore à la catégorie socio-
professionnelle de l’assuré qui ont été exclu vu le très haut taux de données manquantes et
incohérentes. Enfin, compte tenu des outils informatiques assez peu performants, nous n’avons
pas pu implémenté les modèles de prédiction plus complexes (réseau de neurone, SVM, etc...)
qui sont très chronophages et qui auraient pu nous donner des prédictions encore plus meilleurs.
2015-2016 80 ENSAE ParisTech
Bibliographie
[1] Andreatta G. and Corradin S. (2003), "Fair value of life liabilities with embedded options :An application to a portfolio of Italian insurance policies", Working Paper, Astin Collo-quium Berlin
[2] Bacinello A. R., (2005), "Endogenous model of surrender conditions in equity-linked lifeinsurance", Insurance : Mathematics and Economics 37(2), pp. 270–296.
[3] Bacinello A. R., 2003a. Fair valuation of a guaranteed life insurance participating contractembedding a surrender option. Journal of Risk and Insurance 70(3), pp. 461–487.
[4] Besse P. et Laurent B. (2014), "Apprentissage statistique : modélisation, prévision et datamining ", Institut de Mathématiques de Toulouse
[5] Breiman L. (2001), "Random forests", Machine Learning (45), pp. 5-32
[6] Breiman L. et al. (1984), "Classication and Regression Trees", Chapman and Hall
[7] Breiman L. (1994), "Bagging Predictors", Technical Report No. 421, University of California
[8] Biernat E. et Lutz M. (2015), "Data Science : fondamentaux et études de cas", EditionsEyrolles, 296 p.
[9] Black F. and Scholes M. (1973), "The Pricing of Options and Corporate Liabilities", TheJournal of Political Economy, Vol. 81, N◦3, pp. 637-654
[10] CEIOPS (2011), "EIOPA Report on the fifth Quantitative Impact Study (QIS5) for Sol-vency II"
[1] Cerchiara R. R. et al (2009), "Generalized Linear Models in Life Insurance : Decrementsand Risk factor analysis under Solvency II", Working Paper, AFIR Colloquium Rome
[11] Cheung K. C. et Yang H. (2005), "Optimal stopping behavior of equity linked invest-ment products with regime switching", Insurance : Mathematics and Economics 37(3), pp.599–614
[12] Costabile M. et al (2008), "A binomial model for valuing equity-linked policies embeddingsurrender options", Insurance : Mathematics and Economics 42 (2008), pp. 873–886
81
Mémoire d’Actuariat
[13] Cox J.C. et al. (1979), "Option pricing : A simplified approach", Journal of FinancialEconomics 7, pp. 229–263.
[14] David G. (2007), "Analyse économétrique de l’option de rachat dans les produitsd’épargne", CEA, Mémoire d’Actuariat - AXA France
[15] Eling M. et Kiesenbauer D.(2011), "What policy features determine life insurance lapse :An analysis of the German market", Journal of Risk and Insurance, forthcoming.
[16] Eling M. et Kochanski M.(2012) "Research on lapse in life insurance : what has been doneand what needs to be done ?", Working papers on risk management and insurance N◦ 126
[17] Engle R. F. and Granger C. W. J (1987), "Co-Integration and Error Correction : Represen-tation, Estimation, and Testing" , Econometrica, Vol. 55, No. 2. (Mar., 1987), pp. 251-276
[18] Freidman J. et al. (2008), "The Elements of Statistical Learning : Data Mining, Inferenceand Prediction", Springer Series in Statistics
[19] Freund Y. and Schapire R.E. (1996), "Game theory, on-line prediction and boosting",In Proceedings of the Ninth Annual Conference on Computational Learning Theory, pp.325–332
[20] Frey L. (2016), "Éclairages de l’enquête Patrimoine sur les comportements de rachat enassurance-vie", ACPR, N◦56 -Mars 2016
[21] ] Fauvel S. et Le Pévédic M. (2007), "Analyse des rachats d’un portefeuille vie individuelle :Approche théorique et Application pratique", ENSAE, Mémoire d’Actuariat - AXA France
[22] Grosen A. and Jorgensen P. L. (2000), "Fair valuation of life insurance liabilities : Theimpact of interest rate guarantees, surrender options, and bonus policies", Insurance : Ma-thematics and Economics 26(1), pp. 37–57
[23] Hastie T.J. et Tibshirani R.J. (1990), "Generalized Additive Models", Chapman andHall/CRC, 352 p.
[24] Kagraoka Y. (2005), "Modeling insurance surrenders by the negative binomial model",Working Paper
[25] Kaltwasser P. et Le Moine P. (2007),"Modèles de risques et solvabilité en assurance vie",Bulletin Français d’Actuariat, Vol. 7, n◦14, juillet-décembre 2007, pp. 25-74
[26] Kim C. (2005), "Modeling surrender and lapse rates with economic variables", NorthAmerican Actuarial Journal 9(4), pp. 56–70
2015-2016 82 ENSAE ParisTech
Mémoire d’Actuariat
[27] Kuo W. et al (2003), "An empirical study on the lapse rate : The cointegration approach",Journal of Risk and Insurance 70(3), pp. 489–508
[28] Milhaud X. (2011), "Segmentation et modélisation des comportements de rachat en Assu-rance Vie", ISFA, Mémoire d’Actuariat - AXA Global Life
[29] Nordahl H. A. (2008), "Valuation of life insurance surrender and exchange options", Insu-rance : Mathematics and Economics 42(3), pp. 909–919.
[30] Renshaw A. E. et Haberman S. (1986), "Statistical analysis of life assurance lapses", Jour-nal of the Institute of Actuaries 113, pp. 459–497
[31] Salma J. (2016), "Construction du taux de rachat structurel en épargne individuel : ap-proximation non linéaire et agrégation des modèles", ISFA, Mémoire d’Actuariat Confiden-tiel - Natixis Assurances
[32] Seror D. et Yengue D. (2013), "Modélisation des comportements de rachats dans un cadrede risques compétitifs", ENSAE, Mémoire d’Actuariat
[33] Shen W. and Xu H. (2005), "The valuation of unit-linked policies with or without surrenderoptions", Insurance : Mathematics and Economics 36(1), pp. 79–92.
[34] Steffensen M. (2002), "Intervention options in life insurance", Insurance : Mathematicsand Economics 31(1), pp. 71–85.
[35] Suru A. (2011), "Modélisation du rachat et parallèle avec la Physique", Université ParisDauphine, Mémoire d’Actuariat - Allianz France
[36] Tufféry S. (2015), "Modélisation prédictive et apprentissage statistique avec R", EditionsTechnip, 432 p.
[37] Vandaele N. and Vanmaele M. (2008), "Explicit portfolio for unit-linked life insurancecontracts with surrender option", Journal of Computational and Applied Mathematics
[38] Vandal N. (2005), "La régression non paramétrique multidimensionnelle : Théorie et ap-plication à une étude portant sur la densité mammaire", Université du Québec, Mémoirede Master
[39] Vapnik V. and Lerner A. (1963), "Pattern recognition using generalized portrait method",Automation and Remote Control, pp. 774-780.
2015-2016 83 ENSAE ParisTech
Annexes
Figure 5.12 – Classement des différents risque en assurance vie selon l’ACPR
84
Mémoire d’Actuariat
Figure 5.13 – Détermination du cp optimal pour élagage de l’arbre de décision
2015-2016 85 ENSAE ParisTech
Mémoire d’Actuariat
Figure 5.14 – Calibration plot des différents modèles - comportement dynamique
2015-2016 86 ENSAE ParisTech
Note de synthèse
Contexte et objectif de l’étude
Malgré le contexte de taux bas actuel, l’assurance vie demeure le placement préféré desfrançais. Selon la Fédération Française de l’Assurance (FFA), le montant des cotisations collec-tées s’élève à 59,4 milliards d’euros au cours des cinq premiers mois de l’année 2016 (contre 57milliards d’euros sur la même période en 2015). Cet engouement pour l’assurance vie pourraits’expliquer par l’optimisation du triplet rendement-risque-fiscalité et par son compartiment sé-curisé : le fond euros. Par ailleurs, les contrats d’épargne de l’assurance vie offrent des options etgaranties afin de les rendre plus attractifs par rapport aux autres produits d’épargne. L’optionde rachat en est un exemple et permet à l’assuré de satisfaire son besoin de liquidité en retirantune partie (rachat partiel) ou la totalité de son épargne (rachat total) avant la maturité ducontrat prévue à la souscription, ceci moyennant éventuellement des pénalités de rachat. Ainsi,si le rachat est droit pour l’assuré, il est un risque pour l’assureur et une bonne appréhensionde ce risque est indispensable pour ce dernier. En fait, la modélisation du risque de rachat parl’assureur s’impose et présente principalement des enjeux de :
— solvabilité en mettant en oeuvre de meilleures stratégies de gestion actif/passif— competitivité en améliorant la rétention client et le gain de part de marché
Ainsi, l’objectif de ce mémoire est de prédire les décisions de rachats des assurés et ceen utilisant les techniques de machine learning (forêt aléatoire, boosting, arbre de décision,GAM, etc...). L’intérêt est d’obtenir une modélisation plus précise du risque de rachat grâceaux fortes capacités prédictives des techniques de machine learning. Nous obtiendrons ainsi desprobabilités de rachat qui pourront être utilisées pour estimer les lois de rachat. Notons quedans ce mémoire, nous nous sommes restreint à la prédiction des rachats totaux des assuréstout en rappelant que cette approche pourrait être adapter à celle des rachats partiels.
Revue de la littérature
Nous nous sommes tout d’abord attardés sur la littérature empirique et académique assezriche concernant la problématique des rachats en assurance vie, afin de nous en inspirer dansle cadre de notre étude. Traditionnellement, deux hypothèses ont été formulées : d’une partl’hypothèse de fonds de réserve ou d’urgence selon laquelle un assuré rachèterait son contratpour faire face à un choc négatif non anticipé, et d’autre part l’hypothèse de rendement selonlaquelle un assuré rachèterait son contrat pour l’investir ailleurs afin d’obtenir un meilleurrendement. Eling et Kochanski (2012) passent en revue les travaux qui ont déjà été réalisés sur
I
Mémoire d’Actuariat
le rachat ainsi que les nouveaux axes potentiels de recherche dans ce domaine. Globalement, ilse dégage principalement quatre grandes approches de modélisation du risque de rachat : uneapproche financière, une approche statistique, une approche microéconomique, et une approcheprobabiliste.
— Approche financière : l’option de rachat étant un droit que confère l’assureur à l’assuréde retirer une partie ou la totalité de son épargne à tout moment, le risque de rachat estmodéliser comme une option américaine.
— Approche statistique : le taux de rachat est modéliser sous forme de série temporelleen mettant en relation plusieurs autres séries (taux d’intérêt, taux de chômage, taux decroissance, etc...) afin de détecter une relation de long terme et ainsi prévoir le taux derachat.
— Approche microéconomique : cette approche tente de modéliser les comportementsde rachat des assurés en se basant sur la théorie de l’espérance d’utilité. En effet, lathéorie microéconomique étudie les décisions individuelles des agents économiques ets’applique ici à la décision de rachat.
— Approche probabiliste : il s’agit d’une approche individuelle permettant d’expliquerles comportements de rachat des assurés par un ensemble de caractéristiques du produitet/ou de l’assuré. Elle vise à modéliser la décision de rachat en utilisant des modèles pro-babilistes et/ou économétriques et ainsi obtenir des probabilités de rachat individuellesafin de prédire le rachat d’un assuré.
Méthodologie retenue
Dans le cadre de ce mémoire, nous priviligions l’approche probabiliste en utilisant les mé-thodes de machine learning pour modéliser les comportements individuels de rachat des assuréset ainsi obtenir les probabilités de rachats. Comme nous l’avons mentionner plus haut, nousnous sommes restreint dans ce mémoire au cas du rachat total.
Dans un premier temps, nous faisons une modélisation prédictive des comportements derachats structurels en ne prenant en compte que les facteurs structurels. Pour ce faire, l’étudecouvre la période de 2011-2015 et porte sur environ 544 460 contrats multisupports (il s’agit descontrats issus des produits phares de l’entreprise) avec une trentaine de variables portant sur lescaractéristiques du contrat (ancienneté, type de produit, taux d’investissment UC, périodicitéde cotisation, encours, prime initiale, etc.) et les caractéristiques de l’assuré (sexe, âge, situationmatrimoniale, catégorie socioprofessionnelle, niveau d’éducation, etc.). Les caractéristiques ducontrat et des assurés sont observées soit à la date de rachat (pour les contrats rachetés), soit àla date de fin d’observation (pour les contrats non rachetés). Cette première analyse a été faitevia le logiciel R avec ses nombreuses librairies.
Dans un second temps, nous nous proposons d’aller vers des comportements de rachats dyna-miques en rajoutant aux facteurs structurels, les facteurs économiques et financiers pour prédireles comportements de rachat des assurés. Hormis la prise en compte des facteurs économiquesqui permettent de mieux prédire les comportements en captant les effets croisés structurels
2015-2016 II ENSAE ParisTech
Mémoire d’Actuariat
et conjoncturels, cette analyse dynamique permet aussi d’éviter les problèmes liés à la délimi-tation de la période d’étude pour analyser le phénomène. Les variables économiques retenuessont : taux de croissance, taux d’inflation, taux de chômage, OAT court et long terme, Tauxde Participation aux Bénéfices (PB) servi, l’indice de l’immobilier, le Taux moyen d’empruntsd’Etats (TME), indice de CAC40 et l’indice de situation financière). En restreignant l’analyseà un produit en particulier, nous obtenons ainsi une base de données d’environ 4 milions delignes (en dupliquant les assurés chaque mois qu’ils sont présents en portefeuille, ceci s’inspirantdu mémoire de Xavier MILHAUD) et une quarantaine de variables. Nous ajoutons aussi l’an-née d’observation (pour capter l’effet temporelle) et le mois d’observation (pour capter l’effetde saisonnalité) comme covariables. Notre base de données devenant de plus en plus volumi-neuse, afin d’optimiser les temps de calcul nous avons fait recours au language Python via saplateforme Anaconda en utilisant son module scikit-learn.
Ainsi, la démarche d’analyse que nous retenons est la démarche classique de tout projet demachine learning qui peût se resumer en quatre étapes successives :
— Phase 1 : Exploration des données et de feature engineering— Phase 2 : Echantillonnage des données (apprentiisage, validation, test)— Phase 3 : Implémentation des techniques d’apprentissage supervisé— Phase 4 : Evaluation et comparaison des modèles estimés
Prédiction des comportements de rachats structurels
L’objectif ici est de déceler les principaux facteurs structurels influançant la décision derachat d’un assuré et ainsi prédire les comportements de rachat. Notre base de données com-porte environ 544 460 contrats d’épargne individuelle dont 103 576 contrats (soit environ uneproportion de 19%) qui ont été rachetés totalement au cours de la période 2011-2015. Aprèsune analyse exploratoire, nous avons divisé notre échantillon en deux : un échantillon d’appren-tissage (70%) pour la phase d’apprentissage et un échantillon test (30%) pour la phase de testet d’évaluation des modèles. Comme nous pouvons l’observer dans le tableau ci-dessous, lesmodèles d’agrégations s’avèrent être les meilleurs modèles en terme de prédiction. Les indica-teurs de performances des modèles de forêt aléatoire et de Gradient Tree boosting sont presquesidentiques.
Modèle LR LR Spline GAM CART CART Elagué RF BoostingAUC Train 78.3% 79.4% 80.0% 76.1% 81.2% 87.1% 87.7%AUC Test 78.4% 79.3% 79.6% 74.9% 81.0% 85.9% 86.5%Lift à 10% 3.23 3.38 1.628 0.20 0.24 4.135 4.247
Table 5.1 – Comparaison performance des différents modèles
Bien que le modèle forêt aléatoire utilise moins d’arbres que le boosting, il reste pour au-tant plus chronophage que celui du boosting. Ainsi, nous retenons le modèle Gradient boostingcomme meilleur modèle optimisant temps de calcul et pouvoir prédictif. Par ailleurs, les va-riables les plus importantes qui déterminent la décision de rachat sont tout d’abord l’anciennetéet l’encours du contrat, suivis par la prime initiale, le type de produit et le taux d’investissment
2015-2016 III ENSAE ParisTech
Mémoire d’Actuariat
d’UC. Le sexe de l’assuré influence très peu la décision de rachat des assurés. Ce modèle deGradient Boosting nous donne ainsi une estimation des probabilités de rachat pour chaqueassuré dont nous pourrions nous servir pour estimer les lois de rachats.
Ainsi, nous proposons une estimation des taux de rachat structurel en montant à partir desprobabilités de rachatpi = P(Yi = 1/Xi) que l’on peut ramener à l’anciennté, à l’encours età la maille produit ou tout autre segment afin de les rendre opérationnels dans les modèlesde valorisation. Nous définissons la variable aléatoire RT désignant la perte individuelle enmontant.
RTi =
{PMi si rachat total avec probabilité pi0 sinon avec probabilité 1− pi
Ainsi, pour un contrat i donné, l’espérance du montant racheté est de E(RTi) = pi ∗PMi +
(1−pi)∗0 = pi∗PMi. En notant RT =∑
iRTi le montant global totalement racheté, l’espérancedu montant global racheté est alors de E(RT ) =
∑iRTi =
∑i E(RTi) =
∑i pi ∗ PMi. Ainsi,
nous proposons d’estimer le taux de rachat global appliqué sur le contrats en cours de l’annéed’étude comme suit :
TxRacTot =E(RT )∑i PMi
=
∑i pi ∗ PMi∑i PMi
Vers des comportements dynamiques de rachat
Comme dans la partie précédente, l’objectif est de déceler les principaux facteurs de rachatsmais cette fois ci en rajoutant les facteurs conjoncturels aux facteurs structurels. La base dedonnées globale utilisée comporte environ 4 992 458 lignes et une trentaine de variables. Nousn’avons retenu ici que les variables les plus importantes ressortis de nos analyses précédentes etnous avons aussi diviser notre base en deux échantillons : un échantillon d’apprentissage (70%)et un échantillon test (30%). Nous avons pu nous apercevoir des fortes capacités prédictivesdes modèles d’agrégations précédemment. Ainsi, nous proposons ici d’implémenter le modèled’arbre de décision ainsi que les modèles d’agrégations de ce dernier : les forêts aléatoires et leGradient Tree Boosting.
Il en ressort que le modèle de boosting s’avère être une fois de plus le meilleur modèleavec un AUC d’environ 92% jugeant de très bonnes qualités prédictives. Par ailleurs, nousconstatons que ce sont davantage les variables structurelles qui expliquent la décision de rachatsur notre période d’étude que les variables dynamiques. Nous retrouvons donc deux grandsgroupes de variables importantes pour expliquer la décision de rachat : d’une part les variablesstructurelles à savoir l’encours, la prime initiale, l’âge de l’assuré, le taux d’investissement d’UCet l’ancienneté, et d’autre part, le taux de croissance, le différentiel entre le taux de PB serviet le taux benchmark, le taux d’intérêt court et long terme, la variation de et l’indice des prixde l’immobilier.
2015-2016 IV ENSAE ParisTech
Executive summary
Context and objective of the study
Despite the current context of low rates, life insurance remains the preferred placement ofthe French. According to the French Federation of Insurance (FFA), the amount of collectedpremiums amounted to 59.4 billion euros during the first five months of 2016 (against 57 billioneuros over the same period in 2015). This enthusiasm for life insurance could be explained byoptimizing the risk-return-tax triplet and its secured compartment guaranteeing a minimumrate. Moreover, savings life insurance contracts provide options and guarantees in order to makethem more attractive relative to other savings products. The surrender option is one exampleand allows the insured to meet its liquidity needs by removing a portion (partial surrender) orall of their savings (lapse) before the maturity of the contract provided for the subscription,this possibly with surrender penalties. Thus, if surrender is a right for the insured, it’s a risk tothe insurer and a good understanding of this risk is essential for the latter. In fact, a surrenderrisk modeling by the insurer is crucial and presents challenges :
— solvency by implementing better asset / liability management strategies— competitiveness by improving customer retention and gain market share
Thus, the objective of this paper is to predict surrender decisions of insured using themachine learning tools (random forest, boosting, decision tree, GAM, etc ...). The interest isto get a more accurate modeling of the redemption risk due to strong predictive capabilities ofmachine learning tools. We then obtain the surrender probabilities that can be used to estimatethe surrender laws. Note that in this paper, we limited the prediction of total surrender ofinsured while recalling that this approach could be adapted to the partial surrender.
Review of literature
We ourselves first are focused on empirical and academic literature rich enough about theissue of surrender in life insurance to inspire us in our own study. Traditionally, two assumptionswere made : first the assumption of reserve funds or contingency that an insured would buy hiscontract to deal with an unexpected negative shock, and also the return assumption that aninsured redeem his contract to invest elsewhere in order to obtain better performance. Elingand Kochanski (2012) review the studies that has already been made on the surrender andpotential new lines of research in this area. Globally, it emerges mainly four major approachesto risk modeling redemption : a financial approach, a statistical approach, a microeconomicapproach and a probabilistic approach.
V
Mémoire d’Actuariat
— Financial approach : the surrender option being a right conferred by the insurer to theinsured to withdraw part or all of their savings at any time, surrender risk is modeledas an American option.
— Statistical approach : the surrender rate is modeled in the form of time series byconnecting several other series (interest rates, unemployment rates, growth rates, etc ...)to detect a long-term relationship and thus predict the rate surrender.
— Microeconomic approach : This approach attempts to model the surrender behaviorof the insured based on the theory of expected utility. Indeed, microeconomic theorystudies the individual decisions of economic agents and is applied here to the surrenderdecision.
— Probabilistic approach : This is an individual approach to explain the surrenderbehaviors provided by a set of product characteristics and / or the insured characteristics.It aims to model such decision using probabilistic models and / or econometric and toget the individual surrender probabilities to predict the surrender of an insured.
Methodology
As part of this thesis, we favour probabilistic approach using machine learning tools to modelindividual surrender behavior of insured and obtain surrender probabilities. As we mentionedabove, we ourselves are limited on the case of total surrender.
First, we do predictive modeling of structural surrender behavior by taking into accountthat structural factors. To do this, the study covers the period 2011-2015 and covers about544,460 linked contracts (these contracts from the company’s flagship products) with aboutthirty variables on the characteristics of the contract ( seniority, product type, unit-linkedrate, periodicity of contribution, outstanding, original premium, etc.) and the characteristicsof the insured (gender, age, marital status, occupational status, education level, etc.). Thecharacteristics of the contract and the insured are observed either at the surrender date (forthe surrendered contracts) or at the end date of observation (for contracts not surrendered).This first analysis was done using the R software with its many bookstores.
Secondly, we intend to move towards dynamic surrender behaviors by adding at structuralfactors, the economic and financial factors to predict surrender behavior of insured. Apart fromthe consideration of economic factors to better predict behavior by capturing the structuraland cyclical cross effects, this dynamic analysis also avoids the problems associated with thedelimitation of the study period to analyze the phenomenon. The selected economic variablesare : growth rate, inflation rate, unemployment rate, short and long-term interest rates, EarningsParticipation Rate (PB), the real estate index, the average rate borrowings States (TME),CAC40 index and the index of financial position). Restricting the analysis to a particularproduct, we obtain a database of an about 4 million lines (provided by duplicating each monththey are present in the portfolio, this inspired by the thesis of Xavier Milhaud) and a variablequarantine. We also add the year of observation (to capture the temporal effect) and themonth of observation (to capture the seasonal effect) as co-variables. Our database becoming
2015-2016 VI ENSAE ParisTech
Mémoire d’Actuariat
increasingly voluminous, to optimize the calculation time we made use of the language Pythonvia its platform Anaconda using its scikit-learn module.
Thus, the analytical approach we choose is the classic of all machine learning project whichcan be summarized in four stages :
— Phase 1 : Exploring data and feature engineering— Phase 2 : Sampling data (training, validation, test)— Phase 3 : Implementation of supervised learning techniques— Phase 4 : Evaluation and comparison of the estimated models
Prediction of structural surrender behaviors
The goal here is to identify key structural factors influencing surrender decision of an insuredand thus predict the surrender behavior. Our database includes about 544,460 individual savingscontracts and 103 576 contracts (approximately a ratio of 19 %) that were totally surrendedduring the period 2011-2015. After an exploratory analysis, we divided our sample into two :a training sample (70 %) for the learning phase and a test sample (30 %) for the test andevaluation phase. As we can see in the table below, the aggregation models turn out to be thebest in terms of prediction models. The performance indicators of random forest models andGradient Boosting Tree are almost identical.
Model LR LR Spline GAM CART Pruned CART RF BoostingAUC Train 78.3% 79.4% 80.0% 76.1% 81.2% 87.1% 87.7%AUC Test 78.4% 79.3% 79.6% 74.9% 81.0% 85.9% 86.5%Lift at 10% 3.23 3.38 1.628 0.20 0.24 4.135 4.247
Table 5.2 – Comparison of the performance of different models
Although the random forest model uses fewer trees than Boosting it remains for more time-consuming than the boosting. Thus, we retain the Gradient Boosting model as the best modeloptimizing computing time and predictive power. Moreover, the most important variables thatdetermine such decision are first on seniority and the outstanding contract, followed by theinitial premium, type of product and unit linked rate. The sex of the insured very little influenceinsured surrender decision. This gradient boosting model thus give us an estimate of surrenderprobability for each insured which we could use to estimate the surrender laws.
Thus, we propose an estimate of structural surrender rate in amount from surrender proba-bilities pi = P(Yi = 1/Xi) that can bring Seniority, the outstanding and mesh product or anysegment to make them operational in valuation models. We define the random variable RTdenoting the individual loss amount.
RTi =
{PMi if total surrender with probability pi0 else avec probability 1− pi
Thus, for a contract i given, the expected of surrender amount is E(RTi) = pi ∗PMi + (1−pi) ∗ 0 = pi ∗ PMi. Noting RT =
∑iRTi the total amount surrendered, the expected total
2015-2016 VII ENSAE ParisTech
Mémoire d’Actuariat
amount surrender is then E(RT ) =∑
iRTi =∑
i E(RTi) =∑
i pi ∗ PMi. Thus, we proposeto estimate the aggregate surrender rate applied on the contracts during the year of study asfollows :
TxRacTot =E(RT )∑i PMi
=
∑i pi ∗ PMi∑i PMi
To dynamic surrender behavior
As in the previous part, the objective is to identify the key factors of surrender, but thistime by adding cyclical factors at structural factors. The data base used comprises approxima-tely 4,992,458 lines and thirty variables. We retained here that the most important variablesemerged from our previous analyzes and we also have divided our database into two samples : atraining sample (70 %) and a test sample (30 %). We could see us strong predictive capabilitiesaggregations models previously. Thus, we propose to implement the decision tree model andthe aggregations of the latter models : random forests and Gradient Boosting Tree.
It shows that boosting model proves to be once again the best model with an AUC of about92 % judging a very good predictive qualities. Moreover, we find that they are more structuralvariables that explain the surrender decision on our study period at the expense of dynamicvariables. We thus find two large groups of important variables to explain the surrender decision :firstly structural variables namely : the capital, the initial premium, the age of the insured, theunit linked rate and the seniority, and secondly, the growth rate, the difference between theserved rate and the benchmark rate, the long-term and short-term interest rate, the change inthe index of real estate prices and the change in the CAC 40 index.
2015-2016 VIII ENSAE ParisTech