Résumé - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Mémoire NANA NJOYA Er… · Résumé...

Résumé

L’option de rachat intégrée dans les contrats d’épargne en assurance vie donne naissance à

un risque de rachat qui préoccupe les assureurs depuis longtemps, notamment pour des enjeux

de solvabilité et de compétitivité. Par ailleurs, le nouveau cadre réglementaire solvabilité 2

recommande une évaluation best estimate du risque de rachat, ce d’autant plus qu’il classe ce

dernier comme étant le plus gros risque technique en assurance vie. C’est donc dans ce contexte

que nous nous intéressons dans ce mémoire à la prédiction des comportements de rachat en

épargne individuelle. Le but est de mieux cerner les facteurs influençant la décision de rachat

des assurés et de prédire cette dernière de la façon la plus précise possible. Pour ce faire,

nous optons pour une approche probabiliste en utilisant les techniques de machine learning,

lesquelles sont largement reconnues pour leurs fortes capacités prédictives. Dans un premier

temps, nous faisons une modélisation prédictive des comportements de rachats structurels en

ne prenant en compte que les facteurs structurels. Dans un second temps, nous nous proposons

d’aller vers des comportements de rachats dynamiques en ajoutant aux facteurs structurels,

les facteurs économiques et financiers pour prédire les comportements de rachat des assurés de

façon complète. Globalement, il en ressort que les modèles d’agrégations d’arbre de décision

(forêt aléatoire et boosting) sont les plus performants pour prédire la décision de rachat des

assurés. Cependant, nous avons retenu comme meilleur modèle le Gradient Tree Boosting, qui

a été utilisé pour estimer les probabilités de rachat, à partir desquelles nous avons proposé

une estimation des taux de rachats prenant en compte un ensemble de facteurs structurels et

conjoncturels jugés pertinents.

Mots clés : comportement de rachat, prédiction, machine learning, forêt aléatoire, boosting

I

Abstract

The integrated surrender option in life insurance savings contracts give rise to a surrender

risk which concern the insurers for long time, including the issues of solvency and compe-

titiveness. Moreover, the new regulatory framework Solvency 2 recommends a best estimate

assessment of surrender risk , particularly since it classifies it as the biggest technical risk in

life insurance. Thus, it’s in this context that we are interested in this memory to the prediction

of surrender behaviors in individual savings. The goal is to better understand the factors in-

fluencing the surrender decision of insured and predict it in the most accurate manner possible.

To do this, we adopt a probabilistic approach using machine learning tools, which are widely

recognized for their strong predictive capabilities. First, we do predictive modeling of structural

surrender behaviors by taking into account that structural factors. Secondly, we intend to move

towards dynamic surrender behavior by adding at structural factors, economic and financial

factors to predict the surrender behaviors of insured comprehensively. Overall, it appears that

the aggregating models of decision tree (random forest and boosting) are the most accurate for

predicting surrender decision of insured. However, we have chosen as the best model Gradient

Boosting Tree, which was used to estimate the probabilities of surrender, from which we pro-

posed an estimate of surrender rate taking into account a set of structural and cyclical factors

deemed relevant.

Keywords : surrender behaviour, prediction, machine learning, random forest, boosting

II

Remerciements

Pour réaliser ce mémoire, j’ai bénéficié d’une aide multiforme. Quelques personnes en effet,

y ont pris une part notable, raison pour laquelle je tiens à les remercier.

Je remercie tout d’abord l’ensemble du corps professoral de l’ENSAE ParisTech qui n’a

ménagé aucun effort pour nous assurer une formation d’une très grande qualité. Merci par-

ticulièrement à Romuald Elie pour ses orientations et remarques sans nul doute pertinentes,

apportées lors de l’encadrement de ce mémoire en qualité de tuteur académique.

Je tiens aussi à remercier Ludovic Cohen, Directeur Epargne Individuelle chez Allianz France,

Sébastien Col, manager équipe Etudes Transverses et Aliou Sow, manager équipe Etudes et

Calculs Actuariels, pour m’avoir accueilli dans leur équipe et pour leur encadrement, leur clair-

voyance et leur disponibilité sans faille malgré leurs multiples occupations. Merci à Dominique

Abgrall et Guillaume Metge pour leurs conseils, leurs orientations, la documentation et l’appui

technique lors des échanges créatifs qu’ils m’ont accordés.

Ayant partagé le même bureau qu’eux, je remercie Mohamed Sankhe, Florent De Gayardon,

Anita Cathelineau et Stéphane Bourguelle, pour la facilitation de mon intégration dans l’équipe,

leur aide, leur gentillesse et toutes les réponses qu’ils m’ont apportées.

III

Table des matières

Introduction 1

I Cadre conceptuel et Méthodologique 3

1 L’Assurance Vie et le Risque de Rachat 4

1.1 Généralité sur l’assurance vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1 Présentation générale des contrats . . . . . . . . . . . . . . . . . . . . . . 4

1.1.2 Les contrats d’épargne individuelle . . . . . . . . . . . . . . . . . . . . . 5

1.2 Le risque de rachat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.1 Le rachat structurel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.2 Le rachat conjoncturel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.3 Impact sur la gestion Actif-Passif : lien risque de rachat et de taux . . . . 10

1.2.4 Solvabilité II et risque de rachat . . . . . . . . . . . . . . . . . . . . . . . 11

1.2.5 La fiscalité et le rachat en assurance vie . . . . . . . . . . . . . . . . . . 14

2 Approches de Modélisation du Rachat 15

2.1 Revue de la littérature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.1 Approche financière . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.2 Approche statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1.3 Approche microéconomique . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.4 Approche probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 Modélisation du rachat chez Allianz . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.1 Modélisation des rachats structurels . . . . . . . . . . . . . . . . . . . . . 22

2.2.2 Modélisation des rachats dynamiques . . . . . . . . . . . . . . . . . . . . 24

2.3 Méthodologie de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.1 Limites des GLM et apports du machine learning . . . . . . . . . . . . . 26

2.3.2 Démarche retenue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

IV

Mémoire d’Actuariat

3 Méthodes de Machine Learning : un pas dans la théorie 32

3.1 Rappel sur les modèles généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1.1 LR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.2 Régression Spline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1.3 GAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2 Arbres de décision : CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.4 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4.1 SVM linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4.2 SVM non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5 Méthodes d’agrégations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.5.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.5.2 Forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.5.3 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

II Résultats Empiriques : Application au Portefeuille d’Allianz 49

4 Prédiction des comportements de rachat structurel 50

4.1 Analyse exploratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.1.1 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1.2 Ajustement spline : âge et ancienneté . . . . . . . . . . . . . . . . . . . . 54

4.1.3 Effets croisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2 Modélisation prédictive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.1 Modèles généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.2 CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.3 Agrégation d’arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3 Benchmark des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5 Vers des comportements dynamiques de rachat 66

5.1 Analyse du contexte économique . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.1.1 Une détérioration du contexte économique et financier . . . . . . . . . . 67

5.1.2 Une baisse du taux servi . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.2 Comportements de rachats suivant les facteurs dynamiques . . . . . . . . . . . . 69

5.2.1 Effet saisonnier des rachats . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.2.2 Les rachats déterminés par les variables économiques . . . . . . . . . . . 70

5.3 Modélisation prédictive des comportements dynamiques . . . . . . . . . . . . . . 72

2015-2016 V ENSAE ParisTech


5.3.1 Arbre de décision : CART . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.3.2 Forêt aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.3.3 Gradient Tree Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.3.4 Benchmark des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

Conclusion 79

Annexes 84

2015-2016 VI ENSAE ParisTech

Introduction

L’assurance vie tire ses origines du financier italien Lorenzo Tonti qui crée en 1652 des

associations de personnes mettant en commun des fonds qui seront redistribués à une date

ultérieure, entre toutes les personnes survivantes. Depuis lors, elle a connu des complexifica-

tions adaptées aux évolutions économiques et financières du monde moderne. Ainsi, un contrat

d’assurance vie peut être défini de nos jours comme un accord financier entre un assureur et un

assuré par lequel l’assuré prend l’engagement révocable de verser des primes et en contrepartie

l’assureur prend l’engagement irrévocable de lui verser des prestations ou à ses bénéficiaires en

fonction de la réalisation d’évènements aléatoires liés à la vie humaine.

Malgré le contexte de taux bas actuel 1, l’assurance vie demeure le placement préféré des

français. Selon la Fédération Française de l’Assurance (FFA), le montant des cotisations col-

lectées s’élève à 59,4 milliards d’euros au cours des cinq premiers mois de l’année 2016 (contre

57 milliards d’euros sur la même période en 2015). Cet engouement pour l’assurance vie pour-

rait s’expliquer par l’optimisation du triplet rendement-risque-fiscalité et par son compartiment

sécurisé 2 : le fonds euros qui représente environ 80% de l’encours total de l’assurance vie.

Par ailleurs, les contrats d’épargne de l’assurance vie offrent des options et garanties afin

de les rendre plus attractifs par rapport aux autres produits d’épargne. L’option de rachat en

est un exemple et permet à l’assuré de satisfaire son besoin de liquidité en retirant une partie

(rachat partiel) ou la totalité de son épargne (rachat total) avant la maturité du contrat prévue

à la souscription, ceci moyennant éventuellement des pénalités de rachat. Mais si le rachat

est un droit pour l’assuré, il est risque pour l’assureur. Il naît ainsi un risque de rachat pour

l’assureur et une bonne appréhension de ce risque est indispensable pour ce dernier, d’autant

plus qu’il est identifié comme le premier risque technique en assurance vie. En effet, une très

grande différence entre les rachats observés et ceux anticipés par l’assureur est une source de

1. Les taux d’intérêts obligataires ont atteint un niveau historiquement bas le 16 Avril 2015 en s’établissantà environ 0.3%.

2. Les rendements moyens des fonds en euros se maintiennent pour la plupart à 3% contre un rendementd’environ 0.75% du livret A

1


désadossement de l’actif et du passif et donc de risque de liquidité. Ainsi, une modélisation du

risque de rachat par l’assureur s’impose et présente principalement des enjeux de :

— solvabilité en mettant en oeuvre de meilleures stratégies de gestion actif/passif

— compétitivité en améliorant la rétention client et le gain de part de marché

Le rachat provoque une diminution de la valeur du portefeuille de l’assureur et nécessite une

estimation des réserves suffisantes pour faire face à tout moment aux besoins de liquidité de

l’assuré. Une bonne compréhension des comportements de rachat est d’autant plus cruciale,

étant donné le contexte économique actuel de taux d’intérêt bas avec un risque de remontée

brutale des taux. En fait, les compagnies d’assurances anticipent une hausse brutale des taux,

laquelle provoquerait une vague de rachat (à la recherche de rendement meilleur) et les assureurs

se verront ainsi obligés de céder leur actif et donc de renoncer à la rentabilité espérée ; ce

qui pourrait mettre en péril leurs activités. En outre, conscient de l’importance du risque de

rachat pour les sociétés d’assurance vie, le nouveau cadre reglementaire solvabilité II en vigueur

recommande une évaluation best estimate du risque de rachat.

Dans ce mémoire, nous nous proposons de modéliser le risque de rachat en utilisant une ap-

proche machine learning. Il s’inscrit donc dans le cadre de la mise en oeuvre d’un modèle plus

précis pour prédire le comportement de rachats des assurés, pour une meilleure valorisation du

portefeuille dans le cadre du calcul de l’EV (Embedded Value) et une optimisation de la renta-

bilité par une meilleure stratégie de gestion actif-passif. Il se subdivise en quatre chapitres. Le

premier chapitre porte sur un panorama de l’assurance vie avec un focus sur le risque de rachat

pour présenter le cadre général de l’étude. Le second chapitre expose les différentes approches

de modélisation du risque de rachat existant dans la littérature académique et empirique. Ce

chapitre présente aussi la méthodologie actuelle de construction des lois de rachat chez Allianz

France ainsi que la méthodologie que nous avons retenue pour notre étude. Le troisième cha-

pitre se concentre quant à lui sur les aspects théoriques des méthodes de machines learning.

Le quatrième chapitre pour sa part décrit la prédiction proprement dite des comportements

de rachats structurels appliquée au portefeuille d’Allianz France tandis que le cinquième tente

d’aller plus loin vers des comportements dynamiques.

2015-2016 2 ENSAE ParisTech

Première partie

Cadre conceptuel et Méthodologique

3

Chapitre 1

L’Assurance Vie et le Risque de Rachat

Ce chapitre présente les différents concepts clés de l’assurance vie en France nécessaires à la

compréhension de l’étude, avec un accent particulier sur le rachat. Il s’attarde sur les généralités

de l’assurance vie d’une part et le risque de rachat d’autre part.

1.1 Généralité sur l’assurance vie

1.1.1 Présentation générale des contrats

L’assurance vie est un produit de placement idéal puisqu’elle permet de constituer une

épargne pour des projets futurs ou pour la retraite et ceci dans des conditions avantageuses

de fiscalité. Par ailleurs, elle se veut de protéger les assurés en cas de réalisation de risque lié

à la durée de vie humaine. C’est ainsi que nous distinguons principalement trois catégories de

contrats. Les contrats en cas de vie qui prévoient le versement du capital constitué ou d’une

rente si l’assuré est toujours en vie au terme du contrat. Les contrats en cas de décès donnant

lieu au versement d’un capital ou d’une rente à une tierce personne (le bénéficiaire) en cas de

décès de l’assuré avant le terme du contrat. Les contrats mixtes (en cas de vie et de décès)

qui prévoient le versement d’un capital ou d’une rente, soit à l’assuré, s’il est en vie, soit à un

bénéficiaire, s’il est décédé. Nous pouvons résumer les différents types de contrats d’assurance

vie ci-dessous :

— Les contrats d’épargne : ce sont des contrats d’assurance en cas de vie comportant

des garanties en cas de décès. Ils sont généralement utilisés pour constituer et faire

fructifier une épargne, de financer des projets futurs (immobiliers, éducation des enfants,

etc.) et/ou optimiser la transmission de son patrimoine à ses proches en cas de décès.

Cependant, il ne faut pas confondre contrat d’épargne et contrat de capitalisation en

4


assurance, ce dernier étant un placement de long terme qui ne fait pas intervenir la

notion de risque basé sur la durée de vie humaine.

— Les contrats de retraite : ce sont des contrats permettant au souscripteur de constituer

une épargne au cours de sa vie active en vue de préparer sa retraite. Le système de retraite

en France s’articule sur trois niveaux. Le niveau 1 pour les régimes obligatoires de base

et complémentaires, le niveau 2 pour les régimes de retraite supplémentaire collectifs

installé dans les entreprises (Plan Epargne Retraite Entreprise), et le niveau 3 pour

la retraite supplémentaire individuelle, les plus connues étant les contrats PERP(Plan

d’Epargne Retraite Populaire) et les contrats Madelin pour les travailleurs non salariés.

— Les contrats de prévoyance : ce sont des contrats qui permettent au souscripteur de

se protéger contre les risques de l’existence (décés, invalidité/incapacité) en garantissant

le maintien de son niveau de vie. Ces contrats sont souvent qualifiés de contrat à fonds

perdus car le souscripteur ne peut en aucun cas récupérer les primes versées. En effet, le

contrat de prévoyance prévoit une somme définie en cas de réalisation du risque, qui est

indépendante du montant de l’épargne et du temps de cotisation.

— Les autres contrats divers : nous regroupons ici tous les autres types de contrats

d’assurance vie notamment les contrats créés par les pouvoirs publics pour favoriser une

politique d’investissement à grande échelle (NSK, Euro-Croissance, Vie Génération, etc.)

ainsi que les contrats résultants d’un mix des produits pré-cités.

Par ailleurs, notons que ces différents contrats sont généralement divisés en contrat individuel

et en contrat collectif. Dans un contrat individuel, l’assuré souscrit directement auprès de

l’assureur tandis que dans un contrat collectif, l’assuré qui est un adhérent d’une association

est représenté par l’association qui souscrit pour tous ses adhérents ; une association pouvant

être par exemple une entreprise. Dans la suite de ce chapitre, nous nous attarderons sur les

contrats d’épargne individuelle sur lesquels porte notre étude.

1.1.2 Les contrats d’épargne individuelle

D’une manière générale, un contrat d’épargne est caractérisé par les acteurs concernés, sa

durée, le type de versement, le type de supports, le type de gestion ainsi que les options et

garanties intégrées.

1.1.2.1 Les acteurs concernés

Il s’agit des personnes physiques ou morales qui interviennent d’une façon ou d’une autre

au cours de la vie du contrat.



— l’assureur : il s’agit de la compagnie d’assurance signataire du contrat et qui est repré-

senté par un réseau de distribution (Agents généraux, courtiers, banques, salariés,...).

Ce dernier commercialise le produit auprès des clients en leur proposant les conditions

générales et particulières du contrat.

— le souscripteur : c’est lui qui souscrit le contrat d’assurance c’est-à-dire qui reçoit les

conditions générales et signe les différents documents du contrat (conditions particulières,

questionnaire, devis d’assurance) et s’engage à payer les primes dues à l’assureur. Notons

que le souscripteur n’est pas nécessairement l’assuré.

— l’assuré : c’est la personne sur laquelle repose le risque. La plupart du temps, l’assuré

est également le souscripteur du contrat.

— le(s) bénéficiaire(s) : il s’agit des tierces personnes désignées par le souscripteur comme

devant recevoir les prestations garanties en cas de décès de l’assuré.

1.1.2.2 La durée du contrat

Bien que la durée de 8 ans soit fiscalement très avantageuse, ce n’est ni une durée minimale,

ni une durée maximale. En général, les contrats d’épargne ont une échéance de 8 à 15 ans et

peuvent être prorogeables annuellement par tacite reconduction. Toutefois, ils peuvent avoir

une durée indéterminée dans le cas de contrats de type rente viagère.

1.1.2.3 Les différents types de versement

Le souscripteur a le choix entre plusieurs types de versement des primes relatif à son contrat.

— versement unique : une seule prime unique est versée à la souscription du contrat.

— versements périodiques : le souscripteur s’engage à verser les primes de façon régulière

selon une certaine fréquence (mensuelle, trimestrielle, annuelle,...).

— versement libre : le souscripteur verse une prime minimale au moment de la souscription,

ensuite il est libre d’augmenter son épargne en versant la somme qu’il veut quand il le

veut.

1.1.2.4 Les différents types de supports

Les contrats d’épargne diffèrent selon le nombre de supports sur lequel l’épargne est investie.

Nous distinguons donc les contrats monosupport et les contrats multisupport.

— Les contrats monosupports sont totalement investis sur un unique support ou fonds :



soit le fonds en euros 1, soit un fonds investi en unités de compte (UC) 2

— Les contrats multisupports sont investis sur plusieurs supports c’est-à-dire une combinai-

son de fonds euros et UC. Ils permettent donc au souscripteur en fonction de son profil

de risque et de sa stratégie patrimoniale, d’arbitrer entre les proportions d’actifs sans

risque et d’actifs risqués.

1.1.2.5 Les types de gestion

Dans le cas des contrats multisupports, pour plus de souplesse, différents modes de gestion

sont proposés au souscripteur :

— la gestion libre : elle laisse au soucripteur l’ensemble des choix d’investissements sur les

différents supports. En effet, c’est lui qui décide de l’allocation de son épargne : une

proportion p investie en fonds en euros et 1 − p investie en UC. Ce type de gestion

suppose donc que le souscripteur à une connaissance des marchés financiers et est donc

capable d’allouer son épargne de façon optimale en fonction de l’évolution des marchés,

en faisant des arbitrages tout au long de la vie du contrat.

— la gestion profilée ou pilotée : elle est destinée aux souscripteurs moins aguerris des

marchés financiers. Ils choisissent juste leur profil d’investissement en fonction de leurs

besoins et confient la gestion de leur l’épargne sur les différents supports à une société

de gestion spécialisée, et on distingue généralement trois profils. Le profil prudent pri-

viligiant un risque faible et dont les supports sont composés majoritairement d’actifs

trés peu risqués (produits obligataires et monétaires). Le profil équilibré qui priviligie un

risque moyen et dont les supports sont investis en recherchant un équilibre entre actifs

sans risque et actif risqué. Enfin le profil dynamique pour ceux qui priviligie le risque et

dont les supports sont majoritairement investis en actifs risqués (actions).

— la gestion évolutive : il s’agit d’une gestion dite automatique. À la souscription, le sous-

cripteur détermine la répartition de son épargne sur les différents supports et cette

répartition évolue en fonction de l’âge ou de la maturité du contrat. En effet, la propor-

tion investie en UC baisse au profit du fonds euros lorsque l’âge ou le terme du contrat

approche pour permettre de sécuriser l’épargne au fur et à mesure.

1. Le fonds euros ou fonds à capital garanti est un fonds investi majoritairement sur les marchés monétairespeu risqués et est sans risque pour l’assuré car c’est l’assureur qui supporte le risque. Il est rémunéré à un tauxminimum garanti (TMG) et revalorisé par une participation aux bénéfices, l’assureur étant tenu de distribuerau moins 90% de ses bénéfices techniques et au moins 85% de ses bénéfices financiers. Le taux servi est obtenupar la formule : Tauxservi = max(TMG,TauxPB ∗ Tauxrdtfinancier − Tauxchargement)

2. Les unités de compte sont généralement les actions, obligations, parts de sociétés d’investissement à capitalvariable (Sicav),etc. qui sont relativement plus risqué et ce risque est supporté par l’assuré.



1.1.2.6 Les types de garanties

Comme nous l’avons mentionné en introduction, les contrats d’épargne en assurance vie

offrent certaines garanties en cas de décés de l’assuré afin de rendre les produits plus attractifs.

— la garantie plancher : il s’agit de la plus courante et permet de limiter le risque de perte

sur le capital investi en UC si le décès survient dans une période où le rendement des

marchés financiers est très faible. En effet, elle permet aux bénéficiaires du contrat de

percevoir un capital garanti minimum (généralement le total des primes versées) en cas

de décès de l’assuré et ce, quelle que soit la valeur des UC à cette date.

— la garantie majorée : en cas de décès de l’assuré, les bénéficiares reçoivent au minimum le

capital investi ou majoré d’un certain pourcentage (généralement compris entre 110% et

190%), diminé des frais et des rachats éventuels. Par aileurs, cette somme peut aussi être

révalorisée selon un taux défini à la souscription : on parle alors de garantie revalorisée.

— la gestion cliquet : elle permet aux bénéficiares de recevoir au minimum le niveau du

capital atteint à un certain moment (fin de chaque mois par exemple), en cas de décès

de l’assuré.

En plus des garanties offertes, les contrats d’épargne possèdent des options intégrées pendant

la durée du contrat. Il s’agit de la possibilité de réorientation de l’épargne ou arbitrage, de

reversemment, de rachat (partiel ou total) et d’avance ou emprunt. Par ailleurs, ils possèdent

aussi des options de sortie au terme du contrat à savoir la prorogation du contrat, le versement

en capital et la transformation en rente. L’option de rachat retient particulièrement notre

attention : s’il est intéressant pour l’assuré, il représente un risque pour l’assureur.

1.2 Le risque de rachat

Le risque de rachat représente le principal risque des sociétés d’assurance vie du marché

français devant le risque de mortalité et de longévité selon l’Autorité de Contrôle Prudentiel et

de Résolution (ACPR). 3 Il fait donc l’objet d’une préoccupation particulière et son appréhen-

sion s’avère cruciale pour les assureurs. Tout d’abord, il convient de distinguer deux types de

rachats : le rachat dit structurel et le rachat dit conjoncturel. La distinction faite entre ces deux

types, quoique pas évidente, est liée à la nature des facteurs de risque déclenchant le rachat :

facteur structurel ou facteur conjoncturel.

3. Le risque de rachat s’établit à 30% du Solvency Capital Requirement (SCR) vie avant diversificationcontre 20% pour le risque de mortalité.



1.2.1 Le rachat structurel

Le rachat structurel est le rachat dû aux facteurs dits structurels et notamment au fait que

les assurés ont un besoin de liquidités immédiat. Parmi les facteurs structurels, nous pouvons

dégager :

— les caractéristiques du contrat : l’ancienneté du contrat, l’encours, la périodicité des

cotisations (fréquence de paiement des primes), la gamme de produit (haut de gamme

ou non), le réseau de distribution (Agents généraux, Courtiers, partenariats bancaires,

etc.), type de gestion (profilée, libre ou évolutive ), le profil d’investissement, etc.

— les caractéristiques de l’assuré : le sexe (les hommes sont-ils plus risqués que les

femmes ?), la catégorie socioprofessionnelle, l’âge (les jeunes rachèteraient-ils plus que

les personnes agées ?), la situation matrimoniale (les personnes en couple ont-ils plus

tendance à racheter que les célibataires ?), le niveau de richesse (les riches rachètent-ils

moins ?), le lieu de résidence, etc.

— les comportements antérieurs : nombre de rachats antérieurs, nombre de reverse-

ments antérieurs, arbitrage sur les supports, présence d’avance ou pas.

À cette effet, l’étude de l’ACPR menée par Frey L. (2016) tente de croiser les rachats avec

les caractéristiques structurelles tirées de l’enquête Patrimoine. Elle met en relation deux po-

pulations d’organismes d’assurance, d’une part ceux ayant un taux de rachat supérieur à la

moyenne et d’autre part ceux ayant un taux de rachat inférieur à la moyenne, avec différents

caractéristiques structurelles. Il en ressort tout d’abord que le motif de réserve d’argent et de

rendement semble être la raison principale de détention d’un contrat d’assurance-vie par les

ménages. Les chefs d’entreprise et les travailleurs indépendants, les employés du secteur privé,

les anciens chefs d’entreprise et les artisans et commerçants ont les taux de rachat les plus

élevés. Au contraire, les salariés du secteur public, salariés du secteur privé (hors cadres) et les

anciens ouvriers et techniciens et les anciens travailleurs indépendants ont les taux de rachats

les plus faibles. Par ailleurs, selon cette étude, les taux de rachats semblent plus élevés lorsque

l’encours est important. Les assurés ayant un niveau d’étude supérieur ont des taux de rachats

plus élevés par rapport à ceux du niveau primaire ou collège. En outre, les assurés ayant un

fort pourcentage d’UC auraient tendance à plus racheter.

1.2.2 Le rachat conjoncturel

Le rachat conjoncturel est le rachat dû aux facteurs conjoncturels et est généralement perçu

comme le rachat induit par un changement de comportement des assurés en réponse à un écart

constaté entre le taux servi par l’assureur et les taux offerts par la concurrence. Toutefois, nous



pouvons recencer plus généralement quelques facteurs conjoncturels ci-dessous :

— la différence ou spread de taux de rendement avec la concurrence : un taux servi

plus faible que le taux benchmark (taux servi de reférence de la concurrence) pousserait

à racheter pour aller chez le concurrent

— le changement de législation : une modification de la fiscalité par exemple peut inciter

au rachat.

— la réputation de la compagnie : une détérioration de l’image et/ou du rating installe

une crainte chez les assurés de ne pas recouvrer leurs fonds et peut inciter au rachat.

— le contexte économique et financier : l’évolution des taux d’interêts, du taux de

chômage, de l’inflation, de la croissance, du Produit Intérieur Brut (PIB), etc.

Le principal motif d’un rachat conjoncturel est le rendement et c’est ainsi qu’il s’assimile à

une option américaine où le souscripteur peut exercer son option à tout moment (lequel qui

serait celui le plus favorable pour lui compte tenu de la conjoncture). Le rachat conjoncturel

est ainsi étroitement lié à la dynamique des taux et les assureurs se voyent exposer au risque

de rachats massifs suite à une hausse brutale des taux.

1.2.3 Impact sur la gestion Actif-Passif : lien risque de rachat et de

taux

Devenue incontournable depuis la crise des caisses d’épargne américaines dans les années 80

survenue suite à une variation brutale des taux, la Gestion Actif-Passif ou Asset and Liability

Management (ALM) s’impose depuis lors dans le mode de gestion des institutions financières.

Elle consiste à structurer le bilan de sorte qu’à toute variation de la valeur du passif corresponde

une variation équivalente de l’actif (ou vice versa). En théorie, la technique la plus simple et la

plus efficace consiste à adosser tous les flux individuellement : on parle de cash-flow matching.

Plus simplement, si par exemple l’assureur veut servir un taux de 3% sur 10 ans, il lui suffit de

trouver un actif peu risqué (généralement les obligations) de rendement 3% et de maturité 10

ans. Cependant, il est souvent très difficile de trouver des actifs ayant une durée (ou duration)

aussi longue que certains éléments du passif. Ainsi, en pratique, l’ALM visera à réduire l’écart

entre la sensibilité de l’actif et celle du passif aux variations des taux d’intérêt.

De part leur structure bilantielle, les sociétés d’assurance vie sont exposées au risque de taux :

à la hausse brutale comme à la baisse des taux.

Risque lié à la hausse des taux : Les actifs des compagnies d’assurance vie étant constitués

majoritairement des obligations (près de 80%), une hausse des taux fait baisser la valeur de



marché des obligations. Ainsi, elle dégrade la qualité des actifs dont le rendement peut devenir

inférieur au niveau des taux servis. Les assurés sont alors incités à demander le rachat de leur

contrat car c’est dans leur intérêt de demander le remboursement de leur contrat pour profiter

de meilleures opportunités d’investissement, notamment les nouveaux contrats qui offriront

des meilleurs rendements à niveau de garanties équivalents. Par ailleurs, dans le cas où les

provisions constituées pour le rachat sont insuffisantes, l’assureur peut être conduit à revendre

des obligations dans un contexte qui lui est défavorable et réaliser des moins-values latentes :

sa rentabilité est alors pénalisée. Ainsi, en cas de hausse des taux, le risque de rachat est très

fort. Il est encore plus fort avec un risque de rachat massif dans un contexte où les décisions de

rachat des assurés sont corrélées.

Risque lié à la baisse des taux : Ce risque est d’autant plus redoutable pour l’assureur

lorsque la baisse est durable. En effet, lorsque les taux sont bas, les rendements des actifs baissent

et peuvent s’avérer insuffisants pour faire face aux engagements de l’assureur c’est-à-dire les

taux garantis par les contrats antérieurs signés en période de taux élevés. Par ailleurs, grâce

aux options intégrées de l’assurance vie, les souscripteurs peuvent effectuer des reversements

sur leur contrat et l’assureur devra alors servir un taux de rendement supérieur à celui du

marché : sa rentabilité se voit une fois de plus pénalisée. Toutefois, contrairement à la hausse

des taux, la baisse des taux engendre plutôt un risque que les rachats soient moins nombreux

par rapport à ceux anticipés par l’assureur et donc que ce dernier soit à court de liquidité. Les

assureurs devraient ainsi mettre en place des stratégies d’incitation au rachat pour les contrats

moins rentables et de diriger ses clients vers les UC afin d’attenuer l’impact de ce risque sur leur

rentabilité. Par ailleurs, le gouverneur de la banque de France recommande de réduire les taux

d’assurance vie qu’il juge encore assez élevé, afin de limiter le risque d’illiquidité des assureurs.

Ainsi, le risque de rachat et de taux sont très importants pour les sociétes d’assurance vie

d’autant plus que ces deux risques sont fortement corrélés comme nous l’avons vu précédem-

ment. En effet, la gestion du risque de taux et de rachat qui passe par de bonnes stratégies de

gestion actif-passif, est indispensable pour la solvabilité des assureurs vie.

1.2.4 Solvabilité II et risque de rachat

Les sociétés d’assurance vie sont des investisseurs institutionnels devenus des acteurs ma-

jeurs de la sphère financière. En effet, en France le chiffre d’affaire de l’assurance vie s’élevait à

près de 208 milliards d’euros en 2015 et un peu plus du tiers des ménages détient des produits

d’assurance-vie dans une logique d’épargne, de retraite ou de transmission du capital. Il est

donc logique que les autorités de contrôle interviennent sur ce secteur pour garantir la stabilité



financière et prévenir contre le risque systémique. Ainsi, la réforme réglémentaire solvabilité

2 s’appliquant aux sociétés d’assurance depuis Janvier 2016 a pour but de permettre à ces

derniers de mieux connaitre et évaluer leurs risques, en adaptant les exigences réglementaires

aux risques inhérents à leur activité afin de pouvoir allouer suffisamment de capital pour les

couvrir.

Par ailleurs, la réforme recommande une évaluation Best Estimate (BE) du risque de rachat.

À cet effet, le QIS 5 (Quantitative Impact Studies) donne des indications précises sur la modé-

lisation des lois de rachats. Pour la détermination des provisions dédiées au rachat, il distingue

les comportements de rachats dans des périodes d’activité normale (rachats structurels), des

comportements de rachats dans un environnement économique dégradé (rachats dynamiques

ou conjoncturels).

1.2.4.1 Modélisation des rachats structurels

Il est recommandé aux assureurs d’utiliser des lois d’expérience si celles-ci sont conformes

aux observations passées ou à défaut des données de marché. Etant donnée que les rachats

structurels peuvent dépendre de nombreux paramètres (âge de l’assuré, ancienneté fiscale, en-

vironnement financier, etc), ils sont invités à choisir une modélisation appropriée en fonction des

spécificités du portefeuille, de faisabilité de calculs et de validation des hypothèses. Ainsi, elle

recommande la construction des lois de rachats comportementales prenant en compte l’hétéro-

généité du portefeuille. Nous pouvons résumer les étapes de construction de la loi ci-dessous :

— Définition du périmètre et des données à observer puis extraction des données : il s’agit

des observations statistiques de rachat sur 5 à 10 ans.

— Analyse des données et élaboration des premières estimations. il s’agit de rechercher les

variables explicatives du rachat et d’estimer les taux bruts (l’estimateur de Kaplan-Meier

est généralement utilisé et permet notamment de prendre en compte les censures).

— Construction des groupes aux comportements homogènes : construire différentes lois de

rachat structurel pour ces groupes.

— Validation statistique des lois et méthodes de prolongement : les durées d’observation de

l’historique des rachats étant souvent insuffisantes, une méthode de prolongement des

lois s’impose et on obtient ainsi la loi de rachat structurel (RS)

1.2.4.2 Modélisation des rachats conjoncturels

Les rachats conjoncturels sont des rachats additionnels aux rachats structurels, qui sont pro-

voqués par une détérioration des conditions économiques. La modélisation des rachats conjonc-

turels vient donc compléter celle des rachats structurels. Elle fait intervenir la différence entre le



taux servi (TS) par l’assureur et le taux attendu (TA) par l’assuré : si le taux servi est inférieur

au taux attendu, les assurés auront tendance à plus racheter que dans une situation normale.

Le taux de rachats conjoncturels (RC) s’appliquant sur les contrats monosupports est alors

fonction de l’écart entre le TS et le TA défini comme suit :

RC(TS, TA) =

RCmax si TS − TA < α

RCmax ∗(TS−TA−β

α−β

)si α < TS − TA < β

0 si β < TS − TA < γ

RCmin ∗(TS−TA−γ

δ−γ

)si γ < TS − TA < δ

RCmin si TS − TA > δ

Avec :

— α : est le seuil en-deçà duquel les rachats conjoncturels sont constants et fixés à un

maximum. Ce n’est plus l’écart de taux qui explique le comportement des assurés.

— β et γ : sont respectivement les seuils d’indifférence à la baisse et à la hausse du taux

servi.

— δ : est le seuil au-delà duquel la diminution du taux de rachat structurel est constante

et fixée à un minimum. Ce n’est plus l’écart de taux qui explique le comportement des

assurés.

Ainsi, nous obtenons une forme en S de la loi de rachat suivante :

Figure 1.1 – Forme de la loi de rachat dynamique

Le taux de rachat total est alors obtenu par la formule :

RT (TS, TA, .) = min(1,max(0, RS(.) +RC(TS, TA)))



1.2.5 La fiscalité et le rachat en assurance vie

L’assurance vie bénéficie d’une fiscalité avantageuse, adaptée à l’horizon des placements et

destinée à encourager l’épargne de long terme. Pendant la phase d’épargne, les placements sont

exonérés d’impôts et de prélévements sociaux sur les plus-values réalisés lors des arbitrages.

Ainsi, cette fiscalité favorable sera de nature à impacter le comportement de rachat des assurés.

Notons qu’il existe une distinction entre fiscalité en cas de vie et fiscalité en cas de décès.

Nous ne présenterons que la ficalité en cas de vie ou de rachat. Retenons qu’en cas de rachat,

seules les plus-values sont soumises à imposition. La fiscalité est particulièrement priviligiée

en cas de rachat après 8 ans mais aussi avant comme nous le montre la figure 1.2 ci-dessous

(source : L’Argus de l’assurance).

Figure 1.2 – Fiscalité en Assurance vie

Ainsi, en cas de rachat total ou partiel, ce ne sont que les intérêts qui sont taxés, et ce en

fonction du choix du souscripteur entre prélèvement libératoire ou intégration des intérêts dans

le revenu imposable. En absence de choix clairement exprimé par le souscripteur, l’intégration

dans le revenu imposable est automatiquement retenue par la compagnie. Par ailleurs, notons

que quelque soit le mode d’imposition retenu, les plus-values acquises sont soumises aux pré-

lèvements sociaux pour un montant de 12.1% au titre du Revenu de Solidarité Active (RSA).

Dans le cadre de la modélisation des rachats structurels, l’ancienneté apparait donc comme

une variable très importante. Nombreuses sont donc les compagnies qui n’utilisent que cette

variable pour contruire leur loi de rachat, c’est le cas d’Allianz France.


Chapitre 2

Approches de Modélisation du Rachat

À la suite de la présentation du cadre conceptuel de l’assurance vie dans lequel s’inscrit

cette étude, nous nous attardons dans ce chapitre sur les différentes approches de modélisation

du risque de rachat existants dans la littérature ainsi que celle adoptée par Allianz et nous

déboucherons enfin sur notre propre approche méthodologique.

2.1 Revue de la littérature

Depuis les années quatre-vingt, la littérature théorique et empirique n’a cessé de se dé-

velopper sur la modélisation du risque de rachat en assurance vie. Traditionnellement, deux

hypothèses ont été formulées : d’une part l’hypothèse de fonds de réserve ou d’urgence selon

laquelle un assuré rachèterait son contrat pour faire face à un choc négatif non anticipé, et

d’autre part l’hypothèse de rendement selon laquelle un assuré rachèterait son contrat pour

l’investir ailleurs afin d’obtenir un meilleur rendement. Eling et Kochanski (2012) passent en

revue les travaux qui ont déjà été faits sur le rachat ainsi que les nouveaux axes potentiels de

recherche dans ce domaine. Globalement, il se dégage principalement quatre grandes approches

de modélisation du risque de rachat : une approche financière, une approche statistique, une

approche microéconomique et une approche probabiliste.

2.1.1 Approche financière

La modélisation du risque de rachat par une approche financière représente vraisemblement

le domaine dans lequel la littérature est la plus fournie. L’option de rachat étant un droit

que confère l’assureur à l’assuré de retirer une partie ou la totalité de son épargne à tout

moment, il est assimilable à une option américaine en finance (c’est-à-dire une option que l’on

peut exercer à tout moment) dont la valorisation représente un axe principal de la recherche

en mathématiques financières. Si les travaux de Black et Scholes (1973) ont débouchés à la

15


détermination de formules fermées de la valeur des options européennes, en ce qui concerne les

options américaines, aucune formule exacte n’a encore été déterminée au profit des méthodes

numériques. Dans le domaine du rachat, trois méthodes de valorisation ont été priviliégiées :

le modèle de Cox-Ross-Rubinstein (CRR), l’algorithme de Longstaff-Schwartz et les Equations

aux Dérivés Partielles (EDP).

Cox et al. (1979) ont proposé une modélisation de l’évolution du prix d’un actif à partir

d’arbres binomiaux pour donner naissance au modèle Cox-Ross-Rubinstein (CRR). Le modèle

CRR s’applique sur un marché financier idéaliste et formule deux principales hypothèses : un

marché sans friction et d’Absence d’Opportunité d’Arbitrage (AOA). En notant St le cours

d’un actif à la date t et S0 son prix initial, le processus de CRR St est une marche aléatoire

géométrique définie par S0 et la relation :

St+1 = USt avec U ∈ {Up,Down}

Nous souhaitons valoriser une option américaine de sous-jacent St et de maturité T . A la

maturité T, il est clair que la valeur de l’option est son pay off ZT (avec ZT = (ST −K)+ pour

un Call américain et ZT = (K − ST )+ pour un Put américain, où K représente le strike ou

valeur d’exercice de l’option). Si nous nous plaçons maintenant à la date T − 1, deux cas de

figures se présentent :

— L’acheteur de l’option exerce immédiatement et réalise alors un gain de ZT−1. Alors, la

valeur de l’option est au moins ZT−1 en T − 1

— L’acheteur de l’option n’exerce pas et le fera alors éventuellement à la date T . La somme

encaissée en T − 1 permettant de fournir en T la somme ZN est 11+r

E(ZT/FN−1) (où Stest adapté à la filtration Ft et r désignant le taux d’intérêt )

Ainsi, la valeur de l’option à la date T − 1 est donnée par :

VT−1 = max(ZT−1,1

1 + rE(ZT/FT−1))

Par récurrence, on définie ainsi la valeur de l’option américaine à tout instant t par la

relation :

∀t ∈ [1, T ], Vt−1 = max(Zt−1,1

1 + rE(Zt/Ft−1))

Dans le cadre d’une approche financière, bon nombre d’auteurs se sont basés sur le modèle

CRR pour modéliser le risque de rachat en assurance vie à l’instar de Bacinello (2005), Grosen

et Jorgensen (2000) et Costabile et al.(2008). Le premier utilise l’algorithme de la formule

binomiale récursive du modèle CRR pour déterminer la valeur de rachat des contrats UC en



divisant le prix du contrat entre la valeur de trois composantes : le contrat de base, l’option de

participation et l’option de rachat. Grosen et Jorgensen (2000) montre que les contrats fonds

euros peuvent se décomposer en un élément sans risque, une option de bonus et une option

de rachat, et construit un modèle dynamique basé sur le CRR pour évaluer séparément ces

différents éléments. Costabile et al.(2008) utilise le modèle binomial CRR pour valoriser des

contrats d’assurance vie de type Variables Annuities avec option de rachat et garantie minimum.

L’algorithme de Longstaff-Schwartz a aussi suscité de l’intérêt chez certains auteurs. Le prin-

cipe de cet algorithme est de tirer différentes trajectoires du modèle Black-Scholes et ensuite

calculer par une méthode Monte-Carlo le prix de l’option. Nordahl (2008) utilise l’algorithme

de Longstaff-Schwartz pour déterminer la valeur de l’option de rachat des contrats d’assurance

vie et de retraite, qu’il assimile à deux options de type américaines ayant un strike stochastique.

Andreatta et Corradin (2003) propose une valorisation de l’option de rachat des contrats d’assu-

rance vie italiens, fixée comme le prix d’une option de vente de type américaine par simulation

Monte-Carlo selon l’approche des moindres carrées de Longstaff-Schwartz. Ils comparent ainsi

leur résultats à ceux de Grosen et Jorgensen (2000) qui utilisent l’approche binomiale récur-

sive du modèle CRR. Une dernière approche consiste à exprimer le prix de l’option sous forme

d’EDP et l’évaluer numériquement par Monte-carlo. Steffensen (2002) analyse les différentes

options cachées incluses dans les contrats d’assurance vie et de retraite et évalue l’option de ra-

chat comme le prix d’une option américaine en utilisant les EDP. Shen et Xu (2005) cherchent à

déterminer la juste valeur des contrats en UC indéxés sur les actions et à taux d’intérêt garanti,

avec ou sans option de rachat, par la méthode des EDP. Pour l’évaluation des contrats avec

option de rachat, le problème se réduit à un modèle à EDP avec les limites libres.

Kaltwasser et Le Moine (2007) abordent le rachat dans une optique de solvabilité des com-

pagnies d’assurance vie et évaluent le prix théorique de la couverture des rachats des contrats

fonds euros à taux garantis rg. En effet, pour un taux de rachat empirique en nombre xi à la

date i, l’assureur doit payer xi(1 + rg)i aux assurés qui rachètent et doit donc par conséquent

vendre une partie de ses actifs xiSi. Dans le but de se protéger contre ces rachats, l’assureur

doit donc couvrir la perte éventuelle [xi(1 + rg)i−xiSi]+ qui a la forme du pay-off d’une option

de vente et obtient ainsi ce prix en utilisant un modèle de Black-Scholes classique. Vandaele et

Vanmaele (2008) aborde aussi le rachat des contrats en UC dans une optique de stratégie de

couverture et se basent sur le fait que l’introduction d’une option de rachat sur les contrats UC

entraine une dépendance entre le moment du rachat et la santé des marchés financiers.



Ainsi, notons que l’approche financière de modélisation du risque de rachat comme une

option américaine se base sur l’hypothèse de rendement et concerne davantage les rachats

conjoncturels. Toutefois, cette approche ne modélise pas les comportements des assurés. Par

ailleurs, sa faiblesse est l’absence de prise en compte de l’irrationnalité des assurés car elle

suppose qu’à tout instant les assurés sont rationnels et ne rachètent que suite à des variations

de taux d’intérêt alors qu’il peut arriver que l’assuré ait un besoin de liquidité ponctuel.

2.1.2 Approche statistique

L’approche statistique dont nous faisons allusion ici est celle sous forme de série temporelle

qui modélise de façon agrégée les taux de rachat. L’objectif est d’analyser et prévoir les taux de

rachat temporels (mensuellement, trimestriellement ou annuellement) en utilisant la notion de

cointégration, qui est une propriété statistique des séries temporelles introduite dans l’analyse

économique par Engle et Granger (1981), pour détecter la relation de long terme entre deux

ou plusieurs séries temporelles. Il s’agit donc de mettre en relation le taux de rachat avec les

variables économiques et financières pouvant influencer le rachat (taux d’intérêt, taux d’infla-

tion, taux de chômage, etc.) afin d’estimer la relation de long terme et ainsi prévoir le taux de

rachat.

Dans la littérature, cette approche a sucité de l’engouement chez bon nombre d’auteurs. Engle

et Granger (1987) utilisent la méthode des Moindres Carrées Ordinaires (MCO) pour estimer

un modèle de cointégration entre le taux de rachat, le taux d’intérêt et le taux de chômage. Kuo

et al. (2003) utilise la technique de cointégration pour examiner les hypothèses rivales de rachat

(hypothèse de fonds d’urgence et hypothèse de rendement) en assurance vie. En mettant en

oeuvre un modèle à correction d’erreur (VEC), ils trouvent que le taux de chômage influence

le taux de rachat à long terme comme à court terme, tandis que le taux d’intérêt l’affecte

principalement à long terme. Ainsi, si l’hypothèse de fonds d’urgence semble l’emporter, les

résultats de leur analyse des réponses impulsionnelles montre que l’impact du taux d’intérêt

sur le taux de rachat prédomine par rapport à celle du taux de chomage. En d’autres termes,

l’hypothèse de rendement est favorisée par rapport à l’hypothèse de fonds d’urgence. Grimal

(2007) estime un modèle autoregressif vectoriel (VAR) sur la période 2003-2008 pour mettre

en relation les variables indice CAC40, OAT à 10 ans et taux de rachat dans le but de détecter

les variables financières pertinentes influançant le rachat et ainsi construire une loi de rachat

dynamique multivariée. Les résultats montrent une influence notable des variations de l’indice

du CAC40 sur le taux de rachat. 1

1. L’indice CAC40 représente l’indicateur financier des 40 plus grandes entreprises françaises et l’OAT à 10ans désigne le taux d’Obligation Assimilable du Trésor de maturité 10 ans.



Nous retrouvons aussi dans la littérature, une approche statistique visant à déterminer des lois

de rachat paramétriques en fonction de l’ancienneté. L’objectif est de calibrer les taux de rachat

à partir de données empiriques agrégées de rachats à partir de la formulation mathématique

suivante :

r(x) = r0 ∗ [1− a ∗ ln(x+ 1) ∗ (ln(x+ 1)− b)]

r(x) désigne l’estimation du taux de rachat à l’ancienneté x du contrat

r0 désigne le taux de rachat au cours de la première année

a est le paramère d’échelle positif qui détermine la fréquence de rachats sur le contrat

b est le paramètre indiquant l’emplacement du pic de rachat

Les paramètres a et b peuvent être estimés par la méthode des MCO/

(a, b) = argminN∑x=0

(robs(x)− r0 ∗ [1− a ∗ ln(x+ 1) ∗ (ln(x+ 1)− b)]

σr

)2

2.1.3 Approche microéconomique

L’approche microéconomique tente de modéliser les comportements des assurés en se basant

sur la théorie de l’espérance d’utilité. En effet, la théorie microéconomique étudie les décisions

individuelles des agents économiques et s’applique ici à la décision de rachat. Pour pallier

au paradoxe de Saint Pertersburg, le célèbre axiome de Von Neumann-Morgenstern (VNM)

stipule que tout agent économique confronté à une décision risquée choisirait celle qui maximise

son espérance d’utilité appelée utilité de VNM. La littérature sur le rachat s’accorde à faire

l’hypothèse que les assurés sont des investisseurs rationnels et sont averses au risque, et postule

alors une fonction d’utilité de type CRRA (Constant Relative Risk Aversion).

Cheung et Yang (2005) étudient le moment optimal de rachat pour les produits UC indéxés

sur les actions en supposant des préférences CRRA et utilisent un modèle à changement de

régime markovien à temps discret. Ils explicitent la valeur du contrat par Wt = W0

t−1∏k=0

f(RWkk )

avec RWkk désignant le rendement du support de l’unité de compte entre les dates k et k + 1

sous le régime Wk. Etant donné la fonction d’utilité CRRA U(W ) = W γ

γ, le temps optimal de

rachat est le temps d’arrêt τ , solution du programme d’optimisation suivant :

maxτ∈T0

E

(U(Wτ )

(1 + r)τ

)Fauvel et Le Pévédic (2007) adoptent cette approche microéconomique dans leur mémoire

pour analyser l’arbitrage entre emprunts et rachats partiels des contrats multisupports. Ils



caractérisent un contrat d’assurance vie par son ancienneté, son taux de rendement re et la

part des primes versées dans la Provision Mathématique (PM) égale à CPVPM

. Le taux sans

risque du marché étant r, τ0 et τ1 les taux fiscaux aux dates 0 et 1 respectivement. Dans un

premier temps, ils étudient le cas des contrats totalement investis en euros et en appliquant la

théorie de Von Neumann et Morgenstern, ils déterminent la courbe d’indifférence entre emprunt

et rachat partiel par :

f(re) = (1 + re) ∗

1− τ1 ∗(

1− CPVPM∗(1+re)

)1− τ0 ∗

(1− CPV

PM

)

L’assuré emprunte lorsque r < f(re), il réalise un rachat partiel lorsque r > f(re) et

est indifférent entre rachat partiel et emprunt lorsque r = f(re). Dans un second temps, ils

étudient les contrats investis totalement en UC et différencient le cas des fonctions d’utilité

CARA (Constant Absolute Risk Aversion) et CRRA. Ils démontrent que l’assuré averse au

risque choisit d’emprunter plutôt que de racheter lorsque la volatilité du rendement du support

de l’UC est inférieure à un certain seuil et que la baisse de la fiscalité en cas d’emprunt attenue

la contrainte sur ce seuil.

2.1.4 Approche probabiliste

L’approche probabiliste est une approche individuelle permettant d’expliquer les comporte-

ments de rachat des assurés par un ensemble de caractéristiques du produit et/ou de l’assuré.

Elle vise à modéliser la décision de rachat en utilisant des modèles probabilistes et/ou écono-

métriques et ainsi obtenir des probabilités individuelles de rachat afin de prédire le rachat d’un

assuré.

Renshaw et Haberman (1986) se sont intéressés à la modélisation des comportements de

rachat des contrats d’assurance vie en Ecosse. À partir des données de sept compagnies d’as-

surance sur l’année 1976, ils ont modélisé le rachat à partir de l’âge et le sexe de l’assuré,

l’ancienneté, le type de produit et la compagnie en utilisant le modèle de régression logistique

et le modèle binomial. Ils ont pu déceler quatre facteurs importants de risque de rachat : l’âge

de souscription, l’ancienneté, la compagnie et le type de contrat. De plus, ils ont mis en évi-

dence une interaction significative entre le type de contrat et l’ancienneté. Kagraoka (2005)

analyse la décision de rachat des contrats d’assurance auto d’une compagnie Japonnaise sur

la période 1993-2001. Ils utilisent un modèle de Poisson et un modèle binomial négatif à par-

tir des variables explicatives : âge et sexe de l’assuré, taux de chômage et une variable pour

capter la saisonalité et l’hétérogénéité. Il en découle de ces travaux que la décision de rachat



est expliquée par une variation du taux de chômage au cours de la vie du contrat. Cerchiara

et al.(2009) utilisent un modèle de Poisson pour expliquer les rachats des contrats d’épargne

d’une compagnie Italienne sur la période de 1991 à 2007. Ils retiennent les variables explica-

tives : l’âge de l’assuré et du contrat, le type de produit et l’année calendaire. Les résultats

montrent une forte influence de l’ancienneté mais aussi une sensibilité significative des taux

de rachats à l’année calendaire d’exposition, du type de produit et de l’âge de l’assuré. Eling

and Kiesenbauer (2011) s’intéressent aux contrats d’assurance vie en Allemagne et utilisent les

modéles de Poisson, binomial et binomial négatif pour expliquer le rachat à partir de l’âge et

le sexe de l’assuré, l’ancienneté et le type de produit. Il en ressort que les caractéristiques du

produit (type de produit et ancienneté) ainsi que les caractéristiques de l’assuré (genre et âge)

sont des facteurs importants expliquant le rachat.

Milhaud (2011) dans son excellent mémoire s’intéresse au risque de rachat et cherche à modé-

liser la décision de rachat des contrats d’assurance vie sur la période 2000-2007. Dans un premier

temps, il réalise une analyse statique et utilise les techniques de classification (arbres de décision,

forêt aléatoire et régression logistique) pour segmenter et prévoir le risque de rachat à partir du

type de contrat, l’ancienneté, la richesse de l’assuré, la fréquence de prime, la prime d’épargne,

l’âge de souscription, le sexe de l’assuré et la prime de risque. Ces variables influencent de façon

significative la décision de rachat à l’exception des deux dernières qui semblent peu significa-

tives. Les forêts aléatoires mettent en évidence l’importance de l’ancienneté suivi par le type

de contrat et la richesse de l’assuré. Dans un deuxième temps, afin de prendre en compte les

variables économiques et financières, il utilise le modèle de régression logistique dynamique en

rajoutant comme covariables le taux de chômage, le taux servi des contrats et le taux d’intérêt.

Bien que les résultats obtenus semblaient acceptables, ce modèle marche très mal en situation

extrême et il le corrige en prennant en compte les crises de corrélation dans le comportement

des assurés. Finalement, il adopte un modèle de mélange de régressions logistiques qui prédit

mieux les décisions de rachat des assurés, même en situation extrême.

Une dernière tentative d’analyse du rachat est de le modéliser par analyse de survie. La

question n’étant plus de prédire la survenance d’un rachat ou pas, mais plutôt de se demander

s’il y a rachat, dans combien de temps il interviendra ; ce qui pousse à une application du modèle

semi-paramétrique de Cox. Seror et Yengue (2013) dans leur mémoire mettent en oeuvre un

modèle de Cox intégrant les facteurs de risques structurels et conjoncturels pour modéliser le

rachat dans un cadre de risque compétitif, en s’inspirant du modèle de Fine-Gray qui a été

appliqué sur un portefeuille de contrats américains. Notons que cette approche par un modèle

de Cox permet de prendre en compte la censure et/ou la troncature du portefeuille.



Ainsi, nous constatons que la modélisation du rachat a sucité un grand intérêt dans la littéra-

ture avec principalement quatre grandes approches qui s’en dégagent. Les approches financières

et micréoconomiques se fondent principalement sur la rationnalité des assurés, hypothèse qui

nous semble très discutable. L’approche statistique sous forme de série temporelle permet bien

de prévoir la dynamique des taux de rachat collectifs mais sans prendre en compte les spécificités

individuelles qui elles sont captées dans l’approche probabiliste.

2.2 Modélisation du rachat chez Allianz

L’objectif de cette section est de présenter la méthodologie de gestion du risque de rachat

au sein d’Allianz France. Dans le cadre d’une intégration dans les modèles de rentabilité et

de valorisation de portefeuille, les lois de rachats sont construites chaque année en distinguant

les lois de rachat partiel et les lois de rachat total, ainsi que les rachats structurels et les

rachats conjoncturels. Comme la grande majorité des professionnels de l’assurance vie, Allianz

France aborde ces lois de rachat en termes de montant et les construit à la fois sur les produits

monosupports et multisupports suivant les mailles famille de produits, réseau de distribution

et type de support.

2.2.1 Modélisation des rachats structurels

Le calcul des taux de rachat structurel se fait par ancienneté du contrat et suivant la taille

des mailles, la méthode de calcul est soit une méthode de Kaplan-Meier en prennant en compte

les mouvements, soit un calcul direct par ancienneté, soit un taux flat global. La méthodologie

de calcul est résumée sur la figure 2.1 ci-dessous.

Figure 2.1 – Méthodologie de calcul des taux de rachat au sein d’Allianz France

Ainsi, après avoir calculé les taux, ils sont prolongés par la moyenne des 5 derniers taux

après le pic fiscal. La loi de rachat proposée correspond donc à la moyenne des taux des trois

dernières années.



2.2.1.1 Estimation par Kaplan-Meier

Cette méthode d’estimation tente d’étendre l’estimateur non-paramétrique de Kaplan-Meier

appliqué aux taux de mortalité aux taux de rachat. En effet, dans le portefeuille, il existerait

d’autres évènements de sorties autres que les rachats (décès, transformation, etc.), alors nous

seront éventuellement en présence de censure et/ou de troncature et l’estimateur de Kaplan-

Meier permet de le prendre en compte. Au préalable, il est question de reconstituer la PM

d’ouverture qui représente donc l’exposition car nous ne disposons à priori que de la PM de

clôture.

PM ouverturei,N = PM clture

N −12∑j=i

Vj +12∑j=i

Prestj

Avec les notations :

PM ouverturei,N : la provision mathématique d’ouverture du mois i de l’année N

PM cltureN : la provision mathématique de clôture de l’année N

Vj : les versements du mois j de l’année N

Prestj : les prestations pour le mois j de l’année N

Ainsi, on obtient le taux brut de rachat Kaplan-Meier pour l’ancienneté k par la formule :

τk = 1−12∏i=1

(1− Rachati,k

PM ouverturei,k

)

La figure 2.2 ci-dessous nous présente un exemple de loi de rachat construite sur une maille

donnée (la gamme Tellus) en 2015.

Figure 2.2 – Loi de rachat 2015 : rachat partiel (en rouge) et rachat total (en bleu)



Nous constatons que les taux de rachat partiel sont plus élevés que les taux de rachat total.

Par ailleurs, on observe bien l’influence de la fiscalité sur les rachats avec le pic fiscal après 8 ans,

tant pour les rachats partiels que pour les rachats totaux. Nous constatons aussi une importance

des rachats précoces qui interviennent pour les contrats de moins de 2 ans d’ancienneté. De

plus, nous retrouvons bien le prolongement des lois qui deviennent stables à partir de 25 ans

d’ancienneté.

2.2.1.2 Estimation par calcul direct et taux flat

Cette méthode de calcul est utilisée lorsque la maille retenue est assez grande. Le calcul

des taux de rachats par ancienneté se fait de façon directe comme étant le rapport du montant

racheté sur l’exposition ou provision mathématique d’ouverture. La PM d’ouverture pour une

ancienneté k est obtenu par : PMk = PMcloture,k + RachatsTotauxk + RachatsPartielsk +

Termesk. Le taux de rachat à l’ancienneté k est donc défini par :

τk =Rachati,kPM ouverture

i,k

Pour les mailles de petite taille, un taux flat est appliqué. Ce taux flat est défini en excluant

l’ancienneté et en calculant un taux global par la formule :

τ =

N∑k=0

Rachatk

N∑k=0

PM ouverturek

La loi de rachat selon l’ancienneté telle qu’elle sera intégrée dans les modèles de rentabilité

est donc une constante fixée au taux flat.

2.2.2 Modélisation des rachats dynamiques

La modélisation des rachats dynamiques au sein d’Allianz France repose sur les travaux

de Suru (2011) dans le cadre de son mémoire. La loi de rachat dynamique prend la forme

d’une courbe en S et est étroitement liée à la forme de la loi réglémentaire présentée plus haut.

Le principe postule sur le fait que le taux de rachat dynamique dépend d’un taux de rachat

déterministe corrigé d’une déviation. Cette dernière dépend de la différence entre le taux servi

par l’assureur et un taux benchmark de marché δ.

τ = τdeterministe ∗ (1 + deviation(δ))

La forme en S de la loi est présentée par la figure 2.3 ci-dessous et prend en compte trois



principaux parmètres contrairement à six paramètres si la loi réglémentaire était utilisée.

surr-incr-begin : correspond au taux benchmark du marché tel que toute nouvelle augmen-

tation de la différence de taux entraîne une augmentation du taux de rachat.

surr-incr-end : correspond au taux benchmark tel que toute nouvelle augmentation de la

différence n’entraîne plus d’augmentation du taux de rachat (les assurés sont insensibles à un

taux de marché déjà assez important).

surr-incr-max : correspond à la pire déviation possible sur le taux de rachat.

Figure 2.3 – Forme de la loi de rachat dynamique au sein d’Allianz

Les paramètres surr-incr-begin et surr-incr-end sont calculés directement à partir d’un

arbitrage de l’assuré sur le retour sur investissement (ROI) de son contrat. En se basant sur le

fait que les taux de rachat ne peuvent pas prendre de valeurs très importantes sur une longue

durée, en parallèle avec la physique, ce phénomène peut être modélisé par une force de rappel

vers une valeur moyenne. Ainsi, le paramètre surr-incr-max est estimé à partir de l’historique

des taux de rachats calibrés sur un modéle de Vasicek que nous ne présenterons pas.

2.3 Méthodologie de l’étude

Dans le cadre de ce mémoire, nous priviliégions donc l’approche probabiliste qui permet bien

de modéliser les comportements individuels de rachats des assurés. Notons que la modélisation

du rachat peut être assimilable à une approche fréquence/coût empruntée à la tarification

en assurance non-vie. Ainsi, nous avons d’une part la survenance de rachat, et d’autre part

l’intensité de rachat. Ce dernier est égale à la totalité du montant racheté (pour les rachats

totaux) et la moyenne sur tous les rachats partiels de la part d’encours racheté partiellement

(pour les rachats partiels).



Nous nous proposons de modéliser les comportements de rachats en utilisant les techniques

de machine learning, en se restreignant dans le cadre de ce mémoire au cas du rachat total.

Traditionnellement, les modèles linéaires généralisés (GLM) sont utilisés mais malgré leur per-

formance, ces modèles imposent souvent des contraintes conduisant dans certaines populations

d’assurés à des estimations biaisées. De part leur nature non paramétrique, les algorithmes d’ap-

prentissage statistique s’affranchissent de ces contraintes notamment en prenant en compte les

incertitudes et permettent d’obtenir des prédictions plus individualisées.

2.3.1 Limites des GLM et apports du machine learning

Les GLM qui relèvent de la statistique classique sont des extensions du modèle linéaire

simple et permettent à la fois de modéliser des comportements non-linéaires (grâce aux fonc-

tions de liens) et des distributions de résidus non-gaussiens. De plus, ils bénéficient d’un cadre

théorique dans lequel il est possible d’effectuer des tests statistiques pour évaluer l’adéquation

du modèle aux données. Toutefois, ces modéles issus de la statistique paramétrique possèdent

deux limites qui sont de nature à réduire leurs capacités prédictives : la détection et la modéli-

sation d’interactions entre les variables quantitatives ou qualitatives car dans un modèle GLM,

les interactions doivent être spécifiées à priori par l’actuaire.

Contrairement à la statistique classique, les techniques machine learning n’imposent pas des

hypothèses sur la structure et la distribution des données (d’où sa nature non paramétrique) ; il

ne formule qu’une seule hypothèse : les données à prédire doivent être générées de façons iden-

tiques et indépendantes par un processus donné à partir d’un vecteur des variables explicatives.

Ici, nous n’avons plus un seul modèle, mais des modèles qui seront agrégés ou synthétisés par

la suite ; ce qui réduit le risque modèle. Il s’agit donc de construire un algorithme à complexi-

fication croissante, qui va apprendre des données à partir de différents modèles et prédire de

façon précise la valeur d’une variable en fonction des valeurs explicatives en commettant l’er-

reur la plus faible. Ces algorithmes sont capables de modéliser des structures de dépendances

complexes à partir des données, alors que ces dépendances doivent être spécifiées par l’actuaire

en utilisant les GLM. De plus, il utilise des techniques de reéchantillonnage pour décorréler les

différents estimateurs. Le modèle optimal n’est pas forcément celui qui donne le meilleur ajus-

tement sur la base de données, mais celui qui réduit l’erreur de la valeur prédite sur une autre

base, ce qui est donc de nature à renforcer la robustesse des résultats prédits. Cependant, bien

que les méthodes de machine learning conduisent à des estimations plus précises, leurs résultats

restent plus difficilement interprétables contrairement aux GLM : c’est pourquoi on les qualifie

généralement de modèle boite noire. Ainsi, une utilisation conjointe de ces deux approches est

souvent préconisée.



2.3.2 Démarche retenue

La démarche d’analyse que nous retenons est la démarhe classique de tout projet de ma-

chine learning. Dans un premier temps, nous faisons une analyse statique qui renvoie à une

photographie du portefeuille en Décembre 2015 des produits multisupports phares d’Allianz

vie. Elle couvre la période 2011-2015 et porte sur une vingtaine de variables concernant à la

fois les caractéristiques du produit et de l’assuré. Ces variables sont observées à leur date de

rachat pour les contrats rachetés et en Décembre 2015 pour les contrats non rachetés. Dans un

second temps, nous nous proposons d’aller vers des comportements dynamiques en rajoutant

les facteurs économiques et financiers pour capter les effets croisés structurels et conjoncturels.

La phase d’extraction et de préparation des données s’est faite sous le logiciel SAS et la phase

d’analyse et de modélisation sous les logiciels R et Python.

Etape 1 : Exploration des données et feature engineering

L’exploration et/ou la préparation des données fait référence au nettoyage et à la mise en

forme des données. Elles passent essentiellement par une analyse préliminaire des données :

tris à plat, statistiques descriptives, etc. Cette étape nous permet aussi d’apurer la base de

données afin de nous assurer de la qualité des données. Elle passe alors par des techniques

d’écrétage et de correction des données brutes par le traitement des données manquantes et/ou

aberrantes. Ainsi, à partir de cette base dite propre, s’ensuivra l’étape de feature engineering qui

consistera à modifier et/ou créer de nouvelles variables pertinentes (les features) pour l’étape

d’apprentissage proprement dite.

Etape 2 : Echantillonnage ou splitting

La phase de splitting ou encore d’échantillonnage est délicate et incontournable en machine

learning. Elle est très cruciale ce d’autant plus que nombreuses sont les techniques de prédiction

qui en sont très sensibles. Classiquement, la base de données est divisée en un échantillon

d’apprentissage (70%) sur lequel sont implémentés les différents modèles, un échantillon de

validation (20%) n’ayant pas servi à l’apprentissage, et qui permet de faire le tunning parameters

et de comparer la qualité prédictive des différents modèles, et enfin un échantillon test (10%)

pour tester l’adéquation du modèle optimal (au sens de l’échantillon de validation) et évaluer

objectivement l’erreur commise.



Figure 2.4 – Illustration du sur-apprentissage

Cette étape d’échantillonnage nous permet donc d’éviter le risque de sur apprentissage. En

prenant le cas où l’on utilise un échantillon d’apprentissage et de test, la figure 2.4 ci-avant

nous illustre le sur-apprentissage. En effet, les prédictions sur l’échantillon d’apprentissage ne

doivent pas s’écarter de celle sur l’échantillon test : elles doivent être comparables. Ainsi, si les

prédictions sont beaucoup moins précises sur l’échantillon test que sur l’échantillon d’appren-

tissage alors on parle de sur-apprentissage (overfiting) car le modèle s’ajuste trop aux données

d’apprentissage en se trompant lorsqu’on change d’échantillon. Par contre, si les prédictions

sont beaucoup plus précises sur l’échantillon test que sur l’échantillon d’apprentissage alors on

parle de sous-apprentissage (underfiting).

Ces échantillons pouvent être obtenus en utilisant différentes techniques de sélection d’échan-

tillon (tirage aléatoire simple, par tirage systématique, par stratification ou encore par grappes).

Dans le cadre de notre étude, nous avons retenu un tirage aléatoire simple sans remise et nous

avons fait le choix de diviser en deux échantillons : échantillon d’apprentissage (70%) et échan-

tillon test (30%).

Etape 3 : Apprentissage supervisé

Le coeur de l’apprentissage automatique, ce sont les algorithmes qui permettent d’entraîner

le modèle. On distingue généralement l’apprentissage non supervisé (on fournit au modèle un

jeu de données pour le laisser déterminer des structures en son sein) et l’apprentissage supervisé

(on fournit au modèle un jeu de données associé à un signal et il doit réaliser des prédictions).

Dans le cadre de notre étude, le signal est la décision de rachat et nous aurons donc recours

à l’apprentissage supervisé en implémentant différents modèles de prédiction. La figure 2.5 ci-

dessous (source : Friedman et al. (2008)) nous présente quelques éléments de comparaison des

modèles de machine learning, lesquels nous guiderons dans le choix des méthodes à implémenter.



Nous constatons que le Gradient Boosting est bien noté sur presque tous les critères tandis

que les réseaux de neurones et les Supports Vectors Machine (SVM) apparaissent comme des

modèles boîte noire malgré leur fortes capacités prédictives. Les arbres de décisions semblent être

le meilleur modèle mais ils ont de très faibles capacités prédictives. La présentation théorique

plus détaillée de ces méthodes de machine learning se fera au chapitre qui suit.

Figure 2.5 – Quelques élements de comparaison des modèles de machine learning

Etape 4 : Comparaison des modèles

Une fois les prédictions faites à travers les différents modèles, il est important de mesurer

leur qualité et de comparer leurs performances. Nous présentons ci-dessous quelques indicateurs

permettant de mesurer la qualité d’un modèle.

Courbe ROC

La courbe ROC (Receiver Operating Characteristic) est une mesure de la performance d’un

classifieur binaire et fût inventé pendant la seconde guerre mondiale pour montrer la séparation

entre les signaux radar et le bruit de fond. En statistique, elle est utilisée pour évaluer l’efficacité

d’une discrimination en deux groupes. c’est une représentation du taux de vrais positifs en



fonction du taux de faux positifs. Son intérêt est de s’affranchir de la taille des données de

test dans le cas où les données sont déséquilibrées. A partir des deux groupes à discriminer (le

groupe des « Rachat » ou des « positifs » et le groupe des « Non rachat » ou des « négatifs »),

nous définissons deux fonctions du seuil de séparation s du score :

— La sensibilité : α(s) = P(score ≥ s|Rachat) = probabilité de bien détecter un positif

— La spécificité : β(s) = P(score < s|Nonrachat) = probabilité de bien détecter un négatif

La courbe ROC est donc la courbe ayant pour abscisse 1-spécificité et d’ordonnée la sensibi-

lité. Le modèle optimal permet alors de capturer le plus possible de vrais positifs avec le moins

possible de faux positifs. En superposant les courbes ROC des différents modèles, le meilleur

modèle sera celui le plus éloigné de la première bissectrice c’est à dire celui qui est au-dessus

des autres courbes. Toutefois, en cas d’ambiguïté, cette représentation met en avant un nouvel

indicateur qui est l’aire sous la courbe (AUC), plus elle se rapproche de 1, plus le classifieur

est performant. Cet indicateur est obtenu par AUC = P (score(x) > score(y)) avec x et y tirés

au hasard dans le groupe des « Rachat » et « Non rachat » respectivement. l’AUC varie ainsi

entre 0 et 1.

Courbe Lift

La courbe lift est une autre mesure de la performance d’un modèle prédictif. Elle est très

utilisée en marketing pour le ciblage des clients les plus appétents en vu d’optimiser les cam-

pagnes marketing. Elle synthétise de façon visuelle l’information apportée par un modèle de

prédiction dans le cas d’une variable cible binaire, mais aussi dans le cas de variables cibles

multinomiales (les courbes Lifts sont ainsi construites pour chaque catégorie). La courbe lift

encore appelé courbe de gain synthétise les gains auxquels l’on pourrait s’attendre en utilisant

un modèle par rapport à l’utilisation de l’information de référence uniquement. Cette courbe

est obtenue en ordonnant en abscisse les observations par score décroissant α(s) en fonction de

1− γ(s) (avec γ(s) désignant le taux de positifs dans la population avec score supérieur à s).

A partir de la courbe Lift, nous pouvons dégager deux indicateurs de performance :

— Indicateur KI : le rapport de l’aire M entre les courbes modèle statistique et aléatoire

à l’aire W entre modèle parfait et aléatoire.

KI =M

W

— Indicateur KR : le rapport de l’aire G entre les courbes du modèle sur les ensembles



d’estimation et de validation à l’aire W entre les courbes modèle parfait et aléatoire

KR = 1− G

W

Indicateur de régression

Une troisième classe d’indicateur de performance des modèles prédictifs sont les indicateurs

de performance classiquement utilisé en régression. L’idée étant d’obtenir un modèle avec une

erreur d’estimation (qui renvoie à l’écart entre la valeur observée et la valeur prédite) minimale.

Nous distinguons ainsi les indicateurs suivants :

— Mean Squared Error (MSE) : MSE = 1n

∑ni=1 (yi − yi)2

— Root Mean Squared Error (RMSE ou L2) : RMSE =√MSE =

√1n

∑ni=1 (yi − yi)2

— Mean Absolute Error (MAE ou L1) : MAE = 1n

∑ni=1 |yi − yi|

— Maximum Absolute Error (ou L∞) : L∞ = maxi|yi − yi|

— Corrélation de Pearson : ρ2 = r2s

rs =

∑ni=1 (yi − ¯yi)(yi − yi)√∑n

i=1 (yi − ¯yi)2∑n

i=1 (yi − yi)2


Chapitre 3

Méthodes de Machine Learning : un pas

dans la théorie

Dans ce chapitre, nous nous proposons de présenter le cadre théorique de quelques algo-

rithmes de machine learning. L’ambition est de passer en revue les techniques paramétrique,

semi-parmétrique et non-paramétrique que nous utiliserons par la suite pour prédire la décision

de rachat. Dans un premier temps, nous présenterons les modèles généralisés, puis le modèle

d’arbre de décision. Les réseaux de neurones et les Support Vector Machines (SVM) s’ensui-

vront avant de terminer sur les modèles d’aggrégations (Bagging, Forêt aléatoire, Boosting).

Pour réaliser cette revue théorique, nous nous sommes appuyés sur de nombreux auteurs comme

Friedman et al. (2008), Vandal (2005), Besse et Laurent (2014) pour ne citer que ceux là.

3.1 Rappel sur les modèles généralisés

Nous souhaitons expliquer une variable aléatoire Y par un ensemble de variables explica-

tives X = (X1, X2, . . . , Xp). La formalisation mathématique des modèles linéaires généralisés

classique est de la forme :

E(Y |X) = β0 +

p∑j=1

βjXj

Les paramètres du modèle sont estimés par Moindres Carrées Ordinaires (MCO) :

β = argminβ

n∑i=1

(yi − β0 −p∑i=1

βixij)2

Dans cette section, nous présenterons la régression logistique (LR) qui est un cas particulier

de GLM et aussi les modèles non-linéaires généralisés : la régression Spline et le modèle GAM.

32


3.1.1 LR

La LR est une adaptation du modèle linéaire dans le cas d’une variable à expliquer binaire.

En effet, lorsque Y ∈ {0, 1}, le paramètre β du modèle linéaire n’est pas interprétable et

l’hypothèse de normalité des résidus est violée. Une solution est d’introduire une variable latente

ou inobservée Y ∗ continue de telle manière que le modèle devient :

Yi =

1 si y∗i = εi + xiβ > 0

0 sinon

Ce modèle peut également s’exprimer sous la forme pi = P(yi = 1|xi) = F (xiβ) où F désigne

une fonction de répartition. La régression logistique correspond ainsi au modèle où la fonction

de répartition est celle de la loi logistique.

F (x) =1

1 + e−x= Λ(x)

Ainsi, nous obtenons le modèle LR par la spécification suivante :

pi = Λ(xiβ) =1

1 + e−xiβ

L’estimation des paramètres se fait par maximum de vraisemblance. A l’évènement yi = 1

est associée la probabilité pi = Λ(xiβ) et à l’événement yi = 0 correspond la probabilité

1− pi = 1− Λ(xiβ). Ainsi, les observations yi suivent une loi binomiale de probabilité Λ(xiβ).

La vraisemblance du modèle est donc :

L(y, β) =n∏i=1

pyii (1− pi)1−yi =n∏i=1

Λ(xiβ)yi(1− Λ(xiβ))1−yi

Afin de réduire la complexité du problème d’optimisation, les paramètres du modèle sont

donc obtenus en maximisant la log-vraisemblance du modèle (plutôt que la vraisemblance di-

rectement) :

β = arg minβ

l(y, β) = arg minβ

n∑i=1

yilog(Λ(xiβ)) + (1− yi)log(1− Λ(xiβ))

Classiquement, ce problème d’optimisation est résolu soit en utilisant un algorithme de la

méthode de Newton-Raphson, soit celui de la méthode du gradient.



3.1.2 Régression Spline

Dans cette section, nous nous mettons dans la cas où nous souhaitons expliquer une variable

aléatoire Y par la variable aléatoire X. Pour ce faire, on dispose d’un échantillon (xi, yi),

i = 1, 2, ..., n avec xi et yi les réalisations des variables X et Y respectivement. La formalisation

mathématique des splines de régression encore appelée B-splines est la suivante :

yi = s(xi) + εi (3.1)

Où les εi représentent l’erreur aléatoire telle que E(εi) = 0, V ar(εi) = 1 et Cov(εi, εj) = 0 ∀i 6= j

et s représente la fonction spline que l’on cherchera à estimer. En développant la fonction spline

s via la formule de Taylor, le modèle 3.1 ci-dessus se réécrit de la manière suivante :

yi =m∑j=1

θixj−1i + [(m− 1)!]−1

∫µ(m)(xi)[xi − ξ]m−1+ dξ + εi

µ(m) désigne la dérivée mime de la fonction spline s et [u]+ = max(0, u). Nous constatons

bien que le premier terme est un polynôme de dégré.

Ainsi, étant donné les paramètres θ1, ..., θm, δ1, ..., δk et un ensemble de points {ξ1, ..., ξk},lafonction des splines de régression peut être estimée par une fonction continue, définies par

intervalle et dont les morceaux sont des polynômes de dégré m − 1, qui prend la forme ci-

dessous :

s(x) =m∑j=1

θixj−1 +

k∑j=1

δi[x− ξj]m−1+

L’ensembleN = {ξ1, ..., ξk} désigne l’ensemble des noeuds et définie les points de coupures de

ces intervalles. Dans la littérature, les splines les plus utilisés sont les splines cubiques composés

de polynôme de dégré 3 et les splines linéaires composés de polynome de dégré 1. Afin d’estimer

cette fonction, nous devons estimer ses paramétres. Nous définissons tout d’abord les notations

ci-dessous :

Bj = xj−1, j = 1, ..,m

Bm+j = [x− ξj]m−1+ , j = 1, .., k

β = θ1, ..., θm, δ1, ..., δk)

La fonction des splines de régression peut donc se réécrire par l’expression ci-dessous, les



inconnues à priori étant m,Netβ.

s(x) =m+k∑j=1

βjBj(x)

Pour estimer le paramètre β, nous commençons tout d’abord par estimer le nombre de noeuds

et le dégré du polynôme. Il s’agit d’un problème classique en statistique d’arbitrage entre biais

et variance : le choix de M (nombre de noeuds ou dégré du polynôme) porte sur celui là qui

minimise le Mean Square Error (MSE) :

MSEM =1

n

n∑i=1

(yi − mM(xi))2 = V ariance+Bias2

Ces paramètres étant dorénavant connu, nous estimons β par la méthode des MCO tel que

décrit par Eubank (1999) :

β = arg minβ

n∑i=1

(yi −m+k∑j=1

βjBj(x))

La fonction des splines de régression étant estimée, afin d’enrichir le LR et ainsi augmenter

son pouvoir prédictif, pour une variable explicative X1 donnée, nous incluons donc dans le

modèle LR la fonction des splines estimée ˆs(X1) plutôt que la variable X1.

3.1.3 GAM

Les modèles additifs généralisés (GAM) ont été développés par Hastie et Tibshirani (1990)

et sont une version non-paramétrique des GLM. Ils généralisent la vision de la régression spline

avec plusieurs variables explicatives. Pour obtenir une estimation de la fonction de régression,

nous formalisons le modèle comme suit :

yi = f(xi) + εi

Les termes d’erreurs εi sont non corrélés entre eux, de moyenne nulle et de variance fixe. La

nature additive du modèle provient de la spécification additive de la fonction f :

f(xi,1, . . . , xi,p) = α +

p∑j=1

fj(xi,j)

Les fonctions fj sont des fonctions arbitraires pour lesquelles nous imposons E(fi(Xj)) = 0.

Comme dans le cas des GLM, nous supposons donc que la relation entre la variable dépendant

et les variables explicatives est additive quoique des interactions peuvent être spécifiées. Cette



hypothèse d’additivité donne l’avantage d’avoir des résultats simples à interpréter et à visualiser.

L’estimation d’un modèle GAM requiert donc l’estimation des fonctions fj qui peuvent

prendre n’importe quelle forme non paramétrique selon les données à ajuster. L’ajustement

du modèle se fait généralement par le biais de l’algorithme« backfitting ». Cet algorithme se

déroule en trois principales étapes décrites ci-dessous :

— L’initialisation de la constante α par y et les fonctions fj par f 0j

— A la suite de la phase d’initialisation, vient la phase d’itération pour rechercher les esti-

mateurs convergents. Les fonctions fk sont calculées de façon itératives par la formule :

f(Y − α−∑j 6=k

fj(Xj)) = fk(Xk) + ε

Où Y − α−∑j 6=k

fj(Xj) sont les résidus partiels pour la variable explicative Xk.

— Augmenter le nombre d’itérations jusqu’à ce que l’algorithme converge vers les fonctions

optimales : f ∗1 , . . . , f ∗p

3.2 Arbres de décision : CART

L’arbre de décision est une méthode d’apprentissage supervisée modélisant une discimina-

tion ou une régression. Il est construit à partir de règles de classification basant leur décision

sur des tests associés aux attributs et organisés de manière arborescente. En guise d’exemple

d’algorithmes d’arbre de décision, nous pouvons citer l’algorithme CART (Classification and

Regression Tree), CHAID (Chi-Square Automatic Interaction Detection) et QUEST (Quick

Unbiased Efficient Statistical Trees). Nous nous proposons de présenter l’algorithme de CART

qui a été utilisé dans le cadre de ce mémoire.

L’algorithme CART est le fruit des travaux de Breiman et al. (1984) qui ont apporté des

développements importants aux arbres de décision. Il s’agit d’un algorithme à la fois itératif et

récursif qui permet de construire des arbres en se basant sur des critères d’homogénéité. Son

principe est basé sur une partition de l’espace des variables d’entrée, puis l’ajustement d’un

modèle simple sur chaque partition.

Supposons un échantillon (Xi, Yi)i=1,...,n avec Xi ∈ Rd les variables explicatives et Yi ∈ R la

variable de réponse. La construction de l’arbre consiste à déterminer une séquence de noeuds

qui passe par une définition d’un critère de division optimal, une règle de décision du noeud

final et un critère d’affectation de chaque feuille obtenu à une valeur de la variable de réponse.



Critère de division

La construction de l’arbre passe par une construction des différentes branches constitutives,

lesquelles dépendent de la nature des variables explicatives. Si la variable explicative est qua-

litative ordinale ou quantitative à k valeurs, alors nous avons (k − 1) branches admissibles 1.

Dans le cas d’une variable normale à k modalités, nous avons 2(k−1) − 1 branches admissibles.

Le critère de division repose sur la définition d’une fonction d’hétérogénéité. Supposons que

la variable à expliquer qualitative Y a m modalités T1, ..., Tm, nous définissons la probabilité

qu’un élément du j-ième noeud appartienne à la i-ème classe par :

pij = P(Ti|Classe j) avecm∑i=1

pij = 1

Les probabilités conditionnelles sont soit définies par la formule de Bayes lorsque les proba-

bilités d’appartenance à une classe donnée est connue, soit estimées par des rapports d’effectif :

pij =nij∑mi=1 nij

. Le but étant de partager les individus en groupes plus homogènes au sens de la

variable cible, nous définissons ainsi le critère d’hétérogénéité par l’indice de Gini défini comme

suit :

Indice de Gini = 1−n∑i=1

p2ij

La règle d’affectation consiste à associer à chaque feuille la moyenne des observations re-

latives à cette feuille dans le cas où la variable cible est quantitative. Lorsque cette dernière

est qualitative, chaque noeud terminal ou feuille est affecté à la modalité de la variable cible

la mieux représentée dans le noeud. L’algorithme CART n’a pas de règle d’arrêt ; l’arbre est

construit de façon la plus ramifiée possible puis il est élagué.

Elagage de l’arbre

La procédure d’élagage ou pruning de l’arbre consiste à construire des arbres extrêmement

raffinés. La démarche consiste à construire pas-à-pas une séquence de sous-arbres à partir de

l’arbre initial et ensuite de retenir l’arbre optimal.

Etant donné un arbre initial A à k noeuds terminaux ou feuilles, la qualité de discrimination

de l’arbre est mesurée par le critère :

1. une branche est dite admissible si aucun des deux noeuds descendants qui en découlent n’est vide.



D(A) =k∑i=1

Di(A)

Où Di(A) désigne le nombre de mal classés ou encore la déviance de la i-ème feuille.

La construction des sous-arbres emboîtés se fait par itération en pénalisant la complexité

de l’arbre A : C(A) = D(A) + γk. En jouant sur la paramètre γ, nous obtenons ainsi une

séquence emboîtée de sous-arbres : Amax = Ak ⊃ Ak−1 ⊃ ... ⊃ A1. L’arbre optimal est ainsi

celui qui correspond à la valeur de γ minimisant le critère de complexité. De façon synthétique,

l’algorithme est le suivant :

— Sélection de l’arbre

— Construction de l’arbre maximal Amax.

— Construction de la séquence d’arbres emboîtés.

— Estimation sans biais des déviances

— Choix de i minimisant la déviance Di

Le modèle CART qui ne fait aucune restriction sur le type de données présente l’avantage

de fournir des résultats simples à interpréter et à visualiser, facilitant ainsi la prise de décision.

Cependant, il est souvent critiqué sur le fait que les divisions se basent sur une seule variable

alors que des combinaisons de variables peuvent être plus pertinentes. Par ailleurs, les arbres

de décisions sont très instables et peu robustes car une légère modification des données peut

engendrer différents classifieurs et ceci pénalise la prédiction. Les techniques d’aggrégation qui

seront présentées plus tard viennent résoudre ce problème en garantissant plus de stabilité et

de robustesse au modèle.

3.3 Réseaux de neurones

Les réseaux de neurones apparaissent pour la première fois à la suite des travaux de McCul-

loch et Pitts (1943) et le regain d’intérêt pour cette technique n’a pris de l’ampleur qu’avec les

travaux de Shun-Ichi (1967) qui a mis en exergue la réduction du taux d’erreur grâce à la pon-

dération des variables explicatives. Ainsi, les réseaux de neurones se sont largement répandus en

machine learning grâce à la grande précision de leur prédiction. Initialement liés aux domaines

de la médécine et de la biologie, les réseaux de neurones se sont rapidement répandus à d’autres

secteurs. Un réseau de neurone ou réseau neuronal a une architecture calquée sur celle du cer-

veau humain et se présente comme un ensemble de noeuds connectés entre eux. Ils peuvent

être utilisés à la fois comme un modèle de classification et comme un modèle de prédiction. Un



réseau de neurone se structure généralement en trois couches : une couche d’entrée, une couche

de sortie et éventuellement une couche cachée (cf figure 3.1 ci-dessous). Notons que c’est l’ajout

d’une couche cachée qui donne une dimension non-linéaire aux réseaux de neurones.

Les réseaux de neurones peuvent donner le poids aux variables explicatives lequel améliore ses

capacités prédictives. Toutes les variables explicatives qui doivent être normalisées (entre 0 et 1

ou entre -1 et 1) ou standardisées correspondent chacune à un noeud et l’ensemble constitue la

couche d’entrée. La variable à expliquer correspondant à un autre noeud ou plusieurs lorsqu’elle

est discrète (chacune de ses modalités représentant un noeud) constitue la couche de sortie.

Entre la couche d’entrée et la couche de sortie, certains noeuds correspondant à un niveau

intermédiaire sont parfois connectés, il s’agit de la couche cachée.

Figure 3.1 – Illustration du fonctionnement d’un réseau de neurone (source : Tufféry (2015))

Le principe du modèle des réseaux de neurones part d’une fonction de combinaison qui

calcule la première valeur à partir des noeuds ni connectés en entrée et de leurs poids pi (∑

i nipi

dans le cas des perceptrons). Ensuite, la fonction de transfert ou d’activation détermine

une valeur de sortie f(∑

i nipi). Ainsi, les réseaux de neurones n’utilisent pas les données brutes

des inputs : ils pondèrent tout d’abord les variables explicatives via la fonction de combinaison,

puis la fonction d’activation introduit la non-linéarité entre les sorties de la couche d’entrée afin

de prédire la variable cible. Pour la normalisation des variables catégorielles, chaque modalité

représentera un noeud, c’est-à-dire des variables binaires ou indicatrices (de valeur 1 ou 0)

seront crées pour chacune des modalités. En ce qui concerne les variables continues, elles sont

normalisées en utilisant la formule suivante :



Xi −min(Xi)

max(Xi)−min(Xi)

Fonction de combinaison

Comme nous l’avons dit précédemment, la fonction de combinaison permet de combiner

les valeurs brutes d’entrée avec leur poids synaptiques respectifs. Deux types de fonctions de

combinaisons sont généralement utilisées :

— une combinaison linéaire entre les entrées des noeuds et leurs poids :

C(ni, Xi, b) =∑i

niXi + b

Où ni, Xi, b représentent respectivement les poids, les valeurs d’entrée et le biais.

— la distance euclidienne entre les observations d’une couche initiale et les centres des

noeuds de la couche suivante :

C(ni, Xi, b) = ||Xi − ni||22 =∑i

(Xi − ni)2 + b

Fonction d’activation

La fonction d’activation permet d’introduire de la non linéarité au modèle. Nous distinguons

généralement les fonctions d’activation suivante :

— Fonction identité : A(x) = x

— Fonction sigmoïde : A(x) = 11+e−αx

— Fonction gaussienne : A(x) = 1√2πσ

e−(x−µ)2

2σ2

Le choix de la fonction d’activation n’obéit pas à une règle particulière. Cependant la fonction

sigmoïde est largement utilisée grâce à son caractère non-linéaire ainsi qu’au fait qu’elle permet

d’estimer le moins de paramètres possibles.

Il existe un bon nombre d’algorithme d’apprentissage par réseaux de neurones. En appren-

tissage surpervisée, deux méthodes sont généralement utilisées : le Perceptron MultiCouches

(PMC) et le réseau à fonction radiale (RBF).

Le PMC utilise une fonction de combinaison linéaire et une fonction d’activation sigmoïde

de paramètre α = 1, ce qui revient à la fonction de répartition d’une loi logistique. L’algo-

rithme de rétropropagation du gradient est plus utilisé pour les modèles d’apprentissage. En



ce qui concerne les RBF, ils utilisent la distance euclidienne comme fonction de combinaison

et la fonction d’activation est la fonction gaussienne. D’un point de vue pratique, la différence

fondamentale entre ces deux types de réseaux de neurones se situe au niveau du temps de

calcul lors des phases d’apprentissage et de test. Les RBF sont plus rapides lors de la phase

d’apprentissage contrairement au PMC qui le sont plutôt lors de la phase de test.

3.4 Support Vector Machine

Les Support Vectors Machines souvent traduit par l’appellation de Séparateur à Vaste Marge

(SVM) sont une classe d’algorithmes d’apprentissage initialement définis comme une généralisa-

tion de l’analyse discriminante, c’est-à-dire la prédiction d’une variable binaire. Son principe de

base consiste à ramener le problème de la discrimination à celui de la recherche d’un hyperplan

optimal qui, lorsque c’est possible, classe ou sépare correctement les données tout en étant le

plus éloigné possible de toutes les observations dans un espace de dimension plus grand, et de

trouver un classifieur, ou une fonction de discrimination, dont la capacité de généralisation est

la plus grande possible. Les SVM ont été développés dans les années 90 à partir des travaux de

Vapnik et Lerner (1963). On distingue les SVM linéaires et les SVM non linéaires correspondant

chacun à la nature du séparateur.

3.4.1 SVM linéaire

Les SVM linéaires utilisent un séparateur linéaire. Supposons un espace H de dimension m

contenant un ensemble fini de vecteurs X1, X2, ..., Xn. L’appartenance d’un vecteur à la classe

K ou à la classe L est codée -1 ou 1 dans la matrice des valeurs à prédire Y . Nous supposons

donc que les points sont linéairement séparables et on défini le séparateur linéaire f par :

f(x) =< ω, x > +b, ∀ ω ∈ H et b ∈ R

L’équation f(x) = 0 défini la frontiére de séparation des deux classes. Il existe plusieurs

hyperplans possibles pour séparer les classes (cf. figure de gauche ci-dessous) et il sera donc

question de trouver celui qui parmi eux optimise au mieux la séparation des données. Lorsque

f(x) > 0, le vecteur x appartient alors à la classe des échantillons dont l’étiquette est L et

réciproquement lorsque f(x) < 0, le vecteur x appartient à la classe des échantillons d’étiquette

K.



Figure 3.2 – Illustration d’un séparateur linéaire

La variable à prédire est donc définie par la formulation :

Y =

{+1 si f(x) > 0

−1 si f(x) < 0

En définissant la distance d’un point x0 à l’hyperplan Hω,b :< ω, x > +b par : d(x0, Hω,b) =|<ω,x>+b|||ω|| , le but des SVM sera de trouver l’hyperplan tel que sa distance aux points les

plus proches soit maximale. Pour ce faire, les supports vectors étant les points x tel que

|< ω, x > +b = 1|, la marge est définie par la distance des vectors supports à l’hyperplan et

est égale à 2||ω||2 . Afin d’obtenir l’hyperplan optimal, l’algorithme va minimiser l’inverse des

marges sous contrainte que l’hyperplan Hω,b sépare réellement les points :

min1

2< ω, ω > s.c : ∀ i, yi(< ω, xi > +b) ≥ 1

Ce programme d’optimisation s’avérant difficile à résoudre vu le nombre très important de

contraintes, nous le résolvons dans l’espace dual pour diminuer la complexité du problème. Dans,

l’espace initial nous avions ω =∑αiyixi avec

∑αiyi = 0. Dans l’espace dual, ce programme

s’écrit :

min{1

2αA>α− 1>α} s.c.

{0 ≤ αi ∀iy>α = 0

Où Q = [Qi,j] et Qi,j = yiyjx>i xj

Notons que lorsque nous sommes dans un cas où les points ne sont pas séparables, les slack

variables sont introduites dans le programme d’optimisation.



3.4.2 SVM non linéaire

Nous avons traité le cas où les points étaient séparables linéairement. Dans cette section,

nous traitons le cas d’une séparation non linéaire comme l’illustre la figure ci-dessous, en utili-

sant ainsi les SVM non linéaire ou à noyau.

Figure 3.3 – Illustration d’une séparation non linéaire

Dans le cas d’une séparation linéaire, nous utilisions la norme euclidienne pour définir la

distance d’un point à l’hyperplan. Dans le cas non linéaire, il ne s’agira plus de la norme

euclidienne mais d’une norme construite avec un noyau (kernel). La norme euclidienne est

définie par ||x0 − x|| =√< x0 − x, x0 − x > =

√< x0, x0 > −2 < x0, x > + < x, x > et nous

définissons la norme dite de kernel par ||x0−x||k =√k(x0, x0)− 2k(x0, x) + k(x, x) où k désigne

le noyau de kernel. Parmi les choix possibles de noyau de kernel, on compte en particulier :

— le noyau linéaire : k(x0, x) =< x0, x > (on retrouve ici les SVM linéaires)

— le noyau gaussien radial : k(x0, x) = exp (−σ||x0 − x||2)— les noyaux polynomiaux : k(x0, x) = (α + β < x0, x >)δ

— le noyau radial de Laplace : k(x0, x) = exp (−σ||x0 − x||)— le noyau sygmoïde : k(x0, x) = tan(α + β < x0, x >)

En utilisant les notations précédentes, le programme d’optimisation qui consiste toujours à

minimiser l’inverse de la marge se réécrit comme suit :

min1

2

∑1≤i,j≤n

αiαjyiyjk(xi, xj)

Sous les contraintes ∀i ∈ {1, 2, ..., n},

0 ≤ αi ≤1

net

n∑i=1

αi ≥ ν etn∑i=1

αi = 0

où ν ∈ [0, 1] est un paramètre approchant le pourcentage de supports vectors parmi les

données d’apprentissage.



3.5 Méthodes d’agrégations

Les techniques d’agrégation de modèle permettent de réduire la contrainte d’arbitrage biais-

variance des modèles statistiques. Le principe d’agrégation de modèle se base sur les techniques

de rééchantillonnage lors de la phase d’apprentissage et aussi la variation des paramètres d’ap-

prentissage. Ainsi, ces méthodes sont très adaptées pour les modèles très instables comme les

réseaux de neurones ou les arbres de décisions. Nous abordons deux algorithmes d’agrégation

dans ce mémoire. Le premier repose sur des stratégies aléatoires (bagging et forêt aléatoire) et

le second sur des stratégies adpatatives (boosting).

3.5.1 Bagging

Le bagging pour bootstrap aggregating est une technique d’agrégation de modèles développé

par Breiman (1996), dont l’algorithme peut être décrit de façon synthétique par la figure ci-

dessous :

Figure 3.4 – Illustration de l’algorithme du Bagging

Considérons un échantillon d’observations z = {(x1, y1), (x2, y2), ..., (xn, yn)} de loi commune

F et φ(x) un modèle fonction des variables explicatives x = (x1, x2, ..., xp). Nous notons φ(.) =

EF (φz) un estimateur du modèle sur l’échantillon z. Le principe du Bagging est de répliquer B

échantillons indépendants notés {zb}b=1,...,B suivant la mesure F par bootstrap et de construire

un modèle sur chacun de ces échantillons. Les B modèles obtenues seront par la suite agrégés

de la façon suivante :

— Si la variable cible Y est quantitative : φB(.) = 1B

∑Bb=1 φzb(.)



— Si la variable Y est qualitative : arg maxj

card{b|φzb(.) = j}Dans le premier cas, le modèle final est obtenu en faisant une simple moyenne des résultats

des sous-modèles alors que dans le second, c’est une technique de vote majoritaire qui est

utilisée pour élire la réponse la plus probable. Ce principe qui permet de moyenner ou de voter

les prédictions de plusieurs sous-modèles indépendants permet ainsi de réduire la variance et

par conséquent l’erreur de prédiction du modèle final.

L’erreur de prédiction des modèles d’aggrégations est évaluer de façon itérative par une

estimation out-of-bag (OOB) et nous parlons donc d’erreur out-of-bag. Il est obtenu par la

moyenne des erreurs de prédictions des sous-modèles. L’erreur OOB décroit donc de façon

naturelle en fonction du nombre de modèles avant de se stabiliser pour indiquer le nombre

optimal de modèles nécessaires à une agrégation éfficiente.

Cet algorithme d’agrégation présente l’avantage d’être simple à mettre en oeuvre sur n’im-

porte quelle méthode de modélisation (arbre de décision, regression logistique, réseaux de neu-

rones, etc.). Cependant, le temps de calcul important et son caractère boite noire sont des

inconvénients qui entâchent cette méthode.

3.5.2 Forêts aléatoires

Les forêts aléatoires sont une amélioration du bagging dans le cas spécifique du modèle

d’arbre de décision CART. Cette méthode des forêts aléatoires a été développée par Breiman

(2001) et elle vise à rendre les arbres de l’agrégation plus indépendants en rajoutant de l’aléa

dans le choix des features intervenant dans les différents sous-modèles : on parle de randomi-

sation des variables. Elle est donc très adaptée à des problématiques où le nombre de variables

explicatives est très important.

En fait, si nous considérons p variables identiquement distribuées de variance commune σ2

avec une corrélation ρ des variables deux à deux, alors la variance de la moyenne des p variables

est :

ρσ2 +1− ρB

σ2

Ainsi, lorsque ρ est élevé, l’avantage de réduction de variance du bagging est considéra-

blement pénalisé et c’est ceci qui a motivé Breiman (2001) d’opter pour une randomisation

des variables afin de réduire cette variance et ainsi améliorer l’agrégation. Comme dans le cas



du bagging, une évaluation itérative de l’erreur OOB permet de controler le nombre d’arbres

optimal nécessaire pour l’agrégation.

Comme nous l’avons mentionné précédemment, l’inconvénient des méthodes d’agrégation est

que le modèle construit est difficilement interprétable, d’où leur caractère boite noire. Pour les

forêts aléatoires, elles présentent des informations pertinentes relatives à l’importance de chaque

variable dans la discrimination ou la régression. Ces informations sont d’autant encore plus utiles

lorsques le nombre de features est important afin d’avoir une hierachie des variables les plus

importantes. Pour évaluer l’importance d’une variables, deux indicateurs sont généralement

utilisés :

— Le Mean Decrease Accuracy : Imp(Xj) = 1B

∑Bb=1 (Ej

b − Eb)Où Eb désigne l’erreur OOB du b-ième échantillon et Ej

b l’erreur OOB du b-ième échan-

tillon dans lequel on a pertubé aléatoirement les valeurs de la variable j.

— Le Mean Decrease Gini : Imp(Xj) = 1M

∑m

∑t∈Xj

NtN

∆I(t)

Où la première somme est sur tous les M arbres de la forêt, et la seconde sur tous les

noeuds splités suivant la variable Xk

Le premier indicateur repose ainsi sur une permutation aléatoire des valeurs de la variable :

plus l’erreur OOB est dégradée par la permutation d’une variable, plus cette dernière sera

importante. Le deuxième indicateur quant à lui repose sur la décroissance de l’entropie c’est

à dire une décroissance de l’hétérogénéité des variables. L’importance d’une variables est ainsi

mésurée comme une somme pondérée des décroissances d’hétérogénéité induites lorsqu’elle est

utilisée pour définir la division associée à un noeud (Source wikistat).

3.5.3 Boosting

Le Boosting est une méthode d’agrégation développée par Freud et Schapire (1996) reposant

sur des stratégies adaptatives. L’idée est de partir d’un faible classifieur afin de construire un

classifieur plus robuste. Son principe général est identique à celui du Bagging car il consiste à

construire une famille de modèles qui seront par la suite agrégés par une moyenne pondérée

ou vote majoritaire. Cependant, la différence avec le Bagging se situe au niveau de la façon

de construire les sous-modèles qui n’est plus itérative mais récurrente : chaque modèle est

une version adaptative du précédent en pénalisant les observations mal prédites. Selon la façon

d’agréger et de pondérer la famille successive de modèles, nous distinguons plusieurs algorithmes

de Boosting. Nous décrivons ici deux algorithmes les plus utilisés dans la littérature.



3.5.3.1 Adaptative boosting

Plus connu sous l’appelation Adaboost, l’algorithme Adaptative Boosting est le plus populaire

des algorithmes de Boosting dont le principe général est présenté sur la figure 3.5 ci-dessous :

Figure 3.5 – Illustration de l’algorithme Adaboost

Etant donné une règle de décision faible G(x), l’idée est d’appliquer cette règle plusieurs fois

en pondérant différemment les observations à chaque itération de façon judicieuse. Le problème

est la façon de choisir la règle G parmi une grande famille donnée. Ce problème classique est

généralement abordé en minimisant l’espérance de perte l.

G∗(x) = argminG

E[l(Y,G(X)))]

La loi du couple (X, Y ) étant inconnue, c’est l’estimation empirique de E[l(Y,G(X)))] qui

sera minimisée :

G∗(x) = argminG

1

n

n∑i=1

l(Yi, G(Xi))) = argminG

1

n

n∑i=1

1Yi 6=G(Xi)

Même numériquement, ce problème de minimisation est souvent difficile à résoudre et une

solution est de rendre convexe la fonction de perte en posant par exemple : l(Y,G(X))) =

exp (−Y G(X)). Ainsi, nous obtenons la règle GM(x) =∑M

m=1 αmGm(x) après M itérations,

nous estimons l’erreur empirique OOB par :

e(GM) =1

n

n∑i=1

1Yi 6=GM (Xi)



3.5.3.2 Gradient boosting

Le principe de base de l’algorithme de Gradient Boosting est identique à celui de Adaboost.

La différence se situe au niveau de la méthode utilisée pour le programme de minimisation de

la fonction de perte. Le Gradient Boosting utilise l’algorithme du Gradient pour le programme

de minimisation.

Posons L = E[l(Y,G(X)))] = L(G(1), ..., G(n)) avec G(1) = G(X1), . . . , G(n) = G(Xn). Le

problème est donc de minimiser la quantité L et l’algorithme du gradient se déroule comme

suit :

— L’algorithme commence par fixer les valeurs initiales : G[0](1), G

[0](2), . . . , G

[0](n)

— A la m-ième itération :

G

[m](1)...

G[m](n)

=

G

[m−1](1)...

G[m−1](n)

+ ν

− ∂L∂G(1)

(G[m−1](1) )

...

− ∂L∂G(n)

(G[m−1](n) )

— Augmenter le nombre d’itérations jusqu’à ce l’algorithme converge vers les valeurs :

G[mopt]

(1) , G[mopt]

(2) , . . . , G[mopt]

(n)

Ainsi, à partir de là nous construisons une estimation de la règle de décision et nous procédons

comme dans le cas de l’algorithme Adaboost.


Deuxième partie

Résultats Empiriques : Application au

Portefeuille d’Allianz

49

Chapitre 4

Prédiction des comportements de rachat

structurel

Dans ce chapitre, nous nous proposons de prédire les comportements de rachats structurels

des assurés. Il s’agit d’une analyse dite statique portant sur une photographie du portefeuille

des contrats multisupports à la date de décembre 2015. L’étude couvre la période de 2011-2015

et porte sur environ 544 460 contrats multisupports (il s’agit des contrats issus des produits

phares de l’entreprise) avec une trentaine de variables portant sur les caractéristiques du contrat

(ancienneté, type de produit, taux d’investissment UC, périodicité de cotisation, encours, prime

initiale, etc.) et les caractéristiques de l’assuré (sexe, âge, situation matrimoniale, catégorie

socioprofessionnelle, niveau d’éducation, etc.). Les caractéristiques du contrat et des assurés sont

observées soit à la date de rachat (pour les contrats rachetés), soit à la date de fin d’observation

(pour les contrats non rachetés). Rappelons une fois de plus que nous ne traitons que le cas des

rachats totaux dans le cadre de ce mémoire.

L’objectif ici est de déceler les principaux facteurs structurels influançant la décision de rachat

d’un assuré et ainsi prédire les comportements en termes de rachats. Ce chapitre s’articule sur

trois sections. Nous commençons par une analyse exploratoire de la base de données, puis

s’ensuivra l’implémentation des modèles prédictifs avant de déboucher sur la comparaison des

performances des différents modèles afin d’en choisir le meilleur au sens des capacités prédictives.

4.1 Analyse exploratoire

Notre base de données comporte environ 544 460 contrats d’épargne individuelle dont 103

576 contrats (soit environ une proportion de 19%) qui ont été rachetés totalement au cours

de la période 2011-2015. Par ailleurs, un peu plus des trois quart des assurés ont effectué au

50


moins un rachat partiel sur la période. Dans notre base de données, les femmes (52%) dépassent

légèrement les hommes (48%). En ce qui concerne le statut matrimonial, les mariés prédominent

notre base de données (60%), suivis par les célibataires (18%) et les divorcés, les veufs ainsi que

les pacsés/union libre terminent le pallier avec des proportions presques égales (7%). De manière

générale, les assurés sont plutôt averse au risque et optent plus pour une gestion prudente de

leur contrat. Un peu moins de la moitié a une préférence pour le fonds euros (41% des assurés

ont un taux d’investissement d’UC égal à 0%) et un peu plus de 3 assurés sur 10 ont un taux

d’UC compris entre 1% et 40%. Cependant, un assuré sur 10 est risquophiles et a une forte

appétence pour les marchés financiers (taux d’investissement d’UC égal à 100%). Une grande

majorité des assurés opte pour une périodicité de cotisation unique à la souscription (environ

76%) contre 34% qui préfèrent une cotisation périodique et une proportion équivalente à ces

derniers a éffectué au moins un versement libre sur leur contrat au cours de la période d’étude.

Outre cette description précédente de notre base de donnée, notons que dans notre échan-

tillon, l’assuré moyen est âgé de 60 ans, a une ancienneté d’un peu plus de 9 ans (9,89 ans) et

a ainsi souscrit son contrat à l’âge de 50 ans. De plus, son encours est d’environ 32 000 euros

et sa prime initiale de 20 000 euros sur la période d’étude. Par ailleurs, un quart des assurés a

moins de 48 ans avec une ancienneté de contrat inférieure à 5 ans et la moitié a plus de 60 ans

avec une ancienneté de contrat inférieure à 9 ans. Si un contrat sur deux a un encours inférieur

à 14 000 euros et un quart un encours inférieur à 5 000 euros, l’encours maximal s’élève à 7

millions.

4.1.1 Statistiques descriptives

Ancienneté et âge

L’assurance vie bénéficie d’une fiscalité avantageuse qui fait de l’ancienneté la première va-

riable déterminante du rachat. Nous pouvons l’apercevoir au regard de la figure 4.1 ci-dessous.

En effet, nous observons un pic de rachat à 2 ans qui correspond à des rachats précoces dont

les causes seront analysées plus loin dans le mémoire. Le second pic de 9 ans correspond bien

au pic fiscal auquel on s’attend car la fiscalité après 8 ans pousse les assurés à racheter leur

contrat après pour bénéficier des taxes réduites sur les intérêts générés par leur contrat.

Le taux de rachat semble décroitre avec l’âge même si nous observons une légère croissance

autour de 60 ans. En effet, les jeunes rachèteraient beaucoup plus que les adultes même si en

montant cela n’est pas forcément le cas étant donné que les plus agés ont plus d’encours.



Figure 4.1 – Taux de rachat selon l’ancienneté et selon l’âge

Encours et prime initiale

Au regard de la figure ci-dessous, l’encours et la prime initiale semblent déterminer la décision

de rachat des assurés. En effet, les contrats rachetés ont tendance à avoir un encours moins

élevé que ceux des contrats non rachetés. Nous pouvons penser que les encours moins élevés

correspondent à des assurés jeunes qui ont plus besoin de liquidité et ont ainsi tendance à plus

racheter leur contrat. Par ailleurs, en utilisant la prime initiale comme proxy de la richesse des

assurés, nous nous rendons compte que les plus riches ont moins tendance à se désaisir de leur

contrat que les moins riches car ayant moins besoin de liquidité. Au contraire, leur encours

étant élevé, ils préfèrent fructifier de plus en plus leur épargne. Ainsi, les gros contrats semblent

être sensibles à au rendement de leur épargne tandis que les plus petits contrats à une besoin

de liquidité.

Figure 4.2 – Box plot de l’encours et de la prime initiale selon la décision de rachat



Taux d’investissement d’UC - Type de produit - Période cotisation - statut marital

Nous avons vu plus haut que la majorité des assurés était plutôt averse au risque étant

donné que le recours à des produits de types UC est très souvent déterminé par un niveau

d’information fiancière. En fait, une forte détention d’UC par un assuré donne un signal selon

lequel il aurait une meilleure connaissance des marchès financiers. Au vu de la figure 4.3 ci-

dessous, nous constatons que les assurés ayant un fort taux d’UC sont ceux-là qui ont des forts

taux de rachat. En effet, ils seraient très sensibles à l’hypothèse de rendement et ainsi lorsque

l’environnement économique se dégrade, ils préfèreraient plutôt racheter leur contrat que d’avoir

recours aux arbitrages. Les taux de rachat en fonction du type de produit nous conforte sur la

nécessité de construire les lois de rachats par maille de produit car on observe bien des taux

différents (mais comparables) entre les différentes grandes lignes de produit. Même si la gamme

Allianz Itinéraire Epargne (AIE) regorge de moins de contrats que les autres produits, il n’en

demeure pas moins que le taux de rachat y est plus élevé.

Figure 4.3 – Taux de rachat en fonction de certaines variables



En ce qui concerne le statut matrimonial de l’assuré, nous constatons que les taux de

rachats sont plus importants chez les assurés n’étant pas en couple (en dehors des veufs) que

chez ceux en couple. En effet, les divorcés, les célibataires et pacsé/union libre présentent les

taux de rachat les plus élevés tandis que les mariés et les veufs rachètent moins. Par ailleurs, la

période de cotisation du contrat semble déterminer le rachat. Nous constatons que les personnes

détenant un contrat en cotisation périodique achèteraient plus que ceux ayant une périodicité

de cotisation unique à la souscription.

4.1.2 Ajustement spline : âge et ancienneté

Grâce à la méthode par splines, la courbe représentant le rachat en fonction de l’âge de

l’assuré a été ajustée par un spline linéaire à 10 noeuds (courbe en rouge). Comme l’illustre

le premier graphique (à gauche) sur la figure 4.4 ci-dessous. La probabilité de rachat semble

décroître avec l’âge comme nous l’avons vu plus haut même si nous observons quelques cassures

autour de 60 ans. En ce qui concerne l’ancienneté, nous avons ajusté un spline cubique à 9

noeuds et nous obtenons aussi des résultats identiques à ceux obtenus précédemment. Sur les

mêmes graphiques, nous avons représenté en bleu le résultat vraisemblablement inapproprié

qu’aurait fourni un ajustement linéaire. Ces graphiques nous illustrent bien la pertinence d’une

approche non-linéaire plutôt qu’une approche linéaire et mettent en avant un premier avantage

des methodes de machine learning que nous mettrons en oeuvre dans la suite du document.

Figure 4.4 – Ajustement spline : âge (à gauche) et ancienneté (à droite)

4.1.3 Effets croisés

L’objectif ici est de ressortir l’effet combiné ou interaction des variables explicatives sur la

décision de rachat. Après plusieurs croisements motivés par des explications intuitives, un cas



particulier a retenu notre attention : le cas de l’ancienneté du contrat et de l’âge de l’assuré.

Ainsi, en guise d’illutration, nous avons retenu l’âge et l’anciennete tout en n’excluant pas

d’autres possibilités d’interaction. Pour mettre en évidence cet effet croisé, nous avons utilisé

plusieurs méthodes.

LR LR avec Spline GAM

Figure 4.5 – Effet croisé (1)

Ces premiers graphiques ci-dessus illustrent les résultats en utilisant les méthodes LR, LR

avec Spline et GAM. Nous constatons que les résultats obtenus avec la LR avec spline (sémi-

paramétrique) et le GAM (non paramétrique) sont plus précis que ceux de la LR (paramétrique).

En effet, nous visualisons deux grandes zones à risque en terme de rachat. Ils mettent en exergue

les rachats précoces de moins de 2 ans d’ancienneté d’une part et les rachats pour motif fiscal

après 8 ans d’ancienneté. D’autre part, ils nous montrent que les rachats touchent plus la

population jeune qui rachète beaucoup plus précocement. Notons que ces rachats précoces

contradictoires avec l’hypothèse d’optimisation fiscale sont plutôt dûs à un commissionnement

avantageux du personnel commercial.

SVM Linéaire Forêt aléatoire Boosting

Figure 4.6 – Effet crisé (2)



Nous obtenons les mêmes résultats en utilisant d’autres méthodes de machine learning

même si le modèle SVM linéaire donne plus d’importance à l’âge en priviligiant les rachats

des personnes agées. Une fois de plus nous nous apercevons des faiblesses d’une approche

linéaire. Par ailleurs, nous nous rendons compte que les modèles d’agrégations (forêt aléatoire

et boosting) semblent bien plus précis car les zones à risque y sont bien plus spécifiées.

Ainsi, ces résultats illustrent bien que les méthodes de machine learning modélisent mieux

les effets croisés et sont bien plus précises que les modèles statistiques classiques. En effet,

l’approche non paramétrique permet de bien prendre en compte les interactions entre variables

et ainsi accroît vraisemblement le pouvoir prédictif.

4.2 Modélisation prédictive

Dans cette section, nous nous attardons sur la modélisation prédictive de la décision de

rachat. Nous allons mettre en oeuvre diverses techniques de prédiction à savoir la Logistic Re-

gression (LR), la LR avec Spline, le Generalized Additive Model (GAM), le CART, les Forêts

aléatoires et le Gradient Tree Boosting. Les quatre premiers modèles ont l’avantage de fournir

des résultats facilement interprétables mais les capacités prédictives sont généralement insatis-

faisantes tandis que les deux derniers qui sont des modèles d’agrégation sont reconnus pour

modéliser les phénomènes complexes et pour leur grande précision de prédiction au détriment

de leur côté « boîte noire ».

Pour cette phase de modélisation, nous avons divisé notre échantillon en deux : un échantillon

d’apprentissage (70%) pour la phase d’apprentissage et un échantillon test (30%) pour la phase

de test du modèle obtenu lors de l’apprentissage. Ces échantillons ont été obtenus par tirage

aléatoire simple sans remise en s’assurant qu’ils aient chacun la même structure de donnée

que celle de la base de donnée mère. Ainsi, notre échantillon d’apprentissage contient 381 248

contrats dont 72 457 contrats qui ont été rachetés, soit une proportion de rachat d’environ

19% comparable avec la proportion de la base de donnée globale. L’échantillon test contient

quant à lui 163 392 contrats dont 31 059 contrats rachetés, soit une proportion d’environ 19%

également.

4.2.1 Modèles généralisés

Dans la grande classe des modèles généralisés, nous avons implémenté la LR, puis nous

l’avons amélioré avec un lissage spline pour les variables ancienneté et âge, et enfin nous avons

mis en oeuvre un modèle GAM.



Logistic Regression (LR)

Populaire et traditionnellement utilisée en assurance en tant que cas particulier de la grande

famille des GLM, la LR a l’avantage de conjuguer des résultats explicites et une prévision

relativement précise. Nous désirons modéliser la décision de racheter ou pas ; donc notre variable

cible est binaire. Nous avons implémenté la LR sur le logiciel R grâce à la fonction glm ; la

fonction stepAIC de la librairie MASS nous a permis de sélectionner de manière adéquate les

variables les plus pertinentes pour ainsi obtenir le meilleur modèle dont les résultats ci-dessous.

Coefficient Ecart-type z-value Pr(>|z|)Constante 2.892e+00 4.595e-02 62.945 < 2e-16 ***Age -1.053e-02 3.807e-04 -27.658 < 2e-16 ***Anciennete -2.066e-01 1.444e-03 -143.022 < 2e-16 ***Encours -1.436e-05 2.717e-07 -52.859 < 2e-16 ***Prime Initiale -1.952e-08 2.333e-07 -0.084 0.9333Pct UC2.0% (ref.)Pct UC2.0-20% 2.398e-01 1.692e-02 14.173 < 2e-16 ***Pct UC2.20-40% -3.411e-01 1.385e-02 -24.630 < 2e-16 ***Pct UC3.40-60% -1.369e-01 1.701e-02 -8.048 8.41e-16 ***Pct UC4.60-100% 2.647e-01 1.879e-02 14.083 < 2e-16 ***Pct UC5.100% 5.395e-01 1.505e-02 35.849 < 2e-16 ***Féminin (ref.)Masculin 1.437e-01 9.238e-03 15.554 < 2e-16 ***Veuf (ref.)Marié -2.370e-01 1.892e-02 -12.528 < 2e-16 ***Célibataire -4.116e-01 2.244e-02 -18.341 < 2e-16 ***Pacsé/UL -3.843e-01 2.553e-02 -15.052 < 2e-16 ***Divorcé 5.363e-02 2.350e-02 2.282 0.0225 *Cotisation Périodique (ref.)Cotisation Unique 3.889e-01 1.147e-02 33.902 < 2e-16 ***Produit AIE (ref.)Produit Ideavie -1.477e+00 1.397e-02 -105.686 < 2e-16 ***Produit Tellus 7.327e-01 2.524e-02 29.028 < 2e-16 ***Réseau AFC (ref.)Reseau AG -1.437e+00 2.612e-02 -55.016 < 2e-16 ***Non Fourgous (ref.)Fourgous -1.266e+00 2.404e-02 -52.660 < 2e-16 ***Aucun rachat partiel (ref.)Au moins un rachat partiel 5.443e-01 1.058e-02 51.446 < 2e-16 ***Aucun versement libre (ref.)Au moins un versement libre -4.984e-01 1.203e-02 -41.416 < 2e-16 ***

Table 4.1 – Coefficients estimés de la LR

Ainsi, nous constatons que toutes les variables explicatives sélectionnées sont statistiquement

significatives et que le modèle est globalement significatif. Cela indique que ces variables in-

fluencent bien la décision de rachat des assurés. Rappelons que nous ne pouvons pas interpréter

directement les coefficients de la LR mais plutôt leurs signes. Toutefois, nous ne nous attardons

pas sur ces interprétations étant donné que ce qui nous importe c’est la prédiction.



LR avec Spline

Dans un souci d’amélioration des performances de la LR, nous avons ajouté une dimension

non-paramétrique pour certaines variables en incluant non pas directement la variable concernée

dans le modèle, mais plutôt la fonction spline estimée. Nous l’avons fait pour les variables

âge et ancienneté. Les coefficients des différentes composantes de la fonction spline sont tous

significatifs et nous confortent quant au choix des meilleures fonctions d’ajustement. En effet,

nous avons fait un léger gain d’AUC qui passe de 78,4% sur la LR à 79.4% avec la LR avec

spline. Nous aurions certainement un gain bien plus important si nous utilisons ce lissage spline

avec d’autres variables et pas uniquement l’âge et l’ancienneté.

GAM

La méthode GAM fait partie de la classe des modèles généralisés et permet de prendre en

compte des effets non linéaires. Les résultats de cette modélisation nous montrent quelques

peu les vertus de l’approche non paramétrique. En effet, nous obtenons un gain de prédiction

en utilisant GAM plutôt que la LR. L’AUC du modèle GAM sur l’échantillon d’apprentissage

s’établit à environ 80% contre 78.4% pour la LR.

4.2.2 CART

Dans la classe des arbres de décisions, nous avons implémenté l’algorithme CART et ce à

partir de la librairie rpart du logiciel R. Comme nous l’avons vu plus haut, le critère de division

de l’arbre est l’indice de gini et la construction de l’arbre repose sur un critère de pénalisation

(noté ici cp) qui complexifie de proche en proche l’arbre. Ainsi, après construction d’un premier

arbre, nous nous sommes attelés à l’élaguer pour obtenir un arbre plus performant (Pruned

tree), ce qui passe par la recherche du cp optimal.

Figure 4.7 – Elagage de l’arbre



Notons que plus l’indicateur cp est élevé, moins le sera le nombre de noeuds et donc de

segmentations de l’arbre. La figure à droite ci-dessous nous montre la décroissance de l’erreur

lorsque le cp baisse. Par ailleurs, la règle de Breiman nous suggère un seuil d’erreur inférieur à

0.7177399 (0.71482+0.0029199). Ce qui nous pousse à retenir un cp compris entre 0.00038565

et 0.00038661. Nous faisons ainsi le choix de retenir une valeur de cp égale à 0.0003857. Nous

obtenons ainsi l’arbre élagué ci-dessous :

Figure 4.8 – Arbre de décision élagué

Les variables sélectionnées dans la construction de cet arbre sont l’encours, l’ancienneté et

le type de produit. L’arbre nous donne au final 10 segments d’assurés dont trois segments à

risque en terme de comportement de rachat. La première division concerne la variable encours

et différencie les petits contrats (encours inférieur à environ 7 700 euros) des grands contrats

(encours supérieur à environ 7 700 euros). Ensuite, nous retrouvons l’ancienneté du contrat qui

met en évidence les rachats précoces et les rachats pour motifs fiscaux après 8 ans. Ces trois

segments à risque sont donc dans un premier temps les contrats de faible encours (inférieur à

environ 2 144 euros ) et d’ancienneté inférieure à 3.5 ans (rachat précoce dû à un commission-



nement avantageux), dans un deuxième temps, les contrats d’encours inférieurs à 7 725 euros et

d’ancienneté comprise entre 3.5 à 9.5 ans, concernant plus le produit AIE et dans un troisème

temps, les contrats d’encours supérieurs à 7 725 euros et d’ancienneté comprise entre 8.5 à 12

ans, concernant plus le produit AIE.

4.2.3 Agrégation d’arbre de décision

Etant donné que les arbres de décision sont très instables et ont de faibles capacités préditives

comme nous l’avons mentionné dans le chapitre précédent, afin d’améliorer son pouvoir prédictif,

nous avons eu recours aux modèles d’agrégations. L’objectif n’est plus de construire un seul

arbre mais plusieurs arbres et de les agréger par la suite. Ainsi, nous avons choisi d’implémenter

deux modèles d’agrégations : les forêts alétoires et le Gradient Tree Boosting.

Forêt aléatoire

En apprentissage statistique, la méthode des forêts aléatoires est l’une des plus utilisées,

car réalisant un bon compromis entre les méthodes les plus simples (GLM) et les algorithmes

d’apprentissage les plus sophistiqués. Nous l’avons ainsi mis en oeuvre sous le logiciel R en

utilisant la librairie RandomForest. La figure ci-dessous nous présente d’une part à gauche

l’importance des variables dans la modélisation de la décision de rachat et d’autre part le taux

d’erreur OOB en fonction du nombre d’abres utilisés.

Figure 4.9 – Erreur OOB en fonction du nombres d’arbres et importances des variables

Tout d’abord, constatons une décroissance de l’erreur en fonction du nombre d’arbres ce

qui paraît intuitif car en augmentant le nombre d’arbres, nous augmentons ainsi le dégré de



complexité du modèle et donc son pouvoir préditif. Cependant, il nous suggère de retenir

100 arbres pour notre modèle final car à partir de 100 arbres, l’erreur OOB ne varie plus

significativement et se stabilise autour de 0.10. Par ailleurs, il ressort que l’encours du contrat,

son ancienneté, la prime initiale versée (proxy pour capter le niveau de richesse de l’assuré) et

l’âge de l’assuré sont les variabes les plus importantes en termes de comportements de rachat.

A ce groupe de variables les plus pertinentes, nous pouvons ajouter le taux d’investissement

D’UC, le type de produit ainsi que le statut matrimonial. Nous remarquons que l’importance

des autres variables semble faible et reste comparable. C’est dire que ces variables influencent

très faiblement la décision de rachat des assurés. Nous citons ainsi par exemple le sexe de

l’assuré et la période de cotisation du contrat qui semblent très peu importants pour prédire le

rachat.

Gradient Tree Boosting

Le Gradient Boosting permet d’agréger des "faibles" classifieurs afin d’obtenir un "fort"

classifieur. Nous l’avons implémenté ici en raison de ses fortes capacités prédictives sous le

logiciel R en utilisant la librairie dismo avec la fonction d’estimation du modèle gbm.step.

Figure 4.10 – Erreur OOB en fonction du nombres de stumps et importances des variables

Au regard de la figure 4.10 ci-dessus (gauche) présentant la décroissance de l’erreur commise

en fonction du nombre de stumps, le choix de retenir 10 000 stumps nous semble être le meilleur

compromis entre temps de calcul et erreur faible ; cet erreur se stabilisant autour de 0.6. Ensuite,

en ce qui concerne l’importance des variables, nous retrouvons des résultats comparables avec

ceux obtenus avec les forêts aléatoires. Cependant, le boosting donne plus d’importance à

l’anciennete comme première variable la plus disciminante au détriment de l’encours qui passe



deuxième. Par ailleurs, il n’accorde pas une grande importance à l’âge de l’assuré contrairement

au modèle de forêts alétoires. Ainsi, au vu de ce modèle, les variables les plus déterminantes sont

tout d’abord l’ancienneté et l’encours du contrat, suivis par la prime initiale, le type de produit

et le taux d’investissement d’UC. Les deux modèles d’agrégations que nous avons implémentés

s’accordent sur le fait que le sexe de l’assuré influence très peu la décision de rachat des assurés.

Le modèle d’agrégation par boosting nous fournit comme la LR les effets marginaux des va-

riables explicatives. Nous nous sommes ainsi intéressés à ces effets marginaux en nous focalisant

sur les variables les plus importantes (cf figure 4.11 ci-dessous).

Figure 4.11 – Courbes des effets marginaux des variables

En ce qui concerne l’ancienneté, nous retrouvons bien encore les rachats précoces. De manière

générale, l’effet marginal de l’ancienneté sur la décision de rachat baisse lorsque l’ancienneté

augmente même si nous retrouvons bien le rachat pour motif fiscal. C’est dire que lorsqu’un

assuré a déjà entretenu une relation de plus de 8 ans avec son assureur et qu’il ne detenait pas son

contrat juste pour une optimisation fiscale, alors il a tendance à moins racheter que les autres.



Une explication serait que lorsque les assurés atteignent un certain âge, plutôt que de racheter

leur contrat, il préfère le léguer à leurs proches en cas de décès. Par ailleurs, nous constatons

une décroissance de l’effet marginal de l’encours et de la prime initiale du contrat pour les

petits contrats, puis une croissance légère pour les contrats moyens et enfin une stabilisation

pour les grands contrats. Ainsi, les grands contrats seraient moins sensibles au rachat que les

petits contrats. Enfin, la croissance de l’effet marginal du taux d’investissement d’UC pour les

contrats ayant un taux d’UC supérieur à 40% nous confirme bien que les assurés ayant une

forte appétence pour les marchés financiers ont tendance à beaucoup plus racheter.

4.3 Benchmark des modèles

Nous différents modèles prédictifs étant mis en oeuvre, nous nous attelons dans cette section

à évaluer leur performance en terme de pouvoir prédictif et d’en choisir le meilleur modèle qui

sera utilisé pour la prédiction de la décision de rachat des assurés. Pour ce faire, nous avons

retenu deux principaux indicateurs de performance : la courbe ROC (avec l’aire en dessous

de cette courbe : AUC) et la courbe lift. Ainsi, la figure 4.12 ci-dessous nous présente une

superposition des courbes ROC et Lift de nos différents modèles sur l’échantillon test qui n’a

pas participé à la phase d’apprentissage.

Figure 4.12 – Courbe ROC (à gauche) et courbe lift (à droite)

En ce qui concerne les courbes ROC, nous constatons sans grande surprise que le modèle par

arbre de décision est le pire modèle en terme de prédiction car sa courbe est la plus proche de la

première bissectrice. Le modèle logistique avec spline améliore légèrement le pouvoir prédictif

du modèle logistique simple et le modèle GAM un peu plus encore. Les modèles d’agrégations



s’avèrent être les meilleurs modèles en terme de prédiction. Les courbes du modèle de forêt

aléatoire et du Gradient Tree boosting sont presques identiques. Cependant, au regard de la

courbe Lift, le pire modèle serait plutôt le modèle GAM, suivi par celui d’arbre de décision.

Les modèles d’agrégations apparaîssent toujours comme les meilleurs avec des courbes toujours

presque identiques.

A ces courbes s’ajoutent des indicateurs de performance plus chiffrables à savoir l’AUC et

le Lift à 10%. Tout d’abord, nous remarquons qu’en ce qui concerne l’AUC, nous obtenons

des résultats comparables sur l’échantillon d’apprentissage et l’échantillon test. En effet, la

prédiction faite à partir de l’échantillon test reflète celle obtenue lors de la phase d’apprentissage.

Ainsi, nous n’avons pas de risque de sur-apprentissage, ni de sous-apprentissage.

Modèle LR LR Spline GAM CART CART Elagué RF BoostingAUC Train 78.3% 79.4% 80.0% 76.1% 81.2% 87.1% 87.7%AUC Test 78.4% 79.3% 79.6% 74.9% 81.0% 85.9% 86.5%Lift à 10% 3.23 3.38 1.628 0.20 0.24 4.36 4.247

Table 4.2 – Comparaison performance des différents modèles

Ces résultats nous confortent quant aux fortes capacités prédictives des modèles d’agréga-

tions. Nous obtenons un très bon niveau d’AUC s’établissant à environ 87.1% et 87.6% pour

le modèle des forêts alétoires et de boosting respectivement. Par ailleurs, nous constatons une

augmentation du pouvoir prédictif du modèle d’arbre de décision après élagage car l’AUC passe

de 76.1% à 81.2% du modèle d’arbre sans élagation au modèle d’arbre élagué qui dépasse même

le pouvoir prédictif du modèle GAM. En ce qui concerne le lift, il est très utilisé en marketing

pour optimiser le clibage des campagnes marketing et est aussi utilisé pour apprécier les per-

formances d’un modèle de prédiction. En effet, un lift à x% étant égale à y% signifierait que

si l’on cible x% des assurés, nous détecterions bien y% de ceux qui vont réellement racheter

leur contrat. Nous constatons ainsi que même au regard du lift à 10%, ce sont les modèles

d’agrégations qui sont les plus prédictifs. En fait, en utilisant un modèle de boosting d’arbre

de décision, si l’on cible 10% des assurés prédisposés à racheter leur contrat au regard de leur

probabilité de rachat, nous espérons ne pas nous tromper sur 42,4% d’entre eux qui racheterons

effectivement.

En somme, pour prédire la décision de rachat, nous priviligeons les modèles d’agrégations

grâce à leur forte capacité prédictive. Cependant, bien que le modèle forêt aléatoire utilise moins

d’arbres que le boosting, il reste pour autant plus chronophage que celui du boosting. Ainsi,

nous retenons le modèle Gradient boosting comme meilleur modèle optimisant temps de calcul



et pouvoir prédictif. Ce modèle nous donne ainsi une estimation des probabilités de rachat pour

chaque assuré. La figure ci-dessous nous présente les fonctions de répartition des probabilités

de rachat de la population des assurés qui rachètent d’une part, et de la population des assurés

qui ne sont pas pas prédisposés à racheter et nous constatons bien une bonne discrimination

des deux populations.

Figure 4.13 – Fonctions de répartition des probabilités de rachat

Ainsi, nous proposons une estimation des taux de rachat structurel en montant à partir

des probabilités de rachat= P(Yi = 1/Xi) que l’on peut ramener à l’ancienneté, à l’encours

et à la maille produit ou tout autre segment afin de les rendre opérationnels dans les modèles

de valorisation. Nous définissons la variable aléatoire RT désignant la perte individuelle en

montant.

RTi =

{PMi si rachat total avec probabilité pi0 sinon avec probabilité 1− pi

Ainsi, pour un contrat i donné, l’espérance du montant racheté est de E(RTi) = pi ∗PMi +

(1−pi)∗0 = pi∗PMi. En notant RT =∑

iRTi le montant global totalement racheté, l’espérance

du montant global racheté est alors de E(RT ) =∑

iRTi =∑

i E(RTi) =∑

i pi ∗ PMi. Ainsi,

nous proposons d’estimer le taux de rachat global appliqué sur le contrats en cours de l’année

d’étude comme suit :

TxRacTot =E(RT )∑i PMi

=

∑i pi ∗ PMi∑i PMi


Chapitre 5

Vers des comportements dynamiques de

rachat

Le chapitre précédent nous a permis de prédire les comportements de rachat en fonction des

facteurs structurels. Dans ce chapitre, nous nous proposons d’aller vers des comportements de

rachats dynamiques en ajoutant aux facteurs structurels, les facteurs économiques et financiers

pour prédire les comportements de rachat des assurés. Hormis la prise en compte des facteurs

économiques qui permettent de mieux prédire les comportements en captant les effets croisés

structurels et conjoncturels, cette analyse dynamique permet aussi d’éviter les problèmes liés à

la délimitation de la période d’étude pour analyser le phénomène.

Afin de mener à bien cette analyse dynamique, nous postulons une hypothèse très forte

d’indépendance temporelle entre les décisions des assurés. De plus, nous avons négliger dans

cette étude le décès des assurés. Pour alléger la modélisation, nous avons fait le choix de

segmenter la base de données par grande ligne de produits ceci étant donné que le chapitre

précédent nous a montré que les comportements de rachat étaient différents d’un produit à

l’autre. La base de données que nous avons utilisées porte sur la maille de produit AIE qui

représente l’un des produits phares de l’entreprise. Pour la construction de la base d’analyse,

nous partons de la base de donnée utilisée pour les rachats structurels. Puis nous dupliquons

chaque assuré chaque mois où son contrat est en cours en portefeuille. Enfin nous ajoutons

les variables économiques (taux de croissance, taux d’inflation, taux de chômage, OAT court

et long terme, Taux de Participation aux Bénéfices (PB) servi, l’indice de l’immobilier, le

Taux moyen d’emprunts d’Etats (TME), indice de CAC40 et l’indice de situation financière).

Nous obtenons ainsi une base de données d’environ 4 millions de lignes et une quarantaine de

variables. Nous ajoutons aussi l’année d’observation (pour capter l’effet temporel) et le mois

d’observation (pour capter l’effet de saisonnalité) comme covariables.

66


Notre base de données devenant de plus en plus volumineuse, afin d’optimiser les temps de

calcul nous avons fait recours lors de la phase d’apprentissage au language Python via sa pla-

teforme Anaconda. Nous avons ainsi utilisé le module scikit-learn de Python pour implémenter

les méthodes de machine learning.

5.1 Analyse du contexte économique

Dans cette section, nous nous proposons de faire une analyse de la situation économique

de la France au cours de notre période d’étude étant donné que l’activité épargne est très

corrélée avec le marché. Dans un premier temps nous mettons en avant une détérioration de

l’environnement économique et financier, et dans un second temps nous abordons la dynamique

des taux servis aux assurés.

5.1.1 Une détérioration du contexte économique et financier

La situation économique de la France n’a cessé de se dégrader depuis 2011. Après la crise

économique mondiale de 2008, nous avions assisté à une légère reprise de l’activité économique.

Cependant, les indicateurs économiques et financiers peinent encore à être véritablement rede-

venir verts en France. En effet, le taux croissance n’a pas franchi la barre des 2% depuis 2011.

Par ailleurs, la figure ci-dessous nous présente l’évolution de quelques indicateurs économiques

et financiers pouvant influencer la décision des assurés detenant un contrat d’assurance vie, ce

étant donnée que les contrats d’épargne sont très corrélés avec le marché.

Tout d’abord, malgré les promesses du gouvernement, l’inversion de la courbe du chômage

n’est pas encore une réalité. En effet, le taux de chômage amorce une croissance très prononcée

en 2011 et 2013, avant d’entamer une stabilisation à partir de 2014. L’analyse du taux de

chômage nous intéresse dans la mesure où nous savons que pour épargner il faut avoir des revenus

et que si un assuré perd son emploi, alors cela pourrait le pousser à racheter son contrat pour

satisfaire l’hypothèse de fonds d’urgence. Par ailleurs, l’un des points déterminants de la décision

des assurés est la perception qu’ils font de leur situation financière personnelle. Nous pourrions

penser que lorsque les agents économiques pensent que cette dernière est médiocre, cela les

pousse à racheter leur contrat. Ainsi, au regard de l’évolution de l’indice de situation financière

construit par l’INSEE nous constatons que de 2011 à 2014, cet indice est relativement stable

avant d’amorcer une croisance soutenue. C’est dire qu’à partir de 2014, les ménages français

estiment que leur situation financière s’est améliorée. En faisant le parallèle avec l’évolution du

chômage, cette amélioration pourrait être due à la stabilisation de la croissance du chômage.



Figure 5.1 – Evolutions de quelques indicateurs fianciers et économiques

Cette détérioration se manifeste aussi par l’évolution du taux d’intérêt court terme à 1 an où

nous observons une chute brutale du milieu de l’année 2011 à 2013, puis se stabilise entre 2013

et 2014 avant d’entamer encore une décroissance. Cependant, l’indice des prix de l’immobilier

ne cesse de chuter depuis 2011. Notons qu’une grande majorité des assurés détient des contrats

d’épargne pour des investissements de grande envergure dont l’immobilier. Ainsi, si les prix de

l’immobilier chute, cela pourrait pousser certains assurés à racheter leur contrat pour bénéficier

de cette baisse des prix afin de faire une bonne affaire.

5.1.2 Une baisse du taux servi

Dans la littérature, les rachats dynamiques sont modélisés en utilisant la différence de taux

servi et de taux benchmark ou de marché comme nous l’avons vu au chapitre 1. La figure

ci-dessous nous présente une évolution des taux moyens annuels de PB servis sur les contrats

d’épargne de la maille d’étude.



Figure 5.2 – Evolution du taux de PB servi et de l’OAT 10 ans

Depuis 2011, nous observons une diminution des taux servis et cette tendance baissière est

généralisée à l’ensemble du marché. Les taux de participation aux bénéfices s’élévaient à environ

3.4% en 2011. Depuis lors, ils n’ont cessé de décroitre jusqu’à atteindre la barre de 2.7% en

2015. Par ailleurs, nous observons une baisse des taux longs termes d’obligations souveraines

françaises à 10 ans qui atteignent des niveaux historiquement bas à hauteur d’environ 0.9% en

Décembre 2015 alors qu’ils s’établissaient à environ 3.4% en Janvier 2011. Ainsi, cette baisse a

pesé non seulement sur le rendement des actifs des assureurs constitués en très grande majorité

d’obligations (les actifs des compagnies d’assurances sont constitués environ de 80% en obliga-

tions), mais aussi sur les rendements futurs. Ce qui justifie ainsi la baisse des taux servis aux

assurés même si l’on constate que cette baisse du taux servi aurait été plus prononcée au regard

de celle des taux d’obligations. Mais, pour rester compétitifs afin de ne pas perdre les clients,

les assureurs préfèrent puiser dans leurs réserves pour contineur à servir des taux relativement

élevés même si la Banque de France leur somme de réduire d’avantage leurs taux servis.

5.2 Comportements de rachats suivant les facteurs dyna-

miques

Dans cette section, nous nous intéressons à l’analyse des décisions de rachats totaux en ne

prennant en compte que les variables économiques et financières. Pour ce faire, nous avons fait

le choix d’utiliser le modèle d’arbre de décision grâce à sa facilité d’interprétation ainsi qu’aux

forêts aléatoires pour détecter les variables dynamiques les plus importantes qui déterminent

la décision de rachat d’un assuré.



5.2.1 Effet saisonnier des rachats

Comme nous l’avons mentionné précédemment dans ce mémoire, la décision de rachat se

base sur deux principales hypothèses : le besoin immédiat de liquidité et la baisse de rendement

du contrat. Etant donné que le besoin d’argent peut être plus prononçé à certaines périodes de

l’année (paiement des impôts, rentrée scolaire, fêtes de fin d’année, etc.) et que la participation

aux bénéfices qui détermine le rendement du contrat est souvent communiquée à un mois précis

de l’année, nous soupçonnons ainsi une certaine saisonnalité dans les décisions de rachat. L’arbre

de décision ci-dessous semble bien nous confirmer cet effet saisionnier des rachats. En effet, il

apparaît que la variable la plus discriminante dans l’ensemble des variables dynamiques retenues

est le mois. Nous constatons ainsi que les rachats sont plus importants en début d’année (les

mois de Janvier, Février, Mars).

Figure 5.3 – Arbre de décision - Effet saisonnier

5.2.2 Les rachats déterminés par les variables économiques

Dans ce paragraphe, nous excluons l’effet saisonnier et nous nous rendons compte d’une

dominance des variables économiques pour expliquer la décision de rachat. En effet, le taux de

croissance de l’économie qui donne une vue d’ensemble global de la santé économique d’un pays

semble être la plus disciminante, suivi par le taux d’inflation et la variation de l’indice des prix

de l’immobilier. Nous retrouvons aussi sur cet arbre le taux d’intérêt court terme. Ainsi, un taux

de croissance très faible couplé avec un taux d’inflation également très faible inciteraient les

assurés à racheter leur contrat car il craigne qu’une dégradation de l’environnement économique

affecterait le rendement de leur contrat ou alors il souhaiterait acheter d’autres supports devenus

moins chèrs (les taux d’immobiliers qui chutent). D’un autre côté, une forte variation de l’indice

immobilier à la baisse couplée à un taux d’intérêt court terme faible inciteraient aussi les assurés

à racheter leur contrat.



Figure 5.4 – Arbre de décision - variables dynamiques

Afin d’être plus précis et exhaustif, nous avons mis en oeuvre un modèle de forêt aléatoire

pour détecter les variables dynamiques les importantes déterminants la décision de rachat.

Tout d’abord, la figue 5.5 ci-dessous de gauche nous fourni les l’erreur OOB sur l’échantillon

d’apprentissage et l’échantillon test en fonction du nombre d’arbres retenus. Nous constatons

que les deux courbes ont la même allure et que celle de l’échantillon test est au-dessus de

l’echantillon d’apprentissage car c’est ce dernier qui a participé à la construction du modèle.

Par ailleurs, cette erreur se stabilise à partir de 50 arbres et nous retenons donc ce nombre

d’arbre pour évaluer l’importance des variables.

Figure 5.5 – Erreur OOB (à gauche) et importance des variables (à droite)



Par ailleurs, le graphique de gauche nous donne les variables dynamiques les plus impor-

tantes qui déterminent la décision de rachat. Nous avons taux d’abord le mois suivi du taux de

croissance qui semblent être les plus importantes. Ensuite, nous avons le TME, la variation de

l’indice des prix de l’immobilier, le taux d’intérêt long terme, l’indice de l’immobilier, le taux

de chômage, le taux d’inflation, la variation de l’indice du CAC 40 et enfin l’indice de situation

financière. Le taux de PB et la variable année arrivent en dernière position. Ce dernier résultat

nous laissent quelque peu perplexe étant donné que le taux servi est considéré comme l’un

des drivers des rachats dynamiques. Alors, nous avons creusé davantage ce résultat et nous

avons ainsi relancé le modèle en excluant l’effet saisonnier qui est typiquement lié à la PB et

en incluant plûtot le différentiel entre le taux servi et le taux benchmark (nous avons retenu ici

comme taux benchmark le TME).

Figure 5.6 – Importance des variables dynamiques (2)

Ainsi, il ressort de la figure ci-dessous que la variable dynamique la plus importante pour

prédire les comportements de rachats est toujours le taux de croissance suivi du différentiel

entre le taux servi et le taux benchmark (variable utilisée actuellement pour construire les lois

de rachat dynamique).Par ailleurs, notons l’importance de la variation de l’indice des prix de

l’immobilier car très souvent les assurés rachètent leur contrat pour effectuer des achats de

grandes envergures ; très souvent les biens immobiliers.

5.3 Modélisation prédictive des comportements dynamiques

Dans cette section, nous nous attelons à une modélisation plus complète des comportements

de rachats en prenant à la fois les facteurs structurels et les facteurs conjoncturels. Ainsi, cette

démarche nous permettra de prendre en compte les effets croisés structurels et conjoncturels.



En guise d’illustration, les jeunes ne seraient pas aussi sensibles aux variations économiques

et financières ou du moins pas de la même manière que les personnes agées. Par ailleurs, les

assurés ayant un fort taux d’investissement à l’UC qui ont ainsi une forte appétence pour les

marchés financiers auraient tendance à racheter leur contrat plutôt que d’arbitrer vers le fonds

euros, en cas de baisse ou de moins value sur leur contrat.

La base de données globale comporte ainsi environ 4 992 458 lignes et une trentaine de va-

riables. Nous n’avons retenu ici que les variables les plus importantes ressortis de nous analyses

précédentes. Nous avons ainsi divisé notre base en deux échantillons : un échantillon d’appren-

tissage (70%) et un échantillon test (30%). L’échantillon d’apprentissage contient ainsi environ

3 328 305 lignes et l’échantillon test 1 664 152 lignes. Par ailleurs, nous avons pu nous apper-

cevoir des fortes capacités prédictives des modèles d’agrégations dans le chapitre 4. Ainsi, nous

proposons ici d’implémenter le modèle d’arbre de décision ainsi que les modèles d’agrégations

de ce dernier : les forêts aléatoires et le Gradient Tree Boosting. Comme nous l’avons mentionné

plus haut, nous utiliserons le module scikit-learn du language Python.

5.3.1 Arbre de décision : CART

Nous implémentons tout d’arbord le modèle d’arbre de décision en utilisant la fonction

DecisionTreeClassifier du module scikit-learn. Dans un premier temps, nous nous proposons de

déterminer la profondeur optimal (max depth) de l’arbre. Pour ce faire, nous faisons varier cette

profondeur de 1 à 15 et nous regardons l’évolution du MSE sur l’échantillon d’apprentissage et

l’échantillon test. La figure 5.6 ci-dessous nous montre ainsi cette évolution.

Figure 5.7 – MSE en fonction de la profondeur de l’arbre



Nous constatons que lorsque la profondeur maximale est entre 1 et 6, les MSE sur échantillon

d’apprentissage et échantillon test sont presque identiques, ce qui est ceux à quoi nous nous

attendons. Mais à partir d’une profondeur de 7, les deux courbes s’écartent progressivement : le

MSE sur échantillon d’apprentissage tend à s’annuler rapidement alors que celui sur échantillon

test tend à augmenter davantage ; nous serions ainsi dans une situation de sur-apprentissage.

Par conséquent, nous retenons donc une profondeur maximale de 6 pour construire notre arbre

final. Toutefois, pour obtenir un arbre lisible, nous avons décidé d’illustrer l’arbre avec une

prodondeur de 4. La figure 5.7 ci-dessous nous illustre ainsi l’arbre obtenu.

Ainsi, nous retrouvons encore notre effet saisonnier car le mois semble être la variable la plus

discriminante pour prédire les décisions de rachat. Ensuite vient l’encours, le taux d’investis-

sement d’UC, la variation de l’indice des prix de l’immobilier, le taux d’inflation et le taux

d’intérêt long terme. En décrivant par exemple la première branche de l’arbre, nous consta-

tons que : un encours faible, les premier mois de l’année (Janvier, Février, Mars) et un taux

d’inflation faible sont des indicateurs de rachat total.



Fig

ure5.8–arbrede

décision

finale-variab

lesstructurelleset

dyna

miques



5.3.2 Forêt aléatoire

A la suite de la construction de l’arbre de décision, nous avons implémenté un modèle

d’agrégation d’arbre : les forêts aléatoires. La figure 5.8 ci-dessous nous présente les résultats

obtenus : à gauche nous avons l’erreur OOB en fonction du nombre d’arbre et à droite nous

avons l’importance des variables. Nous retrouvons bien une décroissance de l’erreur en fonction

du nombre d’arbres, ce qui nous paraît intuitif car en augmentant le nombre d’arbres, nous

augmentons ainsi le dégré de complexité du modèle et donc son pouvoir préditif. Les courbes

sur l’échantillon d’apprentissage et test ont la même allure et sans surprise celle sur l’échantillon

test est au-dessus. Ce graphique nous suggère de retenir 50 arbres pour construire le modèle

car l’erreur OOB ne varie plus considérablement et se stabilise autour de 0.3.


Il en ressort de la figure à gauche que la variable la plus importante pour expliquer la

décision de rachat est l’encours du contrat, puis la prime initiale, l’âge de l’assuré, le taux

d’investissement d’UC, le taux de croissance et l’ancienneté. Ensuite, nous avons un second

groupe où nous retrouvons la variation la variation de l’indice des prix de l’immobilier, le taux

d’intérêt court terme, le différentiel entre le taux de PB servi et le taux benchmark, et le taux

d’intérêt long terme. Dans un dernier groupe, nous avons le taux d’inflation, le taux de chômage,

l’indice de situation financière et la variation de l’indice du CAC 40. Nous nous attendions à

une plus grande importance de l’ancienneté comme nous l’avons remarqué dans le chapitre

précédent. Cependant, les effets croisés structurels et conjoncturels induits sont certainement

une explication à ce résultat qui peut paraître contrintuitif.



5.3.3 Gradient Tree Boosting

Après l’implémentation des forêts aléatoires, nous mettons en oeuvre un deuxième modèle

d’agrégation : le boosting d’arbre de décision. Les résultats obtenus sont présentés sur la figure

5.9 ci-dessous : à gauche nous avons l’erreur OOB en fonction du nombre d’arbre et à droite

nous avons l’importance des variables. Nous constatons sur le graphique de gauche une décrois-

sance de la déviance en fonction du nombre d’itérations du boosting. Par ailleurs, à partir de

la 12000me itérations nous constatons que le déviance ne varie plus considérablement et est

relativement stable. Ainsi, nous faisons le choix de retenir 12 000 itérations pour implémenter

notre modèle de boosting final.


La figure de droite nous donnent l’importance des variables les plus discriminante. Il en

ressort que l’encours et la prime initiale sont les variables les plus importantes pour prédire les

comportements de rachat des assurés. Ensuite, vient le taux d’investissement d’UC, l’ancien-

neté du contrat, le taux de croissance et l’âge de l’assuré. Puis, nous retrouvons les variables

dynamiques : la différence entre le taux de PB servi et le taux benchmark, le taux d’inté-

rêt court et long terme, la variation de l’indice des prix de l’immobilier, le taux d’inflation ,

la variation de l’indice du CAC 40 et l’indice de situation financière. Ainsi, nous retrouvons

quelques différences avec les résultats obtenus avec les forêts aléatoires mais globalement, ces

résultats convergent et nous confortent sur le fait que ce sont davantage les facteurs structurels

qui déterminent la décision de rachat total des assurés.



5.3.4 Benchmark des modèles

Dans ce chapitre, nous nous sommes proposés d’aller vers des comportements dynamiques et

nous avons décidé d’implementer le modèle d’arbre de décision ainsi que les modèles d’agrégation

de ce dernier (forêt aléatoire et boosting). Nous nous attelons dans cette section à évaluer les

performances de ces trois modèles retenus en terme de pouvoir prédictif et d’en choisir le

meilleur modèle qui sera utilisé pour la prédiction de la décision de rachat des assurés. Pour ce

faire, nous avons retenu comme critère de performance la courbe ROC (avec l’aire en dessous de

cette courbe : AUC) tout en gardant à l’esprit qu’il existe bien d’autres critères de performance.

Ainsi, la figure 5.9 ci-dessous nous présente une superposition des courbes ROC de nos différents

modèles sur l’échantillon test qui n’a pas participé à la phase d’apprentissage.

Figure 5.11 – Courbes ROC des différents modèles

Ainsi, au regard de ces courbes ROC, le modèle de boosting s’avère être le meilleur modèle

car sa courbe étant au-dessus des autres. Puis nous retrouvons le modèle de forêt aléatoire et

enfin celui de l’arbre de décision. Ces résultats nous confortent sur le fait que les modèles d’agré-

gations transforme bien un mauvais classifieur en bon classifieur, en améliorant les capacités

prédictives du modèle de base. Par ailleurs, l’AUC sur l’échantillon test nous confortent bien

sur l’évaluation de ces modèles et le choix du meilleur modèle : modèle de boosting (92.8%),

modèle de forêt aléatoire (90.1%) et modèle d’arbre de décision (88.4%). En outre, nous consta-

tons qu’en rajoutant les variables dynamiques aux variables structurelles du chapitre précédent,

nous avons un gain d’AUC et donc de pouvoir prédictif. En effet, le meilleur modèle avec juste

les variables structurelles nous donnait un AUC de l’ordre de 87% et en ajoutant les variables

dynamiques, nous obtenons un AUC de l’ordre de 92%.


Conclusion

Au début de ce travail, nous nous sommes fixés comme objectif de prédire les comportements

de rachat des assurés détennant des contrats d’épargne individuelle. L’approche probabiliste a

été priviligié en faisant recours aux techniques de machine learning. Ainsi, après des analyses

descriptives et exploratoires, nous avons implémenté diverses techniques de prédiction à savoir :

la régression logistique, la régression logistique, le modèle GAM l’arbre de décision et s modèles

d’agrégations d’arbres de décision (les forêts aléatoires et le boosting), que nous avons évalué

par la suite afin d’en choisir le meilleur modèle.

Dans un premier temps, nous nous sommes intéressés à la prédiction des comportements de

rachat structurel en prennant en compte comme variables explicatives les facteurs structurels.

Les modèles d’agrégations (boosting et forêt aléatoire) s’avèrent être les meilleurs modèles en

terme de prédiction. En effet, nous obtenons des AUC de l’ordre de 87% sur l’échantillon test

démontrant une très bonne qualité de prédiction des modèles. Le modèle de forêt aléatoire

étant plus chronophage que celui du boosting, nous avons retenu ce dernier comme meilleur

modèle qui nous a permi d’obtenir les probabilités individuelles de rachat. Par ailleurs, il en

ressort que les variables les plus importantes qui détermineraient le rachat sont l’ancienneté,

l’encours, la prime initiale, le type de produit et le taux d’investissement d’UC. Le sexe de

l’assuré n’influence pas vraiment la décision de rachat total des assurés.

Dans un second temps, nous nous sommes tourné vers des comportements dynamiques de

rachat en ajoutant aux facteurs structurels, les facteurs économiques et financiers. Ainsi, nous

avons priviligié les modèles d’agrégations d’arbre de décision vu leur forte capacité prédictive.

Le modèle de boosting s’avère être une fois de plus le meilleur modèle avec un AUC d’environ

92.8% jugeant d’une très bonne qualité prédictive. Par ailleurs, nous constatons que ce sont

davantage les variables structurelles qui expliquent la décision de rachat sur notre prériode

d’étude que les variables dynamiques. Nous retrouvons donc deux grands groupes de variables

importantes pour expliquer la décision de rachat : d’une part les variables structurelles à savoir

l’encours, la prime initiale, l’âge de l’assuré, le taux d’investissement d’UC et l’ancienneté, et

79


d’autre part, le taux de croissance, le différentiel entre le taux de PB servi et le taux benchmark,

le taux d’intérêt court et long terme, la variation de et l’indice des prix de l’immobilier.

Comme tout travail scientifique, cette étude ne saurait être parfaite et présente ainsi quelques

limites. L’une des principales concerne la non prise en compte de la censure de nos données

car nous avons négligé dans notre étude l’effet des décès. En outre, notre étude aurait été

complète si nous avions traité les deux types de rachat (total et partiel). En perspective, nous

proposons ainsi d’étendre cette étude au cas des rachats partiels car les comportements de

rachat total et de rachat partiel ne sauraientt être identiques. Ensuite, nous pouvons aussi cité

la non prise en compte de certaines variables explicatives susceptibles de déterminer la décision

de rachat. Nous pensons par exemple au niveau d’éducation ou encore à la catégorie socio-

professionnelle de l’assuré qui ont été exclu vu le très haut taux de données manquantes et

incohérentes. Enfin, compte tenu des outils informatiques assez peu performants, nous n’avons

pas pu implémenté les modèles de prédiction plus complexes (réseau de neurone, SVM, etc...)

qui sont très chronophages et qui auraient pu nous donner des prédictions encore plus meilleurs.


Bibliographie

[1] Andreatta G. and Corradin S. (2003), "Fair value of life liabilities with embedded options :An application to a portfolio of Italian insurance policies", Working Paper, Astin Collo-quium Berlin

[2] Bacinello A. R., (2005), "Endogenous model of surrender conditions in equity-linked lifeinsurance", Insurance : Mathematics and Economics 37(2), pp. 270–296.

[3] Bacinello A. R., 2003a. Fair valuation of a guaranteed life insurance participating contractembedding a surrender option. Journal of Risk and Insurance 70(3), pp. 461–487.

[4] Besse P. et Laurent B. (2014), "Apprentissage statistique : modélisation, prévision et datamining ", Institut de Mathématiques de Toulouse

[5] Breiman L. (2001), "Random forests", Machine Learning (45), pp. 5-32

[6] Breiman L. et al. (1984), "Classication and Regression Trees", Chapman and Hall

[7] Breiman L. (1994), "Bagging Predictors", Technical Report No. 421, University of California

[8] Biernat E. et Lutz M. (2015), "Data Science : fondamentaux et études de cas", EditionsEyrolles, 296 p.

[9] Black F. and Scholes M. (1973), "The Pricing of Options and Corporate Liabilities", TheJournal of Political Economy, Vol. 81, N◦3, pp. 637-654

[10] CEIOPS (2011), "EIOPA Report on the fifth Quantitative Impact Study (QIS5) for Sol-vency II"

[1] Cerchiara R. R. et al (2009), "Generalized Linear Models in Life Insurance : Decrementsand Risk factor analysis under Solvency II", Working Paper, AFIR Colloquium Rome

[11] Cheung K. C. et Yang H. (2005), "Optimal stopping behavior of equity linked invest-ment products with regime switching", Insurance : Mathematics and Economics 37(3), pp.599–614

[12] Costabile M. et al (2008), "A binomial model for valuing equity-linked policies embeddingsurrender options", Insurance : Mathematics and Economics 42 (2008), pp. 873–886

81


[13] Cox J.C. et al. (1979), "Option pricing : A simplified approach", Journal of FinancialEconomics 7, pp. 229–263.

[14] David G. (2007), "Analyse économétrique de l’option de rachat dans les produitsd’épargne", CEA, Mémoire d’Actuariat - AXA France

[15] Eling M. et Kiesenbauer D.(2011), "What policy features determine life insurance lapse :An analysis of the German market", Journal of Risk and Insurance, forthcoming.

[16] Eling M. et Kochanski M.(2012) "Research on lapse in life insurance : what has been doneand what needs to be done ?", Working papers on risk management and insurance N◦ 126

[17] Engle R. F. and Granger C. W. J (1987), "Co-Integration and Error Correction : Represen-tation, Estimation, and Testing" , Econometrica, Vol. 55, No. 2. (Mar., 1987), pp. 251-276

[18] Freidman J. et al. (2008), "The Elements of Statistical Learning : Data Mining, Inferenceand Prediction", Springer Series in Statistics

[19] Freund Y. and Schapire R.E. (1996), "Game theory, on-line prediction and boosting",In Proceedings of the Ninth Annual Conference on Computational Learning Theory, pp.325–332

[20] Frey L. (2016), "Éclairages de l’enquête Patrimoine sur les comportements de rachat enassurance-vie", ACPR, N◦56 -Mars 2016

[21] ] Fauvel S. et Le Pévédic M. (2007), "Analyse des rachats d’un portefeuille vie individuelle :Approche théorique et Application pratique", ENSAE, Mémoire d’Actuariat - AXA France

[22] Grosen A. and Jorgensen P. L. (2000), "Fair valuation of life insurance liabilities : Theimpact of interest rate guarantees, surrender options, and bonus policies", Insurance : Ma-thematics and Economics 26(1), pp. 37–57

[23] Hastie T.J. et Tibshirani R.J. (1990), "Generalized Additive Models", Chapman andHall/CRC, 352 p.

[24] Kagraoka Y. (2005), "Modeling insurance surrenders by the negative binomial model",Working Paper

[25] Kaltwasser P. et Le Moine P. (2007),"Modèles de risques et solvabilité en assurance vie",Bulletin Français d’Actuariat, Vol. 7, n◦14, juillet-décembre 2007, pp. 25-74

[26] Kim C. (2005), "Modeling surrender and lapse rates with economic variables", NorthAmerican Actuarial Journal 9(4), pp. 56–70



[27] Kuo W. et al (2003), "An empirical study on the lapse rate : The cointegration approach",Journal of Risk and Insurance 70(3), pp. 489–508

[28] Milhaud X. (2011), "Segmentation et modélisation des comportements de rachat en Assu-rance Vie", ISFA, Mémoire d’Actuariat - AXA Global Life

[29] Nordahl H. A. (2008), "Valuation of life insurance surrender and exchange options", Insu-rance : Mathematics and Economics 42(3), pp. 909–919.

[30] Renshaw A. E. et Haberman S. (1986), "Statistical analysis of life assurance lapses", Jour-nal of the Institute of Actuaries 113, pp. 459–497

[31] Salma J. (2016), "Construction du taux de rachat structurel en épargne individuel : ap-proximation non linéaire et agrégation des modèles", ISFA, Mémoire d’Actuariat Confiden-tiel - Natixis Assurances

[32] Seror D. et Yengue D. (2013), "Modélisation des comportements de rachats dans un cadrede risques compétitifs", ENSAE, Mémoire d’Actuariat

[33] Shen W. and Xu H. (2005), "The valuation of unit-linked policies with or without surrenderoptions", Insurance : Mathematics and Economics 36(1), pp. 79–92.

[34] Steffensen M. (2002), "Intervention options in life insurance", Insurance : Mathematicsand Economics 31(1), pp. 71–85.

[35] Suru A. (2011), "Modélisation du rachat et parallèle avec la Physique", Université ParisDauphine, Mémoire d’Actuariat - Allianz France

[36] Tufféry S. (2015), "Modélisation prédictive et apprentissage statistique avec R", EditionsTechnip, 432 p.

[37] Vandaele N. and Vanmaele M. (2008), "Explicit portfolio for unit-linked life insurancecontracts with surrender option", Journal of Computational and Applied Mathematics

[38] Vandal N. (2005), "La régression non paramétrique multidimensionnelle : Théorie et ap-plication à une étude portant sur la densité mammaire", Université du Québec, Mémoirede Master

[39] Vapnik V. and Lerner A. (1963), "Pattern recognition using generalized portrait method",Automation and Remote Control, pp. 774-780.


Annexes

Figure 5.12 – Classement des différents risque en assurance vie selon l’ACPR

84


Figure 5.13 – Détermination du cp optimal pour élagage de l’arbre de décision



Figure 5.14 – Calibration plot des différents modèles - comportement dynamique


Note de synthèse

Contexte et objectif de l’étude

Malgré le contexte de taux bas actuel, l’assurance vie demeure le placement préféré desfrançais. Selon la Fédération Française de l’Assurance (FFA), le montant des cotisations collec-tées s’élève à 59,4 milliards d’euros au cours des cinq premiers mois de l’année 2016 (contre 57milliards d’euros sur la même période en 2015). Cet engouement pour l’assurance vie pourraits’expliquer par l’optimisation du triplet rendement-risque-fiscalité et par son compartiment sé-curisé : le fond euros. Par ailleurs, les contrats d’épargne de l’assurance vie offrent des options etgaranties afin de les rendre plus attractifs par rapport aux autres produits d’épargne. L’optionde rachat en est un exemple et permet à l’assuré de satisfaire son besoin de liquidité en retirantune partie (rachat partiel) ou la totalité de son épargne (rachat total) avant la maturité ducontrat prévue à la souscription, ceci moyennant éventuellement des pénalités de rachat. Ainsi,si le rachat est droit pour l’assuré, il est un risque pour l’assureur et une bonne appréhensionde ce risque est indispensable pour ce dernier. En fait, la modélisation du risque de rachat parl’assureur s’impose et présente principalement des enjeux de :

— solvabilité en mettant en oeuvre de meilleures stratégies de gestion actif/passif— competitivité en améliorant la rétention client et le gain de part de marché

Ainsi, l’objectif de ce mémoire est de prédire les décisions de rachats des assurés et ceen utilisant les techniques de machine learning (forêt aléatoire, boosting, arbre de décision,GAM, etc...). L’intérêt est d’obtenir une modélisation plus précise du risque de rachat grâceaux fortes capacités prédictives des techniques de machine learning. Nous obtiendrons ainsi desprobabilités de rachat qui pourront être utilisées pour estimer les lois de rachat. Notons quedans ce mémoire, nous nous sommes restreint à la prédiction des rachats totaux des assuréstout en rappelant que cette approche pourrait être adapter à celle des rachats partiels.

Revue de la littérature

Nous nous sommes tout d’abord attardés sur la littérature empirique et académique assezriche concernant la problématique des rachats en assurance vie, afin de nous en inspirer dansle cadre de notre étude. Traditionnellement, deux hypothèses ont été formulées : d’une partl’hypothèse de fonds de réserve ou d’urgence selon laquelle un assuré rachèterait son contratpour faire face à un choc négatif non anticipé, et d’autre part l’hypothèse de rendement selonlaquelle un assuré rachèterait son contrat pour l’investir ailleurs afin d’obtenir un meilleurrendement. Eling et Kochanski (2012) passent en revue les travaux qui ont déjà été réalisés sur

I


le rachat ainsi que les nouveaux axes potentiels de recherche dans ce domaine. Globalement, ilse dégage principalement quatre grandes approches de modélisation du risque de rachat : uneapproche financière, une approche statistique, une approche microéconomique, et une approcheprobabiliste.

— Approche financière : l’option de rachat étant un droit que confère l’assureur à l’assuréde retirer une partie ou la totalité de son épargne à tout moment, le risque de rachat estmodéliser comme une option américaine.

— Approche statistique : le taux de rachat est modéliser sous forme de série temporelleen mettant en relation plusieurs autres séries (taux d’intérêt, taux de chômage, taux decroissance, etc...) afin de détecter une relation de long terme et ainsi prévoir le taux derachat.

— Approche microéconomique : cette approche tente de modéliser les comportementsde rachat des assurés en se basant sur la théorie de l’espérance d’utilité. En effet, lathéorie microéconomique étudie les décisions individuelles des agents économiques ets’applique ici à la décision de rachat.

— Approche probabiliste : il s’agit d’une approche individuelle permettant d’expliquerles comportements de rachat des assurés par un ensemble de caractéristiques du produitet/ou de l’assuré. Elle vise à modéliser la décision de rachat en utilisant des modèles pro-babilistes et/ou économétriques et ainsi obtenir des probabilités de rachat individuellesafin de prédire le rachat d’un assuré.

Méthodologie retenue

Dans le cadre de ce mémoire, nous priviligions l’approche probabiliste en utilisant les mé-thodes de machine learning pour modéliser les comportements individuels de rachat des assuréset ainsi obtenir les probabilités de rachats. Comme nous l’avons mentionner plus haut, nousnous sommes restreint dans ce mémoire au cas du rachat total.

Dans un premier temps, nous faisons une modélisation prédictive des comportements derachats structurels en ne prenant en compte que les facteurs structurels. Pour ce faire, l’étudecouvre la période de 2011-2015 et porte sur environ 544 460 contrats multisupports (il s’agit descontrats issus des produits phares de l’entreprise) avec une trentaine de variables portant sur lescaractéristiques du contrat (ancienneté, type de produit, taux d’investissment UC, périodicitéde cotisation, encours, prime initiale, etc.) et les caractéristiques de l’assuré (sexe, âge, situationmatrimoniale, catégorie socioprofessionnelle, niveau d’éducation, etc.). Les caractéristiques ducontrat et des assurés sont observées soit à la date de rachat (pour les contrats rachetés), soit àla date de fin d’observation (pour les contrats non rachetés). Cette première analyse a été faitevia le logiciel R avec ses nombreuses librairies.

Dans un second temps, nous nous proposons d’aller vers des comportements de rachats dyna-miques en rajoutant aux facteurs structurels, les facteurs économiques et financiers pour prédireles comportements de rachat des assurés. Hormis la prise en compte des facteurs économiquesqui permettent de mieux prédire les comportements en captant les effets croisés structurels

2015-2016 II ENSAE ParisTech


et conjoncturels, cette analyse dynamique permet aussi d’éviter les problèmes liés à la délimi-tation de la période d’étude pour analyser le phénomène. Les variables économiques retenuessont : taux de croissance, taux d’inflation, taux de chômage, OAT court et long terme, Tauxde Participation aux Bénéfices (PB) servi, l’indice de l’immobilier, le Taux moyen d’empruntsd’Etats (TME), indice de CAC40 et l’indice de situation financière). En restreignant l’analyseà un produit en particulier, nous obtenons ainsi une base de données d’environ 4 milions delignes (en dupliquant les assurés chaque mois qu’ils sont présents en portefeuille, ceci s’inspirantdu mémoire de Xavier MILHAUD) et une quarantaine de variables. Nous ajoutons aussi l’an-née d’observation (pour capter l’effet temporelle) et le mois d’observation (pour capter l’effetde saisonnalité) comme covariables. Notre base de données devenant de plus en plus volumi-neuse, afin d’optimiser les temps de calcul nous avons fait recours au language Python via saplateforme Anaconda en utilisant son module scikit-learn.

Ainsi, la démarche d’analyse que nous retenons est la démarche classique de tout projet demachine learning qui peût se resumer en quatre étapes successives :

— Phase 1 : Exploration des données et de feature engineering— Phase 2 : Echantillonnage des données (apprentiisage, validation, test)— Phase 3 : Implémentation des techniques d’apprentissage supervisé— Phase 4 : Evaluation et comparaison des modèles estimés

Prédiction des comportements de rachats structurels

L’objectif ici est de déceler les principaux facteurs structurels influançant la décision derachat d’un assuré et ainsi prédire les comportements de rachat. Notre base de données com-porte environ 544 460 contrats d’épargne individuelle dont 103 576 contrats (soit environ uneproportion de 19%) qui ont été rachetés totalement au cours de la période 2011-2015. Aprèsune analyse exploratoire, nous avons divisé notre échantillon en deux : un échantillon d’appren-tissage (70%) pour la phase d’apprentissage et un échantillon test (30%) pour la phase de testet d’évaluation des modèles. Comme nous pouvons l’observer dans le tableau ci-dessous, lesmodèles d’agrégations s’avèrent être les meilleurs modèles en terme de prédiction. Les indica-teurs de performances des modèles de forêt aléatoire et de Gradient Tree boosting sont presquesidentiques.

Modèle LR LR Spline GAM CART CART Elagué RF BoostingAUC Train 78.3% 79.4% 80.0% 76.1% 81.2% 87.1% 87.7%AUC Test 78.4% 79.3% 79.6% 74.9% 81.0% 85.9% 86.5%Lift à 10% 3.23 3.38 1.628 0.20 0.24 4.135 4.247

Table 5.1 – Comparaison performance des différents modèles

Bien que le modèle forêt aléatoire utilise moins d’arbres que le boosting, il reste pour au-tant plus chronophage que celui du boosting. Ainsi, nous retenons le modèle Gradient boostingcomme meilleur modèle optimisant temps de calcul et pouvoir prédictif. Par ailleurs, les va-riables les plus importantes qui déterminent la décision de rachat sont tout d’abord l’anciennetéet l’encours du contrat, suivis par la prime initiale, le type de produit et le taux d’investissment

2015-2016 III ENSAE ParisTech


d’UC. Le sexe de l’assuré influence très peu la décision de rachat des assurés. Ce modèle deGradient Boosting nous donne ainsi une estimation des probabilités de rachat pour chaqueassuré dont nous pourrions nous servir pour estimer les lois de rachats.

Ainsi, nous proposons une estimation des taux de rachat structurel en montant à partir desprobabilités de rachatpi = P(Yi = 1/Xi) que l’on peut ramener à l’anciennté, à l’encours età la maille produit ou tout autre segment afin de les rendre opérationnels dans les modèlesde valorisation. Nous définissons la variable aléatoire RT désignant la perte individuelle enmontant.

RTi =

{PMi si rachat total avec probabilité pi0 sinon avec probabilité 1− pi

Ainsi, pour un contrat i donné, l’espérance du montant racheté est de E(RTi) = pi ∗PMi +

(1−pi)∗0 = pi∗PMi. En notant RT =∑

iRTi le montant global totalement racheté, l’espérancedu montant global racheté est alors de E(RT ) =

∑iRTi =

∑i E(RTi) =

∑i pi ∗ PMi. Ainsi,

nous proposons d’estimer le taux de rachat global appliqué sur le contrats en cours de l’annéed’étude comme suit :


=


Vers des comportements dynamiques de rachat

Comme dans la partie précédente, l’objectif est de déceler les principaux facteurs de rachatsmais cette fois ci en rajoutant les facteurs conjoncturels aux facteurs structurels. La base dedonnées globale utilisée comporte environ 4 992 458 lignes et une trentaine de variables. Nousn’avons retenu ici que les variables les plus importantes ressortis de nos analyses précédentes etnous avons aussi diviser notre base en deux échantillons : un échantillon d’apprentissage (70%)et un échantillon test (30%). Nous avons pu nous apercevoir des fortes capacités prédictivesdes modèles d’agrégations précédemment. Ainsi, nous proposons ici d’implémenter le modèled’arbre de décision ainsi que les modèles d’agrégations de ce dernier : les forêts aléatoires et leGradient Tree Boosting.

Il en ressort que le modèle de boosting s’avère être une fois de plus le meilleur modèleavec un AUC d’environ 92% jugeant de très bonnes qualités prédictives. Par ailleurs, nousconstatons que ce sont davantage les variables structurelles qui expliquent la décision de rachatsur notre période d’étude que les variables dynamiques. Nous retrouvons donc deux grandsgroupes de variables importantes pour expliquer la décision de rachat : d’une part les variablesstructurelles à savoir l’encours, la prime initiale, l’âge de l’assuré, le taux d’investissement d’UCet l’ancienneté, et d’autre part, le taux de croissance, le différentiel entre le taux de PB serviet le taux benchmark, le taux d’intérêt court et long terme, la variation de et l’indice des prixde l’immobilier.

2015-2016 IV ENSAE ParisTech

Executive summary

Context and objective of the study

Despite the current context of low rates, life insurance remains the preferred placement ofthe French. According to the French Federation of Insurance (FFA), the amount of collectedpremiums amounted to 59.4 billion euros during the first five months of 2016 (against 57 billioneuros over the same period in 2015). This enthusiasm for life insurance could be explained byoptimizing the risk-return-tax triplet and its secured compartment guaranteeing a minimumrate. Moreover, savings life insurance contracts provide options and guarantees in order to makethem more attractive relative to other savings products. The surrender option is one exampleand allows the insured to meet its liquidity needs by removing a portion (partial surrender) orall of their savings (lapse) before the maturity of the contract provided for the subscription,this possibly with surrender penalties. Thus, if surrender is a right for the insured, it’s a risk tothe insurer and a good understanding of this risk is essential for the latter. In fact, a surrenderrisk modeling by the insurer is crucial and presents challenges :

— solvency by implementing better asset / liability management strategies— competitiveness by improving customer retention and gain market share

Thus, the objective of this paper is to predict surrender decisions of insured using themachine learning tools (random forest, boosting, decision tree, GAM, etc ...). The interest isto get a more accurate modeling of the redemption risk due to strong predictive capabilities ofmachine learning tools. We then obtain the surrender probabilities that can be used to estimatethe surrender laws. Note that in this paper, we limited the prediction of total surrender ofinsured while recalling that this approach could be adapted to the partial surrender.

Review of literature

We ourselves first are focused on empirical and academic literature rich enough about theissue of surrender in life insurance to inspire us in our own study. Traditionally, two assumptionswere made : first the assumption of reserve funds or contingency that an insured would buy hiscontract to deal with an unexpected negative shock, and also the return assumption that aninsured redeem his contract to invest elsewhere in order to obtain better performance. Elingand Kochanski (2012) review the studies that has already been made on the surrender andpotential new lines of research in this area. Globally, it emerges mainly four major approachesto risk modeling redemption : a financial approach, a statistical approach, a microeconomicapproach and a probabilistic approach.

V


— Financial approach : the surrender option being a right conferred by the insurer to theinsured to withdraw part or all of their savings at any time, surrender risk is modeledas an American option.

— Statistical approach : the surrender rate is modeled in the form of time series byconnecting several other series (interest rates, unemployment rates, growth rates, etc ...)to detect a long-term relationship and thus predict the rate surrender.

— Microeconomic approach : This approach attempts to model the surrender behaviorof the insured based on the theory of expected utility. Indeed, microeconomic theorystudies the individual decisions of economic agents and is applied here to the surrenderdecision.

— Probabilistic approach : This is an individual approach to explain the surrenderbehaviors provided by a set of product characteristics and / or the insured characteristics.It aims to model such decision using probabilistic models and / or econometric and toget the individual surrender probabilities to predict the surrender of an insured.

Methodology

As part of this thesis, we favour probabilistic approach using machine learning tools to modelindividual surrender behavior of insured and obtain surrender probabilities. As we mentionedabove, we ourselves are limited on the case of total surrender.

First, we do predictive modeling of structural surrender behavior by taking into accountthat structural factors. To do this, the study covers the period 2011-2015 and covers about544,460 linked contracts (these contracts from the company’s flagship products) with aboutthirty variables on the characteristics of the contract ( seniority, product type, unit-linkedrate, periodicity of contribution, outstanding, original premium, etc.) and the characteristicsof the insured (gender, age, marital status, occupational status, education level, etc.). Thecharacteristics of the contract and the insured are observed either at the surrender date (forthe surrendered contracts) or at the end date of observation (for contracts not surrendered).This first analysis was done using the R software with its many bookstores.

Secondly, we intend to move towards dynamic surrender behaviors by adding at structuralfactors, the economic and financial factors to predict surrender behavior of insured. Apart fromthe consideration of economic factors to better predict behavior by capturing the structuraland cyclical cross effects, this dynamic analysis also avoids the problems associated with thedelimitation of the study period to analyze the phenomenon. The selected economic variablesare : growth rate, inflation rate, unemployment rate, short and long-term interest rates, EarningsParticipation Rate (PB), the real estate index, the average rate borrowings States (TME),CAC40 index and the index of financial position). Restricting the analysis to a particularproduct, we obtain a database of an about 4 million lines (provided by duplicating each monththey are present in the portfolio, this inspired by the thesis of Xavier Milhaud) and a variablequarantine. We also add the year of observation (to capture the temporal effect) and themonth of observation (to capture the seasonal effect) as co-variables. Our database becoming

2015-2016 VI ENSAE ParisTech


increasingly voluminous, to optimize the calculation time we made use of the language Pythonvia its platform Anaconda using its scikit-learn module.

Thus, the analytical approach we choose is the classic of all machine learning project whichcan be summarized in four stages :

— Phase 1 : Exploring data and feature engineering— Phase 2 : Sampling data (training, validation, test)— Phase 3 : Implementation of supervised learning techniques— Phase 4 : Evaluation and comparison of the estimated models

Prediction of structural surrender behaviors

The goal here is to identify key structural factors influencing surrender decision of an insuredand thus predict the surrender behavior. Our database includes about 544,460 individual savingscontracts and 103 576 contracts (approximately a ratio of 19 %) that were totally surrendedduring the period 2011-2015. After an exploratory analysis, we divided our sample into two :a training sample (70 %) for the learning phase and a test sample (30 %) for the test andevaluation phase. As we can see in the table below, the aggregation models turn out to be thebest in terms of prediction models. The performance indicators of random forest models andGradient Boosting Tree are almost identical.

Model LR LR Spline GAM CART Pruned CART RF BoostingAUC Train 78.3% 79.4% 80.0% 76.1% 81.2% 87.1% 87.7%AUC Test 78.4% 79.3% 79.6% 74.9% 81.0% 85.9% 86.5%Lift at 10% 3.23 3.38 1.628 0.20 0.24 4.135 4.247

Table 5.2 – Comparison of the performance of different models

Although the random forest model uses fewer trees than Boosting it remains for more time-consuming than the boosting. Thus, we retain the Gradient Boosting model as the best modeloptimizing computing time and predictive power. Moreover, the most important variables thatdetermine such decision are first on seniority and the outstanding contract, followed by theinitial premium, type of product and unit linked rate. The sex of the insured very little influenceinsured surrender decision. This gradient boosting model thus give us an estimate of surrenderprobability for each insured which we could use to estimate the surrender laws.

Thus, we propose an estimate of structural surrender rate in amount from surrender proba-bilities pi = P(Yi = 1/Xi) that can bring Seniority, the outstanding and mesh product or anysegment to make them operational in valuation models. We define the random variable RTdenoting the individual loss amount.

RTi =

{PMi if total surrender with probability pi0 else avec probability 1− pi

Thus, for a contract i given, the expected of surrender amount is E(RTi) = pi ∗PMi + (1−pi) ∗ 0 = pi ∗ PMi. Noting RT =

∑iRTi the total amount surrendered, the expected total

2015-2016 VII ENSAE ParisTech


amount surrender is then E(RT ) =∑

iRTi =∑

i E(RTi) =∑

i pi ∗ PMi. Thus, we proposeto estimate the aggregate surrender rate applied on the contracts during the year of study asfollows :


=


To dynamic surrender behavior

As in the previous part, the objective is to identify the key factors of surrender, but thistime by adding cyclical factors at structural factors. The data base used comprises approxima-tely 4,992,458 lines and thirty variables. We retained here that the most important variablesemerged from our previous analyzes and we also have divided our database into two samples : atraining sample (70 %) and a test sample (30 %). We could see us strong predictive capabilitiesaggregations models previously. Thus, we propose to implement the decision tree model andthe aggregations of the latter models : random forests and Gradient Boosting Tree.

It shows that boosting model proves to be once again the best model with an AUC of about92 % judging a very good predictive qualities. Moreover, we find that they are more structuralvariables that explain the surrender decision on our study period at the expense of dynamicvariables. We thus find two large groups of important variables to explain the surrender decision :firstly structural variables namely : the capital, the initial premium, the age of the insured, theunit linked rate and the seniority, and secondly, the growth rate, the difference between theserved rate and the benchmark rate, the long-term and short-term interest rate, the change inthe index of real estate prices and the change in the CAC 40 index.

2015-2016 VIII ENSAE ParisTech

Résumé - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Mémoire NANA NJOYA Er… · Résumé...

Documents