Arthur Charpentier To cite this version - Accueil - CEL

HAL Id: cel-00550583https://cel.archives-ouvertes.fr/cel-00550583

Submitted on 28 Dec 2010

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.

Statistique de l’assuranceArthur Charpentier

To cite this version:Arthur Charpentier. Statistique de l’assurance. 3rd cycle. Université de Rennes 1 et Université deMontréal, 2010, pp.133. cel-00550583

https://cel.archives-ouvertes.fr/cel-00550583

https://hal.archives-ouvertes.fr

1

Arthur Charpentier

Université de Rennes 1Université de Montréal2010-2011

Statistique de l'assurance, STT 6705VStatistique de l'assurance II

partie 1 - assurance non-vietarication & provisionnement

http ://freakonometrics.blog.free.fr/

2

Table des matières

1 La tarication a priori 5

1.1 Les modèles linéaires généralisés . . . . . . . . . . . . . . . . . 71.1.1 Le cadre général des GLM . . . . . . . . . . . . . . . . 71.1.2 Approche économétrique de la tarication . . . . . . . 91.1.3 Estimation des paramètres . . . . . . . . . . . . . . . . 101.1.4 Interprétation d'une régression . . . . . . . . . . . . . 131.1.5 Extension à d'autres familles de lois . . . . . . . . . . 161.1.6 De la qualité d'une régression . . . . . . . . . . . . . . 161.1.7 Les variables tarifaires continues et la nonlinéarité . . 191.1.8 Les modèles nonlinéaires multivariés . . . . . . . . . . 23

1.2 Modéliser des variables indicatrices . . . . . . . . . . . . . . . 241.2.1 La régression logistique ou probit . . . . . . . . . . . . 241.2.2 Les arbres de régression . . . . . . . . . . . . . . . . . 261.2.3 Probabilité d'avoir (au moins) un sinistre dans l'année 301.2.4 Probabilité d'avoir un gros sinistre dans l'année . . . . 31

1.3 Modéliser la fréquence de sinistralité . . . . . . . . . . . . . . 341.3.1 Un peu d'analyse descriptive . . . . . . . . . . . . . . 341.3.2 La méthode des marges . . . . . . . . . . . . . . . . . 381.3.3 Prise en compte de l'exposition et variable oset . . . 401.3.4 Prise en compte de la surdispersion . . . . . . . . . . . 411.3.5 Les modèles zero-inated . . . . . . . . . . . . . . . . . 441.3.6 Régression simple versus régression multiple . . . . . . 471.3.7 Prédiction de la fréquence par police . . . . . . . . . . 47

1.4 Modéliser les coûts individuels des sinistres . . . . . . . . . . 501.4.1 Modèle Gamma et modèle lognormal . . . . . . . . . . 501.4.2 Modélisation des grands sinistres . . . . . . . . . . . . 571.4.3 Ecrêtement des grands sinistres . . . . . . . . . . . . . 58

1.5 Modéliser les coûts par police . . . . . . . . . . . . . . . . . . 601.5.1 Les modèles Tweedie comme modèle Poisson composé 60

2 Les provisions pour sinistres à payer 63

2.1 La problématique du provisionnment . . . . . . . . . . . . . . 63

3

4 TABLE DES MATIÈRES

2.1.1 Quelques dénitions et notations, aspects règlemen-taires et comptables . . . . . . . . . . . . . . . . . . . 63

2.1.2 Formalisation du problème du provisionnement . . . . 652.2 Les cadences de paiements et la méthode Chain Ladder . . . 662.3 De Mack à Merz & Wüthrich . . . . . . . . . . . . . . . . . . 69

2.3.1 Quantier l'incertitude dans une prédiction . . . . . . 692.3.2 Le formalisme de Mack . . . . . . . . . . . . . . . . . 702.3.3 La notion de tail factor . . . . . . . . . . . . . . . . . 722.3.4 Des estimateurs des paramètres à l'incertitude sur le

montant des provisions . . . . . . . . . . . . . . . . . . 722.3.5 Un mot sur Munich-Chain Ladder . . . . . . . . . . . 732.3.6 L'incertitude à un an de Merz & Wüthrich . . . . . . . 78

2.4 Régression Poissonnienne et approches économétriques . . . . 832.4.1 Les modèles à facteurs, un introduction historique . . 832.4.2 Les modèles de de Vylder et de Chritophides . . . . . 832.4.3 La régression poissonnienne de Hachemeister & Stanard 852.4.4 Incertitude dans un modèle de régression . . . . . . . . 872.4.5 Le modèle binomial-négative . . . . . . . . . . . . . . 912.4.6 Quel modèle de régression ? . . . . . . . . . . . . . . . 91

2.5 Les triangles multivariés . . . . . . . . . . . . . . . . . . . . . 922.5.1 Hypohtèse d'indépendance entre les triangles, et lois

paramétriques . . . . . . . . . . . . . . . . . . . . . . . 932.5.2 Le modèle de Mack bivarié . . . . . . . . . . . . . . . 952.5.3 Modèles économétriques pour des risques multiples . . 96

2.6 Borhutter-Fergusson, Benktander et les méthodes bayésiennes 972.6.1 Le modèle de Borhutter-Ferguson et l'introduction

d'un avis d'expert . . . . . . . . . . . . . . . . . . . . 972.6.2 Benktander . . . . . . . . . . . . . . . . . . . . . . . . 982.6.3 La méthode dite Cape-Code . . . . . . . . . . . . . . . 992.6.4 Les approches Bayésiennes . . . . . . . . . . . . . . . . 1002.6.5 Approche bayésienne sur les facteurs de développement 104

Chapitre 1

La tarication a priori

Pour chaque police d'assurance, la prime est fonction de variables ditesde tarication. Généralement, on considère

des informations sur l'assuré, comme l'âge ou le sexe pour un particu-lier, ou le secteur d'activité et le nombre de salariés pour une entreprise,

des informations sur le bien assuré, comme l'âge du véhicule, la puis-sance ou la marque en assurance auto, la surface du logement en mul-tirisque habitation, le chire d'aaire de l'entreprise en perte d'exploi-tation,

des informations géograhiques comme le revenu moyen dans la com-mune ou le département, la densité de population, etc.

La fréquence est le nombre de sinistres divisé par l'exposition (correspon-dant au nombre d'années police) pour une police d'assurance, ou un groupede polices d'assurance. La plupart des contrats étant annuels, on ramèneratoujours le nombre de sinistres à une exposition annuelle lors du calcul dela prime, et on notera N la variable aléatoire associée. Durant la périoded'exposition, on notera Yi les coûts des sinistres, c'est à dire les indemnitésversées par l'assureur à l'assuré (ou une tierce personne). La charge totalepar police est alors S = 0 s'il n'y a pas eu de sinistres, ou sinon :

S = Y1 + · · ·+ YN =N∑i=1

Yi.

Classiquement (et ce point sera important pour constituer la base de don-nées) Yi > 0 et N est alors le nombre de sinistres en excluant les sinistresclassés sans suite (i.e. de coût nul).

La prime pure est E(S) = E(N) · E(Yi) dès lors que les coûts individuelssont i.i.d., indépendants du nombre de sinistres. Dans le cas où la fréquenceet les charges sont hétérogènes, l'hétérogénéité étant caractérisée par uneinformation Ω, la prime pure devrait être :

E(S|Ω) = E(N |Ω) · E(Yi|Ω).

5

6 CHAPITRE 1. LA TARIFICATION A PRIORI

Le facteur d'hétérogénéité Ω étant inconnu, on utilise les variables tarifairesà notre disposition pour obtenir un proxi de ces espérances conditionnelles.On cherche alors X = (X1, · · · , Xk) un ensemble de variables explicativestelles que

E(S|X) = E(N |X) · E(Yi|X).

Pour importer les bases de données, on utilise le code suivant (seuls lessinistres de responsabilité civile nous intéressent),

sinistreUdM <- read.table("http://perso.univ-rennes1.fr/arthur.charpentier/sinistreUdM.txt",

+ header=TRUE,sep=";")

> sinistres=sinistreUdM[sinistreUdM$garantie=="1RC",]

> contratUdM <- read.table("http://perso.univ-rennes1.fr/arthur.charpentier/contratUdM.txt",

+ header=TRUE,sep=";")

Pour consituer une base contenant les nombres de sinistres, le code estle suivant :

> T=table(sinistres$nocontrat)

> T1=as.numeric(names(T))

> T2=as.numeric(T)

> nombre1 = data.frame(nocontrat=T1,nbre=T2)

> I = contratUdM$nocontrat%in%T1

> T1=contratUdM$nocontrat[I==FALSE]

> nombre2 = data.frame(nocontrat=T1,nbre=0)

> nombre=rbind(nombre1,nombre2)

> base = merge(contratUdM,nombre)

> head(base)

nocontrat exposition zone puissance agevehicule ageconducteur bonus

1 27 0.87 C 7 0 56 50

2 115 0.72 D 5 0 45 50

3 121 0.05 C 6 0 37 55

4 142 0.90 C 10 10 42 50

5 155 0.12 C 7 0 59 50

6 186 0.83 C 5 0 75 50

marque carburant densite region nbre

1 12 D 93 13 0

2 12 E 54 13 0

3 12 D 11 13 0

4 12 D 93 13 0

5 12 E 73 13 0

6 12 E 42 13 0

La base nombre contient, par police, le nombre de sinistres en respon-sabilité civile déclaré par l'assuré pendant l'année d'observation. Parmi lesvariables d'intérêt,

1.1. LES MODÈLES LINÉAIRES GÉNÉRALISÉS 7

densite est la densité de population dans la commune où habite leconducteur principal,

zone : zone A B C D E ou F, selon la densité en nombre d'habitantspar km2 de la commune de résidence

marque : marque du véhicule selon la table suivante (1 Renault Nis-san ; 2 Peugeot Citroën ; 3 Volkswagen Audi Skoda Seat ; 4 Opel GM ;5 Ford ; 6 Fiat ; 10 Mercedes Chrysler ; 11 BMW Mini ;12 Autres ja-ponaises et coréennes ; 13 Autres européennes ; 14 Autres marques etmarques inconnues)

region : code à 2 chires donnant les 22 régions françaises (code IN-SEE)

ageconducteur : âge du conducteur principal en début de la couver-ture,

agevehicule : âge du véhicule en début de période.Nous disposons aussi d'un numéro de police no permettant de fusionner

les deux bases, et donc d'associer à la charge d'un sinistre les caractéristiquesdu conducteur et du véhicule.

1.1 Les modèles linéaires généralisés

Depuis quelques années, l'outil principal utilisé en tarication est le mo-dèle linéaire généralisé, développé par [22], et dont la mise en oeuvre enassurance est détaillée dans [17], [7], [6], [25] ou [9]. Dans cette section,nous allons présenter le cadre des GLM, ainsi que leur mise en oeuvre sous R,avant de rentrer dans l'application en tarication dans les sections suivantes.

1.1.1 Le cadre général des GLM

Les modèles linéaires généralisés sont une généralisation du modèle li-néaire Gaussien, obtenu en autorisant d'autres lois (conditionnelles) que la loiGaussienne. Les lois possibles doivent appartenir à la famille exponentielle,i.e. dont la densité (ou mesure de probabilité dans le cas discret) s'écrit :

f(y|θ, φ) = exp(yθ − b(θ)

φ+ c(y, φ)

)Exemple 1.1 La loi normale N (µ, σ2) appartient à cette famille, avec θ =µ, φ = σ2, b(θ) = θ2/2 et

c(y, φ) = −12

(y2

σ2+ log(2πσ2)

), y ∈ R,

Exemple 1.2 La loi de Poisson P(λ) appartient à cette famille,

f(y|λ) = exp(−λ)λy

y!= exp

(y log λ− λ− log y!

), y ∈ N,


avec θ = log λ, φ = 1, b(θ) = exp θ = λ et c(y, φ) = − log y!.

Exemple 1.3 La loi binomiale B(n, p) correspond au cas θ = logp/(1−p),

b(θ) = n log(1 + exp(θ)), φ = 1 et c(zy, φ) = log(n

y

).

Exemple 1.4 La loi Gamma est également dans la famille exponentielle,

f(y|µ, ν) =1

Γ(ν)

(ν

µ

)νyν−1 exp

(−νµy

), y ∈ R+,

avec θ = − 1µ, b(θ) = − log(−θ) et φ = ν−1.

Pour une variable aléatoire Y dont la densité est de la forme exponen-tielle, alors

E(Y ) = b′(θ) et Var(Y ) = b′′(θ)φ

de telle sorte que la variance de Y apparaît comme le produit de deux fonc-tions,

la première, b′′(θ) , qui dépend uniquement du paramètre θ est appeléefonction variance

la seconde est indépendante de θ et dépend uniquement de φEn notant µ = E(Y ), on voit que le paramètre θ est lié à la moyenne µ. Lafonction variance peut donc être dénie en fonction de µ , nous la noteronsdorénavant V (µ).

Exemple 1.5 Dans le cas de la loi normale, V (µ) = 1, dans le cas de la loide Poisson, V (µ) = µ alors que dans le cas de la loi Gamma, V (µ) = µ2.

Notons que la fonction variance caractérise complètement la loi de lafamille exponentielle. Chacune des lois de la famille exponentielle possèdeune fonction de lien spécique, dite fonction de lien canonique, permettantde relier l'espérance µ au paramètre naturel θ. Le lien canonique est tel queg?(µ) = θ. Or, µ = b′(θ) donc g?(·) = b′(·)−1.

Exemple 1.6 Dans le cas de la loi normale, θ = µ (link='identity'),dans le cas de la loi de Poisson, θ = log(µ) (link='log') alors que dans lecas de la loi Gamma, θ = 1/µ (link='inverse').

Sous R, la syntaxe des modèles linéaires généralisées est :

> glm(Y~X1+X2+X3+offset(Z), family =quasipoisson(link='log'),

+ data, weights)


ce qui correspond à un modèle

E(Yi|Xi) = µi = g−1(X ′iβ + ξi

)et Var(Yi|Xi) =

φV (µi)ωi

où Y est le vecteur des Yi que l'on cherche à modéliser (le nombre de si-nistres de la police i par exemple), X1, X2 et X3 sont les variables explica-tives qui peuvent être qualitatives (on parlera de facteurs) ou quantitatives,link='log' indique que g est la fonction log, family=poisson revient à choi-sir une fonction variance V identité, alors que family=quasipoisson revientà choisir une fonction variance V identité avec un paramètre de dispersionφ à estimer, offset correspond à la variable ξi, et weights le vecteur ωi.Cette fonction glm calcule alors des estimateurs de β et φ, entre autres, carcomme pour le modèle linéaire gaussien (la fonction lm) on peut obtenir desprédictions, des erreurs, ainsi qu'un grand nombre d'indicateurs relatifs à laqualité de l'ajustement.

1.1.2 Approche économétrique de la tarication

Cette famille de lois (dite exponentielle) va s'avérer être particulièrementutile pour construire des modèles économétriques beaucoup plus générauxque le modèle Gaussien usuel. On suppose disposer d'un échantillon (Yi,Xi),où les variables Xi sont des informations exogènes sur l'assuré ou sur le bienassuré, et où Yi est la variable d'intérêt, qui sera

une variable booléenne 0/1, par exemple l'assuré i a-t-il été victimed'un accident l'an dernier,

une variable de comptage, à valeurs dans N , par exemple le nombred'accident de l'assuré i l'an passé,

une variable positive, à valeurs dansR+, par exemple le coût du sinistrei, ou bien la durée entre la survenance et la déclaration du sinistre.

On supposera que, conditionnellement aux variables explicatives X, lesvariables Y sont indépendantes, et identiquement distribuées. En particulier,on partira d'un modèle de la forme

f(yi|θi, φ) = exp(yiθi − b(θi)

φ+ c(yi, φ)

)où l'on supposera que

g(µi) = ηi = X ′i

pour une fonction de lien g(·) donnée (on gardera ainsi un score linéaire enles variables explicatives), et où, pour rappel,

µi = E(Yi|Xi)

La fonction lien est la fonction qui permet de lier les variables explicativesX à la prédiction µ, alors que la loi apparaît via la fonction variance, sur


la forme de l'hétéroscédasticité et l'incertitude associée à la prédiction. Lepetit exemple ci-dessous permet de visualiser sur un petit de données simplesix régressions GLM diérentes,

> x <- c(1,2,3,4,5)

> y <- c(1,2,4,2,6)

> base <- data.frame(x,y)

> plot(x,y,pch=19,cex=1.5)

> regNId <- glm(y~x,family=gaussian(link="identity"))

> regNlog <- glm(y~x,family=gaussian(link="log"))

> regPId <- glm(y~x,family=poisson(link="identity"))

> regPlog <- glm(y~x,family=poisson(link="log"))

> regGId <- glm(y~x,family=Gamma(link="identity"))

> regGlog <- glm(y~x,family=Gamma(link="log"))

La prédiction (ainsi qu'un intervalle de conance) pour chacun de cesmodèles est présentée sur la Figure 1.1. Le code de base pour obtenir laprédiction avec un intervalle de conance (à 95%) est simplement

> plot(x,y,pch=19,cex=1.5)

> abs <- seq(0,7,by=.1)

> yp <- predict(regNId,newdata=data.frame(x=abs),se.fit = TRUE,

+ type="response")

> lines(abs,yp$fit,lwd=2)

> lines(abs,yp$fit+2*yp$se.fit,lty=2)

> lines(abs,yp$fit-2*yp$se.fit,lty=2)

Remarque 1.1 De la même manière qu'en économétrie linéaire, il est aussipossible d'allouer des poids à chacune des observations ωi. Mais nous n'enparlerons pas trop ici. Il peut s'agir de pondération décroisantes avec le temps,attribuées à des années trop anciennes, si l'on utilise des données sur unepériode plus longue, par exemple.

1.1.3 Estimation des paramètres

La loi de Y sachant X étant spéciée, on obtient numériquement lesestimateurs de β et φ par maximisation de la vraisemblance.

> logv=function(beta)

+ L=beta[1]+beta[2]*sinistres$ageconducteur

+ -sum(log(dpois(sinistres$nombre,exp(L))))

+

> nlm(f = logv, p = beta)

$minimum


1 2 3 4 5

12

34

56

x

y

Modèle Gaussien lien identité

1 2 3 4 5

12

34

56

xy

Modèle Poisson lien identité

1 2 3 4 5

12

34

56

x

y

Modèle Gamma lien identité

1 2 3 4 5

12

34

56

x

y

Modèle Gaussien lien logarithmique

1 2 3 4 5

12

34

56

x

y

Modèle Poisson lien logarithmique

1 2 3 4 5

12

34

56

x

y

Modèle Gamma lien logarithmique

Figure 1.1 Prédiction par 6 modèles linéaires diérents, 3 lois et 2 fonc-tions de lien, avec les intervalles de conance de prédiction.

[1] 113429.7

$estimate

[1] -3.157159895 -0.001900410

$gradient

[1] 0.01069032 1.31089786

$code

[1] 3

$iterations

[1] 25

> glm(nombre~ageconducteur,data=sinistres,family="poisson")$coefficients

(Intercept) ageconducteur

-3.157198596 -0.001899561

Notons qu'il est aussi possible d'utiliser une régression linéaire pondérée.En eet, on cherche à maximiser ici une (log)-vraisemblance (ou une dé-viance comme nous le verrons plus tard), qui s'écrit dans le cas des modèlesexponentiels,

logL =n∑i=1

[Yiθi − b(θi)

a(ψ)− c(Yi, ψ)

]


mais comme on cherche les paramètres β, on note que le maximum de vrai-semblance du paramètre β est atteint au même point que le maximum de lafonction

logL =n∑i=1

[Yiθi − b(θi)]

Le maximum est alors atteint en β tel que

∂

∂βlogL ==

n∑i=1

[Yi − b′(θi)]∂

∂θiβ= 0.

Or µi = g(ηi) = g(X ′iβ) = b′(θi), et donc

b′(θi)]∂

∂θiβ= g(X ′iβ)Xi

On cherche alors à résoudre

n∑i=1

[Yi − µi]g′(X ′iβ)V(µi)

Xi,

Ce qui correspondrait à la condition du premier ordre dans une régressionpondérée, où la matrice de poids serait W = [wi,j ], où wi,j = 0 si i 6= j, etsinon

wi,i =1

Var(Yi)=

1µi

=1

g−1(X ′iβ)

Mais cette matrice de poids étant inconnue (elle dépend des paramètresque l'on cherche à estimer), on met en place une itération de régressionpondérée, la matrice de poids étant calculée à partir des coecients de l'étapeprécédante.

Dans le cas d'une régression log-Poisson, le code devient,

> BETA=matrix(NA,101,2)

> REG=lm(nombre~ageconducteur,data=sinistres)

> beta=REG$coefficients

> BETA[1,]=beta

> for(i in 2:15)

+ eta=beta[1]+beta[2]*sinistres$ageconducteur

+ mu=exp(eta)

+ w=mu

+ z=eta+(sinistres$nombre-mu)/mu

+ REG=lm(z~sinistres$ageconducteur,weights=w)

+ beta=REG$coefficients

+ BETA[i,]=beta

+


> BETA

[,1] [,2]

[1,] 0.04239008 -7.371466e-05

[2,] -0.91696821 -1.418714e-04

[3,] -1.81086687 -3.136888e-04

[4,] -2.55133907 -6.958340e-04

[5,] -3.00654605 -1.315441e-03

[6,] -3.14670636 -1.803882e-03

[7,] -3.15715335 -1.898126e-03

[8,] -3.15719860 -1.899561e-03

[9,] -3.15719860 -1.899561e-03

[10,] -3.15719860 -1.899561e-03

[11,] -3.15719860 -1.899561e-03

[12,] -3.15719860 -1.899561e-03

[13,] -3.15719860 -1.899561e-03

[14,] -3.15719860 -1.899561e-03

[15,] -3.15719860 -1.899561e-03

qui converge très rapidement (vers les bonnes valeurs).

1.1.4 Interprétation d'une régression

Considérons tout simplement une régression de la fréquence annuelle desinistre sur l'âge du conducteur. On supposera un modèle Poissonnien.

> reg1 <- glm(nombre~ageconducteur,data=nombre,family=poisson(link="log"),

+ offset=log(exposition))

> summary(reg1)

Call:

glm(formula = nombre ~ ageconducteur, family = poisson(link = "log"),

data = nombre, offset = log(exposition))

Deviance Residuals:

Min 1Q Median 3Q Max

-0.5685 -0.3527 -0.2611 -0.1418 13.3247

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -2.1369116 0.0207723 -102.87 <2e-16 ***

ageconducteur -0.0101679 0.0004397 -23.12 <2e-16 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1


(Dispersion parameter for poisson family taken to be 1)

Null deviance: 171919 on 678012 degrees of freedom

Residual deviance: 171373 on 678011 degrees of freedom

AIC: 222190

Number of Fisher Scoring iterations: 6

Avec un lien logarithmique, le modèle est multplicatif. Le multiplicateurest ici

> exp(coefficients(reg1)[2])

ageconducteur

0.9898836

Autrement dit, tous les ans, la probabilité d'avoir un accident diminue de1− 0.9898 = 1.011%.

Si l'on considère des classes d'âges (dénies a priori, nous reviendronspar la suite sur la construction optimale des classes), on obtient la régressionsuivante :

> seuils = c(17,21,25,30,45,55,65,80,120)

> nombre$agecut <- cut(nombre$ageconducteur,breaks=seuils)

> reg2 <- glm(nombre~agecut ,data=nombre,family=poisson(link="log"),


> summary(reg2)

Call:

glm(formula = nombre ~ agecut, family = poisson(link = "log"),

data = nombre, offset = log(exposition))

Deviance Residuals:


-0.6566 -0.3522 -0.2601 -0.1413 13.2465

Coefficients:


(Intercept) -1.55416 0.03277 -47.42 <2e-16 ***

agecut(21,25] -0.52724 0.04186 -12.60 <2e-16 ***

agecut(25,30] -0.95181 0.03865 -24.62 <2e-16 ***

agecut(30,45] -1.08673 0.03441 -31.58 <2e-16 ***

agecut(45,55] -1.04649 0.03500 -29.90 <2e-16 ***

agecut(55,65] -1.19279 0.03709 -32.16 <2e-16 ***

agecut(65,80] -1.27536 0.03876 -32.90 <2e-16 ***

agecut(80,120] -1.24017 0.06743 -18.39 <2e-16 ***


---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1




AIC: 221417


Notons qu'il est aussi possible de taper directement

> reg2 = glm(nombre~cut(ageconducteur,breaks=seuils),data=nombre,

+ family=poisson(link="log"),offset=log(exposition))

La classe de référence est ici celle des jeunes conducteurs (17,21]. Re-lativement à cette classe, on note que toutes les classes ont une probabilitéd'avoir un accident plus faible. Pour un conducteur de la classe (30,45], onnote qu'il a 66% de chances en moins d'avoir un accident dans l'année qu'unjeune conducteur,

> exp(coefficients(reg2)[4])

cut(ageconducteur, breaks = seuils)(30,45]

0.3373169

Au lieu de comparer à la classe des jeunes conducteurs, on peut aussicomparer au conducteur moyen.

> seuils = c(17,21,25,30,45,55,65,80,120)

> reg2 = glm(nombre~0+cut(ageconducteur,breaks=seuils),

+ data=nombre,family=poisson(link="log"),offset=log(exposition))

Les multiplicateurs sont alors

> reg2b <- glm(nombre~1,data=nombre,family=poisson(link="log"),


> moyenne <- exp(coefficients(reg2b))

> reg2c <- glm(nombre~0+cut(ageconducteur,breaks=seuils),


> exp(coefficients(reg2c))/moyenne

Une personne de la classe (17,21] a ainsi 2.86 fois plus de chance que l'assurémoyen d'avoir un accident.


1.1.5 Extension à d'autres familles de lois

Les modèles linéaires généralisés ont été dénis pour des lois (de Y , condi-tionnelles aux variables explicatives X) appartenant à la famille exponen-tielle. Il est toutefois possible de généraliser. Les lois de library(gamlss)

sont des lois à quatre paramètres, (µ, σ, ν, τ), où µ est un paramètre de lo-calisation (e.g. la moyenne), σ un paramètre d'échelle (e.g. l'écart-type), etoù ν et τ sont des paramètres d'asymétrie et d'épaisseur de queue (e.g. laskewness et la kurtosis). Ces quatre paramètres peuvent être fonction desvariables explicatives au travers d'une fonction de lien,

µ = g−1µ (Xα)

σ = g−1σ (Xβ)

ν = g−1ν (Xγ)

τ = g−1τ (Xδ)

Parmi les lois classiques, on retrouvera celles données dans la Table 1.1.

loi R µ σ ν τ

Binomiale BI logit - - -Normale NO identité log - -Poisson PO log - - -Gamma GA logit - - -inverse Gaussienne IG log log - -Gumbel GU identité log - -lognormale LNO log log - -binomiale négative (Poisson-Gamma) NBI log log - -Poisson-inverse Gaussien PIG log log - -Weibull WEI log log - -zero inated Poisson ZIP log logit - -

Table 1.1 Les diérentes lois et modèles de library(gamlss)@.

Dans sa version la plus simple, on retrouve le modèle proposé par [11],Yi = X ′iβ + εi,modèle en moyennelog ε2

i = Z ′iα+ ui,modèle en variance

où ui est un bruit i.i.d. suivant une loi Gamma. Cette fonction particulièreest obtenue à l'aide de la fonction lm.disp de library(dispmod).

1.1.6 De la qualité d'une régression

Pour mesurer les performances d'une régression, ou plus généralementd'un modèle quel qu'il soit, il faut se donner une fonction de risque R(·, ·)qui mesure la distance entre Y et sa prédiction Y . Classiquement, on utilise


la norme L2, correspond à l'erreur quadratique R(Y, Y ) = [Y − Y ]2 ou lanorme L1 , correspondant à l'erreur absolue R(Y, Y ) = |Y − Y |.

Si on reprend l'exemple de la section 1.1.2, les résidus sont représentésur la Figure 1.2. Les résidus de gauche sont les résidus bruts, c'est à dire ladiérence entre Yi et Yi. A droite, ce sont les résidus de Pearson, i.e.

εi =Yi − Yi√V (Yi)

où V est la fonction variance.

> RNIr <- residuals(regNId,type="response")

> RNIp <- residuals(regNId,type="pearson")

1 2 3 4 5

−2

−1

01

2

Rés

idus

(br

uts)

Gaussien, identitéPoisson, identitéGamma, identitéGaussien, logPoisson, logGamma, log

1 2 3 4 5

−2

−1

01

2

Rés

idus

de

Pea

rson

Gaussien, identitéPoisson, identitéGamma, identitéGaussien, logPoisson, logGamma, log

Figure 1.2 Résidus de la régression.

Les résidus de Pearson permettent de prendre en compte de l'hétéroscé-dasticité qui apparaîtra dès lors que l'on quite le modèle Gaussien (la fonctionvariance ne sera alors plus constante). Pour le modèle log-Poisson, les erreursL1 et L2 sont respectivement

> cat("Erreur L1 =",sum(abs(RPL))

Erreur L1 = 4.196891

> cat("Erreur L2 =",sum((RPL)^2)

Erreur L2 = 5.476764

[5] revient longuement sur l'analyse des résidus dans le cadre de modèleslinéaires généralisés.


Rappelons que l'outil de base pour quantier la qualité de la régressionest la déviance

D(β) = −2[logL(β|Y )− logL?(Y )]

où logL(β|Y ) désigne la log-vraisemblance du modèle, et où logL?(Y ) estla log-vraisemblance saturée (obtenue avec un modèle parfait).

> logLik(regPlog)

'log Lik.' -7.955383 (df=2)

> deviance(regPlog)

[1] 1.760214

> AIC(regPlog)

[1] 19.91077

> -2*logLik(regPlog)+2*2

[1] 19.91077

attr(,"df")

Dans un souci de partimonie, on pénalise souvent log-vraisemblance parle nombre de paramètres, ce qui correspond au critère d'information d'Akaike(AIC, en multipliant par 2). On peut également dénir le critère de Schwartz,

AIC : −2 logL(β) + 2kBIC : −2 logL(β) + k log(n)

Il existe aussi un critère d'Aikaike corrigé (introduit par [15]) dans le casoù l'on a trop peu d'observations. Toutes ces fonctions peuvent être obtenuesà l'aide de la fonction AIC de library(aod) ou BIC de library(BMA), ouencore extractAIC avec comme paramètre k=log(nrow(base)).

> cat("AIC (Poisson-log) =",extractAIC(regPlog,k=2)[2])

AIC (Poisson-log) = 19.91077

> cat("BIC (Poisson-log) =",extractAIC(regPlog,k=log(nrow(base)))[2])

BIC (Poisson-log) = 19.12964

On peut comparer tous les modèles via :

> AIC(regNId,regNlog,regPId,regPlog,regGId,regGlog)

df AIC

regNId 3 21.10099

regNlog 3 20.63884

regPId 2 19.86546

regPlog 2 19.91077

regGId 3 18.01344

regGlog 3 18.86736


1.1.7 Les variables tarifaires continues et la nonlinéarité

Le but de la tarication (et plus généralement de toute prédiction) estd'estimer une espérance conditionnelle,

E(S|X = x) = ϕ(x) ou S = ϕ(X1, · · · , Xk) + ε

où ϕ : Rk → R. Supposer un modèle linéaire est problement une hypothèsetrop forte. Mais on se doute qu'estimer une fonction dénie sur Rk serait tropcomplexe numériquement. Un bon compromis est proposé par les modèlesdit additifs.

A titre d'illustration, la Figure 1.3 permet de visualiser l'impact de la den-sité de population dans la commune de l'assuré sur la fréquence de sinistre.Les points noirs correspondent à la fréquence moyenne empirique observéepour diérents niveaux de densité

> library(mgcv)

> reg.gam <- gam(nombre~s(densite),offset=log(exposition),

+ family=poisson(link="log"),data=sinistres)

> dens.x <- seq(0,30000,100)

> pred <- predict(reg.gam,newdata=data.frame(densite=dens.x,expo=1),

+ se=TRUE,type="response")

> plot(dens,pred$fit,col="blue",lwd=2)

> lines(dens,pred$fit+2*N1RC0as1$se.fit,col="red",lty=2)

> lines(dens,pred$fit-2*N1RC0as1$se.fit,col="red",lty=2)

Les modèles GAM

Les modèles additifs ont été introduits par [30] qui notait qu'estimer unefonction ϕ : Rk → R serait numériquement trop complexe (et probablementpeu robuste). On cherche ici une décomposition de la forme

S = ϕ1(X1) + · · ·+ ϕk(Xk) + ε

où les fonctions ϕj : R → R sont supposées susament régulières. En fait,ce modèle n'est valable que pour les variables Xj continues, les variablesqualitatives continuant - généralement - à intervenir sous une forme linéaire.Autrement dit, un modèle additif serait

S = ϕ1(X1) + β2X2 + ε

où X1 est l'âge du conducteur, et X2 le carburant du véhicule. Notons qu'ilserait aussi possible de considérer un modèle de la forme

S =ϕ1,E(X1) + ε si X2 = essenceϕ1,D(X1) + ε si X2 = diesel

Ces deux types de modèles sont estimés ci-dessous.


0 5000 10000 15000 20000 25000 30000

0.00

0.05

0.10

0.15

Densité de population

Fré

quen

ce a

nnue

lle d

e si

nist

re

Figure 1.3 Fréquence individuelle en fonction de la densité de populationde la commune de résidence du conducteur principal.

> library(mgcv)

> reg <- gam(nombre~s(ageconducteur)+offset(exposition),

+ data=sinistres,family=poisson)

> age <- seq(17,100)

> AGE <- data.frame(ageconducteur=age,exposition=1)

> Y <- predict(reg,AGE,type="response")

> reg = gam(nombre~s(ageconducteur)+carburant+offset(exposition),


> AGE <- data.frame(ageconducteur=age,exposition=1,carburant="E")

> YE <- predict(reg,AGE,type="response")

> AGE <- data.frame(ageconducteur=age,exposition=1,carburant="D")

> YD <- predict(reg,AGE,type="response")

> plot(age,Y,type='l')

> lines(age,YD,col='blue')

> lines(age,YE,col='red')

Pour le premier type de modèle, ou le code suivant pour le second,

> library(mgcv)



> age <- seq(17,100)


> Y <- predict(reg,AGE,type="response")



+ data=sinistres[sinistres$carburant=="E",],family=poisson)

> YE <- predict(reg,AGE,type="response")


+ data=sinistres[sinistres$carburant=="D",],family=poisson)

> YD=predict(reg,AGE,type="response")

> plot(age,Y,type='l')

> lines(age,YD,col='blue')

> lines(age,YE,col='red')

Ce petit exemple montre bien les limites de ces modèles additifs.

20 40 60 80 100

0.00

0.05

0.10

0.15

0.20

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

res

Figure 1.4 Modèle GAM addif, S = ϕ1(X1) + β2X2 + ε où X2 désignele type de carburant.

L'estimation de ces modèles peut se faire de plusieurs manières sous R.Il y a tout d'abord la fonction gam de library(gam), basé sur l'algorithmeproposé par [13]. La fonction gam de library(mgcv) repose sur la métho-dologie développée par [32]. Enn d'autres packages proposent aussi desestimations de ces transformations nonlinéaires, dont library(gmlss) oulibrary(gss).

Une autre possibilité est également d'uiliser la fonction glm avec lalibrary(splines). On peut alors changer facilement le nombre de degrésde liberté, i.e. le paramètre de lissage de la transformation,

> library(splines)

> reg3 <- glm(nombre~bs(ageconducteur,df=3)+offset(exposition),

+ data=nombre,family=poisson)


20 40 60 80 100

0.00

0.05

0.10

0.15

0.20


Fré

quen

ce a

nnue

lle d

e si

nist

res

Figure 1.5 Modèle GAM, S =ϕ1,E(X1) + ε si X2 = essenceϕ1,D(X1) + ε si X2 = diesel

où X2

désigne le type de carburant.

La Figure 1.6 montre ainsi la prédiction de la fréquence moyenne enfonction de l'âge, avec diérents paramètres de lissage.

Les modèles MARS

Une autre classe de modèle particulièrement intéressant a été présentéepar [10], appelés MARS, Multiplicative Adaptative Regression Splines. Onconsidère ici une base de fonctions de ϕ de la forme (±(x− k)+).

En particulier, par rapport à un modèle linéaire simple Y = β0 +β1X+ε,on considère ici un modèle avec rupture,

Y = β0 + β1 max0, X − k+ β1 max0, k −X+ ε

où k devient également un paramètre à estimer.

> library(mda)

> reg <- mars(sinistres$ageconducteur,sinistres$nombre,nk=10)

> summary(lm(sinistres$nombre~reg$x-1))

Call:

lm(formula = sinistres$nombre ~ reg$x - 1)

Residuals:



20 40 60 80 100

0.02

0.04

0.06

0.08

0.10

0.12


Fré

quen

ce a

nnue

lle d

e si

nist

res

3 degrés de liberté5 degrés de liberté10 degrés de liberté

-0.08342 -0.03916 -0.03730 -0.03560 15.96203

Coefficients:

Estimate Std. Error t value Pr(>|t|)

reg$x1 3.408e-02 4.528e-04 75.271 <2e-16 ***

reg$x2 1.692e-04 2.007e-05 8.432 <2e-16 ***

reg$x3 4.486e-03 1.694e-04 26.477 <2e-16 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.2071 on 678010 degrees of freedom

Multiple R-squared: 0.03526, Adjusted R-squared: 0.03526

F-statistic: 8261 on 3 and 678010 DF, p-value: < 2.2e-16

> age <- seq(17,100)

> Y <- predict(reg,age)

> plot(age,Y)

1.1.8 Les modèles nonlinéaires multivariés

On peut s'autoriser éventuellement encore un peu plus de souplesse enprenant en compte le couple constitué de deux variables continues,

S = ϕ(X1, X2) + ε

où ϕ : R2 → R, au lieu d'un modèle GAM classique,

S = ϕ1(X1) + ϕ2(X2) + ε


20 40 60 80 100

0.00

0.02

0.04

0.06

0.08

0.10


Fré

quen

ce a

nnue

lle d

e si

nist

re

Figure 1.7 Modèle MARS, impact de l'âge du conducteur principal surla fréquence de sinistres.

Cette option est proposée par exemple dans library(mgcv)

1.2 Modéliser des variables indicatrices

Les bases des modèles GLM étant posées, nous allons les utiliser en ta-rication, en modélisant tout d'abord des variables indicatrices 0/1 dans unpremier temps, avant de modéliser la fréquence de sinistres, puis les coûtsindividuels dans les prochaines sections.

Remarque 1.2 Les modèles sont très utilisés en techniques de scoring ande savoir s'il convient d'occtroyer un crédit à quelqu'un.

1.2.1 La régression logistique ou probit

La régression logistique suppose que si π(Y |X) = P(Y = 1|X), alors

π(Y |X)1− π(Y |X)

=P(Y = 1|X)P(Y = 0|X)

= exp (Xβ)

Dans le cas du modèle probit, on suppose qu'il existe un modèle latent Gaus-sien, tel que

Y ?i = X ′iβ + εi

et que Yi = 0 si Y ?i < s, et Yi = 1 si Y ?

i > s, et εi ∼ N (0, σ2).La synthaxe de ces deux modèles est très proche, car seule la fonction de

lien change.

1.2. MODÉLISER DES VARIABLES INDICATRICES 25

âge conducteur

âge

du v

éhic

ule

fréquence

espérée

Figure 1.8 Fréquence prédite Y , en fonction de l'âge du conducteur et del'ancienneté du véhicule, Y = ϕ(X1, X2).

> sinistres$touche <- sinistres$nombre>0

> reglogit <- glm(touche~ageconducteur,

+ data=sinistres,family=binomial(link="logit"))

> regprobit <- glm(touche~ageconducteur,

+ data=sinistres,family=binomial(link="probit"))

> age <- seq(17,100)


> Yl <- predict(reglogit,AGE,type="response")

> Yp <- predict(regprobit,AGE,type="response")

> plot(age,Yp-Yl,type="l")

> abline(h=0,lty=2)

On notera que ces deux modèles donnent des prédictions très proches,comme le montre la Figure 1.13.


20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

0.05

0.06

0.07

0.08

Figure 1.9 Fréquence prédite Y par un modèle GLM Y = exp(β0+β1X1+β2X2).

1.2.2 Les arbres de régression

Les arbres de régression sont des outils nonparamétriques de segmenta-tion. Dans un arbre de décision, on cherche à détecter des critères permettantde répartir les individus en 2 classes, caractérisées par Y = 0 et Y = 1. Oncommence par choisir la variable, qui, par ses modalités, sépare le mieuxles individus de chacune des classes. On constitue alors un premier noeud.On réintère alors la procédure sur chaque nouveau noeud. Dans la méthodeCART (Classication And Regression Tree), on regarde toutes les possibili-tés. On continue soit jusqu'à ce qu'il ne reste plus qu'un seul. individu danschaque noeud, soit suivant un critère d'arrêt. Les critères de discriminationet de constitution des noeuds sont généralement les suivants,

lorsque les variables explicatives Xj sont qualitatives, ou discrètes, onutilise la distance du χ2 (on parle d'arbre CHAID),

en présence de variables de tous types, on peut utiliser l'indice de Gini(méthode CART),

ou l'entropie (méthode C5.0),Pour un varible continue, on distinguera X1 ≤ s et X1 > s. Pour

une variable qualitative, on distinguera X1 = x et X1 6= x.Pour chacune des variables, on regarde l'ensemble des classications pos-

sibles. Quelles que soient les variables, on dénit :

> seuilagecond <- unique(nombre$ageconducteur)

> seuilregion <- unique(nombre$region)


20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

0.05

0.06

0.06

0.07

0.07

0.08

0.08

0.1

0.15

0.2

Figure 1.10 Fréquence prédite Y par un modèle additif Y = ϕ1(X1) +ϕ2(X2).

Pour les variables quantitatives, on distingue :

> k=5

> classe0 <- nombre$ageconducteur<=seuilagecod[k]

> classe1 <- nombre$ageconducteur>seuilagecod[k]

alors que pour les variables qualitatives,

> k=5

> classe0 <- nombre$region==seuilregion[k]

> classe1 <- nombre$region!=seuilregion[k]

Une fois constituées les 2 classes, on calcule un des critères possibles.Si on regarde la décomposition obtenue sur le premier noeud, on observe

que pour les conducteurs de moins de 25 ans, la probabilité d'avoir un acci-dent est de 10%, contre 5% pour les conducteurs de plus de 25 ans. Dans lecas des régions, avec une distance du chi-deux, on cherche à minimiser

χ2 = −∑

classe∈0,1

∑y∈0,1

[nclasse,y − n⊥classe,y]2

n⊥classe,y

où nclasse,y désigne le nombre de personnes dans la classe considérée pourlesquelles la variable Y prend la modalité y.

> base=sinistres[sinistres$ageconducteur<=85,]

> seuil=sort(unique(base$ageconducteur))


20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

0.05

0.06

0.06

0.07

0.08

0.08

0.1

0.15

0.2

Figure 1.11 Fréquence prédite Y par un modèle additif Y = ϕ(X1, X2).

> TABLE=rep(NA,length(seuil))

> names(TABLE)=seuil

> for(k in 1:(length(seuil)-1))

+ classe0 <- base$ageconducteur<=seuil[k]

+ classe1 <- base$ageconducteur>seuil[k]

+ M=matrix(

+ rbind(c(sum(base$touche[classe0]==FALSE),

+ sum(base$touche[classe0]==TRUE)),

+ c(sum(base$touche[classe1]==FALSE),

+ sum(base$touche[classe1]==TRUE))),2,2)

+ TABLE[k]=-chisq.test(M)$statistic

> which.min(TABLE)

23

6

> plot(seuil,TABLE)

Autrement dit le meilleur découpage possible est (17,23] et (23,85]A la seconde étape, on cherche une autre partition, en considérant la

précédente comme acquise,

> k1 = which(seuil==23)

> for(k in 1:(length(seuil)-1))

+ if(k!=k1)

+ classe0 <- (base$ageconducteur<=seuil[k])&(base$ageconducteur<=seuil[k1])


20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

Figure 1.12 Fréquence prédite Y par un modèle par classes jointes,(X1, X2) ∈ [a1, b1]× [a2, b2].

+ classe2 <- (base$ageconducteur>seuil[k])&(base$ageconducteur>seuil[k1])

+ classe1 <- 1-classe0-classe2

+ M=matrix(

+ rbind(c(sum(base$touche[classe0]==FALSE),





+ sum(base$touche[classe2]==TRUE))),3,2)

+ TABLE[k]=-chisq.test(M)$statistic

+

> which.min(TABLE)

84

67

> plot(seuil,TABLE)

En l'occurence, on ne nous conseille ici pas d'autre classe (ou alors à unâge très avancé). On retrouvera ce découpage en deux classes dans la sectionsur les modèles MARS par exemple.

Parmi les autres critères, on peut aussi utiliser la distance de Gini,

G = −∑

classe∈0,1

nclassen

∑y∈0,1

nclasse,ynclasse

(1−

nclasse,ynclasse

)


20 40 60 80 100

0.03

40.

035

0.03

60.

037

0.03

8


Pro

babi

lité

d'av

oir

au m

oins

un

acci

dent

20 40 60 80 100

−0.

050.

000.

05


Diff

éren

ce r

elat

ive

(%)

Figure 1.13 Régression logistique (logit) versus modèle latent Gaussien(probit) pour prédire la probabilité d'avoir au moins un accident dans l'an-née, en fonction de l'âge du conducteur principal.

ou l'entropie,

E = −∑

classe∈0,1

nclassen

∑y∈0,1

nclasse,ynclasse

log(nclasse,ynclasse

)

Les arbres permettent une lecture relativement aisée pour l'utilisateur,et reposent sur des techniques nonparamétriques. Aussi, contrairement auxméthodes GLM que nous verrons par la suite, le choix des lois ou la recherched'éventuelles nonlinéarités n'intervient pas ici. Les arbres sont égalementpeu sensibles aux outliers. Mais les arbres, de par leur construction, posentaussi certains soucis. En particulier, on ne peut pas revenir en arrière, et leséquencement est très important.

1.2.3 Probabilité d'avoir (au moins) un sinistre dans l'année

A titre d'illustration, étudions la probabilité d'avoir au moins un sinistredans l'année. Par défaut, l'arbre ne permet pas de dénir des classes, et onobtient autant de classes que l'on a d'âges,


20 30 40 50 60 70 80

−60

0−

500

−40

0−

300

−20

0−

100

0

Age du conducteur

Dis

tanc

e du

chi

−de

ux

Figure 1.14 Evolution de χ2 lors du découpage en 2 classes (17,k] et(k,85].

> library(tree)

> arbre=tree((nombre>0)~ageconducteur,data=sinistres,split="gini")

> age=data.frame(ageconducteur=18:90)

> y=predict(arbre,age)

> plot(age$ageconducteur,y)

Si l'on souhaite coupe les branches de l'arbre, on peut utiliser l'optionmincut pour dire qu'on ne peut couper davantage qu'à condition de consti-tuer des classes dont le nombre d'invidus à l'intérieur soit susement élevé.

> arbre2=tree((nombre>0)~ageconducteur,data=sinistres,split="gini",

+ mincut = 20000)

> y2=predict(arbre2,age)

> lines(age$ageconducteur,y2,col="red",type="s",lwd=2)

> arbre3=tree((nombre>0)~ageconducteur,data=sinistres,split="gini",

+ mincut = 100000)

> y3=predict(arbre3,age)

> lines(age$ageconducteur,y3,col="purple",type="s",lwd=2)

On obtient alors les classes décrites sur la gure 1.16.

1.2.4 Probabilité d'avoir un gros sinistre dans l'année

Cette étude sera particulièrement intéressante pour écrêter les gros si-nistres (nous reviendrons sur ce point dans la section 1.4.3). On supposera


20 30 40 50 60 70 80

−40

000

−30

000

−20

000

−10

000

0

Age du conducteur

Dis

tanc

e du

chi

−de

ux

Figure 1.15 Evolution de χ2 lors du découpage en 3 classes, (17,23],(23,k] et (k,85], ou (17,k], (k,23] et (23,85].

(arbitrairement) que les gros sinistres sont ceux dont le montant dépasse 50000 euros.

> library(tree)

> sinistres$GS <- sinistres$cout>50000

> ARBRE <- tree(GS ~ puissance + zone + agevehicule ,

+ data=sinistres,split="gini")

Cet arbre étant manifestement trop étendu, on peut limiter en demandantà avoir au moins 5 000 assuré par branche,

> ARBRE <- tree(GS ~ puissance + zone + agevehicule ,

+ data=sinistres,split="gini",minsize = 5000)

> ARBRE

> ARBRE

node), split, n, deviance, yval

* denotes terminal node

1) root 26444 87.710 0.003328

2) zone: B,C,D,E,F 23080 68.790 0.002990

4) puissance < 5.5 8028 17.960 0.002242

8) zone: B,D,F 3442 3.995 0.001162 *

9) zone: C,E 4586 13.960 0.003053 *

5) puissance > 5.5 15052 50.830 0.003388


20 30 40 50 60 70 80 90

0.00

0.02

0.04

0.06

0.08

0.10


Pro

babi

lité

d'av

oir

au m

oins

un

acci

dent

Figure 1.16 Prédiction par arbre de régression, avec plus ou moins declasses d'âge.

10) zone: B,C,E 10372 30.910 0.002989

20) agevehicule < 10.5 7541 17.960 0.002387

40) puissance < 7.5 5274 14.960 0.002844

80) agevehicule < 2.5 1291 5.972 0.004648 *

81) agevehicule > 2.5 3983 8.980 0.002260 *

41) puissance > 7.5 2267 2.996 0.001323 *

21) agevehicule > 10.5 2831 12.940 0.004592 *

11) zone: D,F 4680 19.910 0.004274 *

3) zone: A 3364 18.890 0.005648 *

On note qu'en fonction de la zone, de la puissance du véhicule et del'ancienneté du véhicule, on peut déterminer avec une bonne assurance laprobabilité d'avoir un très gros sinistre. Par exemple, pour les personnesn'habitant pas un endroit trop dense (les zones les plus denses correspondantà zone=A), en particulier les zones B, D et E, et si la puissance n'est pas tropélevée, puissance<5.5 la probabilité d'avoir un très gros sinistres est del'ordre de 1/1000. La probabilité sera 4 fois plus grande si la le véhicule estpuissant (puissance>5.5) et ancien, (agevehicule>10.5). Dans une zonedense, la probabilité sera plus de 5 fois plus grande (quelles que soient lesautres variables).

Si on trace l'arbre, on obtient le dessin de la Figure 1.17

> plot(ARBRE)

> text(ARBRE,cex=.9,col="blue")


|zone:bcdef

puissance < 5.5

zone:bdf zone:bce

agevehicule < 10.5

puissance < 7.5

agevehicule < 2.5

0.001162 0.003053

0.004648 0.002260

0.001323

0.004592

0.004274

0.005648

Figure 1.17 Arbre de prédiction, pour expliquer la probabilité d'avoir (oupas) un gros sinistre, en fonction de la densité de population, de l'anciennetédu véhicule, et de sa puissance.

1.3 Modéliser la fréquence de sinistralité

Dans cette section, nous allons rentrer davantage dans la modélisationpar modèles linéaires généralisés. Mais avant de commencer, il peut êtreintéressant de regarder un peu la base, et de faire un peu d'analyse descriptivepour comprendre la loi du nombre de sinistres par contrat.

1.3.1 Un peu d'analyse descriptive

La fréquence de sinistres

Une hypothèse forte de la loi de Poisson est que E(N) = Var(N)Si l'on compare les valeurs numériques, cela donne l'ajustement suivant,

si l'on estime le paramètre par la méthode des moments (ou par maximumde vraisemblance, ML qui ici coïncident) :

> library(vcd)

> gof = goodfit(N,type= "poisson",method= "ML")

> gof

Observed and fitted values for poisson distribution

with parameters estimated by `ML'

1.3. MODÉLISER LA FRÉQUENCE DE SINISTRALITÉ 35

0

200

400

600

800

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Nombre de sinistres

Fré

quen

ce (

raci

ne c

arré

e)

Ajustement d’une loi de Poisson

Figure 1.18 Fréquence empirique du nombre de sinistres par police d'as-surance.

count observed fitted

[1,] 653047 653047 652055

[2,] 23592 23592 25453

[3,] 1299 1299 496

[4,] 62 62 6

[5,] 5 5 0

[6,] 2 2 0

[7,] 1 1 0

[8,] 0 0 0

[9,] 1 1 0

[10,] 1 1 0

[11,] 0 0 0

[12,] 2 2 0

[13,] 0 0 0

[14,] 0 0 0

[15,] 0 0 0

[16,] 0 0 0

[17,] 1 1 0

La diérence entre la valeur prédite par le modèle Poissonnien et les va-leurs observées nous poussent à essayer de mieux comprendre l'hétérogénéitéqui existe au sein de nos données.


Les variables qualitatives, ou facteurs

Les facteurs sont des codications de variables qualitatives. Dans labase, nous disposons de plusieurs variables qualitatives comme le carburantcarburant codé en E pour essence et D pour diesel, ou encore region pourla région française (visualisées sur la Figure 1.19)

5%

6%

7%

8%

9%

10%

Figure 1.19 Fréquence empirique observée par région française.

Régresser une variable quantitative (comme le nombre de sinistres) surune variable factorielle correspond à faire une analyse de la variance.

> summary(lm(nombre~as.factor(region), data=nombre))

Call:

lm(formula = nombre ~ as.factor(region), data = nombre)

Residuals:


-0.16115 -0.03477 -0.03477 -0.03477 15.96523

Coefficients:



(Intercept) 0.161150 0.002341 68.84 <2e-16 ***

as.factor(region)0 -0.091614 0.002763 -33.16 <2e-16 ***














---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1



F-statistic: 277.6 on 14 and 677998 DF, p-value: < 2.2e-16

ou directement, à l'aide de la fonction aov,

> summary(aov(nombre~as.factor(region), data=nombre))

Df Sum Sq Mean Sq F value Pr(>F)

as.factor(region) 14 166 11.8542 277.56 < 2.2e-16 ***

Residuals 677998 28956 0.0427

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

qui montre que la fréquence de sinistres est sensiblement diérente d'unerégion à l'autre.

Les variables quantitatives continues

Parmi les variables continues permettant d'expliquer la fréquence de si-nistres, on retiendra l'âge du véhicule agevehicule, ou l'âge du conducteurageconducteur. On pourrait également utiliser le bonus observé à la sous-cription du contrat bonus. Cette variable est liée à l'ancienneté du permis etpeut s'avérer délicate à prendre en compte dans le modèle.

La Figure 1.20 montre la fréquence empirique obervée en fonction del'âge du conducteur principal (fréquence brute).

> age = seq(18,100,by=1)

> FREQ = rep(NA,length(age))


> for(k in 1:length(FREQ))

+ I=nombre$ageconducteur==age[k]

+ X=nombre$nombre[I]

+ W=nombre$exposition[I]

+ FREQ[k]=weighted.mean(X/W,W)

+

> plot(age,FREQ)

La moyenne empirique est ici corrigée par l'exposition. La fréquence an-nuelle devrait être le nombre de sinistres observé divisé par l'exposition, eton met un poids proportionnel à l'exposition.

20 40 60 80 100

0.00

0.05

0.10

0.15

0.20

0.25

0.30


Fré

quen

ce a

nnue

lle d

e si

nist

re

Figure 1.20 Fréquence empirique par âge du conducteur principal. Letrait horizontal montre la fréquence moyenne d'un individu pris au hasard.

1.3.2 La méthode des marges

[1] a proposé une méthode relativement simple pour faire de la tarica-tion, appelée method of marginal totals. Avant de présenter cette méthode,notons que [16] a retrouvé cette méthode en faisant du maximum de vraisem-blance sur un modèle Poissonnien. Plaçons nous dans le cas où les variablesexogène X sont qualitatifs, de telle sorte que l'on puisse dénir des classesde risques. Alors

P(N = n|X = X) = exp[−λX ]λnXn!

où λX = exp[−X ′β]


ce qui donne une log-vraisemblance de la forme

L(β|ni,Xi) =n∑i=1

[−λXi ] + ni log[λXi ]− log[ni!]

dont la condition du premier ordre donne les équations normales,∑i,Xi=X

ni =∑

i,Xi=X

λX

pour toute classe de risque X.Si on regarde le cas où les classes de risque sont constitués par la puissance

du véhicule (dénie en tant que facteur),

> nombre$puissance=as.factor(nombre$puissance)

> marges=glm(nombre~puissance,

+ data=nombre,family=poisson(link="log"))

> summary(marges)

Call:

glm(formula = nombre ~ puissance, family = poisson(link = "log"),

data = nombre)

Coefficients:


puissance4 -3.35967 0.01580 -212.70 <2e-16 ***

puissance5 -3.19353 0.01397 -228.53 <2e-16 ***

puissance6 -3.16181 0.01259 -251.14 <2e-16 ***

puissance7 -3.25744 0.01337 -243.68 <2e-16 ***

puissance8 -3.34965 0.02463 -135.98 <2e-16 ***

puissance9 -3.20436 0.02862 -111.97 <2e-16 ***

puissance10 -3.24813 0.02865 -113.36 <2e-16 ***

puissance11 -3.24661 0.03742 -86.75 <2e-16 ***

puissance12 -3.32324 0.05812 -57.17 <2e-16 ***

puissance13 -3.14545 0.08482 -37.08 <2e-16 ***

puissance14 -3.14705 0.09950 -31.63 <2e-16 ***

puissance15 -3.41704 0.10206 -33.48 <2e-16 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1




AIC: 226763



> exp(marges$coefficients[6])

puissance9

0.04058501

Ce que nous dit la méthode des marges est que cette valeur prédite corres-pond à la moyenne empirique au sein de la classe de risque,

> I=(nombre$puissance=="9")

> mean(nombre$nombre[I])

[1] 0.04058501

L'idée est à la fois simple et naturelle sur les modèles ne comportant quedes classes de risques (et pas de variable continue).

1.3.3 Prise en compte de l'exposition et variable oset

Dans un modèle collectif, on a besoin de connaître le nombre de sinistressurvenus sur une police d'assurance. Dans l'optique de tarifer un contrat, ilfaut pouvoir prédire le nombre de sinistres qui surviendront, en moyenne,l'année suivante. Or si certains polices n'ont été observées que 6 mois dansla base, il convient de pondérer la fréquence de sinistre par l'exposition.Compte tenu de la propriété multiplicative d'un processus de Poisson, unepolice observée 1 an aura, en moyenne, 4 fois plus de sinistres qu'une policeobservée 3 mois. Dans le cas d'un modèle log-Poisson, il est alors naturel desupposer que

Y |X ∼ P(exp[Xβ + log(e)])

où e désigne l'exposition, mesurée en années.Dans le cas des régressions de Poisson, cela peut se faire de la manière

suivante

> reg=glm(nombre~0+puissance+region,


On peut noter que la régression pouvait s'écrire

Y |X ∼ P(exp[β0 + β1X1 + · · ·+ βkXk + e])

autrement dit, on rajoute l'exposition dans la régression, tout en forçant lecoecient à être égal à 1. Ceci légitime ainsi la seconde écriture possible

> reg=glm(nombre~0+puissance+region+offset(exposition),

+ data=nombre,family=poisson(link="log"))


On notera qu'il est possible d'intérgrer une variable oset dans la mé-thode des marges, en notant qu'il convient de faire une moyenne du nombrede sinistres, divisé par la moyenne de l'exposition. Par exemple pour re-prendre une régression présentée en introduction

> seuils = c(17,21,25,30,50,80,120)

> reg2 = glm(nombre~cut(ageconducteur,breaks=seuils),data=sinistres,

+ family=poisson(link="log"),offset=log(exposition))

> predict(reg2,newdata=data.frame(ageconducteur=20,exposition=1),

+ type="response")

[1] 0.2113669

> I=(sinistres$ageconducteur>=17)&(sinistres$ageconducteur<=21)

> mean(sinistres$nombre[I==TRUE])/mean(sinistres$exposition[I==TRUE])

[1] 0.2113669

Une autre manière d'écrire cette grandeur est de faire une moyenne pon-dérée (par l'exposition) du nombre annualisé de sinistres,

> weighted.mean(sinistres$nombre[I==TRUE]/sinistres$exposition[I==TRUE],

+ w=sinistres$exposition[I==TRUE])

[1] 0.2113669

1.3.4 Prise en compte de la surdispersion

Dans une régression poissonnienne, on suppose que dans une classe derisque (ou conditionnellement aux variables explicatives), la fréquence et l'es-pérance coïncident, i.e. Var(Y |X) = E(Y |X). Dans l'exemple ci-dessous, onconsidère le nombre de sinistres RC. On consistue quelques classes tarifaires,

> moyenne = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant,

+ "puissance"")], mean)

> variance = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant,

+ "puissance"")], var)

> taille = tapply(BASENB$expo , BASENB[,c("agecond","carburant",

+ "puissance")], sum)

> plot(as.vector(moyenne),as.vector(variance))

> abline(a=0,b=1,col="red")

> abline(lm(as.vector(variance)~as.vector(moyenne)),col="blue",lty=2)

On peut commencer par faire un premier test, an de voir si la pente dela régression semble signicativement diérente

> library(AER)

> (regression=lm(as.vector(variance)~as.vector(moyenne),

+ weight=as.vector(taille))


0.00 0.05 0.10 0.15

0.0

0.2

0.4

0.6

0.8

1.0

Moyenne par classe de risque

Var

ianc

e

Figure 1.21 Fréquence moyenne et variance à l'intérieur des classes derisques obtenues en segmentant par type de carburant, par puissance et parâge de conducteur. Le trait continu correspond au cas de non-surdisperson(Var(Y |X) = E(Y |X)), et les traits pointillés aux droites de régression (avecou sans pondération par l'exposition).

Call:

lm(formula = as.vector(variance) ~ as.vector(moyenne),

weights = as.vector(taille))

Coefficients:

(Intercept) as.vector(moyenne)

-0.003966 1.200848

> linear.hypothesis(regression,"as.vector(moyenne)=1")

Linear hypothesis test

Hypothesis:

as.vector(moyenne) = 1

Model 1: as.vector(variance) ~ as.vector(moyenne)

Model 2: restricted model

Res.Df RSS Df Sum of Sq F Pr(>F)

1 1653 67.658

2 1654 70.460 -1 -2.8024 68.468 2.623e-16 ***

---


Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Une manière de prendre en compte la surdispersion peut être de prendrenon une loi de poisson, mais une loi quasipoisson, telle que Var(Y |X) =φE(Y |X), où φ devient un paramètre à estimer (tout comme la volatilité desrésidus dans une régression linéaire Gaussienne).

> regglm <- glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),

+ offset=log(expo), data=BASENB,family=quasipoisson)

> summary(regglm)

Call:

glm(formula = N1RC ~ as.factor(agecond) + carburant + as.factor(puissance),

family = quasipoisson, data = BASENB[I, ], offset = log(expo))

(Dispersion parameter for quasipoisson family taken to be 1.583862)

> (summary(regglm)$dispersion)

[1] 1.583862

Pour tester la présence d'une éventuelle surdispersion, on peut noter quela surdispersion correspond à une hétérogénéité résiduelle, c'est à dire uneet aléatoire. Par exemple on peut supposer que

(Y |X = X,Z = z) ∼ P(exp[X ′β + z′α])

de telle sorte que si u = z′α− E(Z ′α|X = X), alors

(Y |X = X,Z = z) ∼ P(exp[X ′γ + u])

On a un modèle dit à eets xes, au sens où

(Y |X = X) ∼ P(exp[X ′γ + U ])

où U = Z ′α−E(Z ′α|X = X). Par exemple, si on suppose que U ∼ γ(a, a),i.e. d'espérance 1 et de variance σ2 = 1/a, alors

(Y |U = u) ∼ P(λu) où λ = exp[X ′γ]

de telle sorte queE(Y |U = u) = Var(Y |U = u).

Mais si on regarde la loi nonconditionnelle, E(Y ) = λ alors que

Var(Y ) = Var(E[Y |U ]) + E(Var(Y |)) = λ+ λ2σ2.


On peut alors proposer un test de la forme suivante : on suppose que

Var(Y |X = X) = E(Y |X = X) + τ · E(Y |X = X)2

on on cherche à tester

H0 : τ = 0 contre τ > 0

Parmi les statistiques de test classique, on pourra considérer

T =∑n

i=1[(Yi − µi)2 − Yi]√2∑n

i=1 µ2i

qui suit, sous H0, une loi normale centrée réduite. On utilise simplementdispersiontest() de library(MASS).

> regpoisson=glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),offset=log(expo),

+ data=BASENB,family=poisson)

> dispersiontest(regpoisson)

Overdispersion test

data: regpoisson

z = 6.4039, p-value = 7.572e-11

alternative hypothesis: true dispersion is greater than 1

sample estimates:

dispersion

1.069558

Une autre possibilité est de faire une régression binomiale négative (quipermettra de prendre en compte de la surdispersion). Elle se fait à l'aide dela fonction glm.nb() de library(MASS).

> regbn <- glm.nb(N1RC~as.factor(agecond)+carburant+as.factor(puissance)

+ offset(log(expo)),data=BASENB[I,])

Remarque 1.3 La loi Binomial Négative est obtenue comme un mélangePoisson-Gamma. Dans library(gamlss) on parle de loi binomiale négativede type I. Une loi de type II est obtenue en considérant un mélange Poisson-inverse Gaussienne.

1.3.5 Les modèles zero-inated

An d'éviter l'aléa moral, il n'est pas rare de mettre en place des contratsparticipatifs. En assurance, l'exemple le plus connu est probablement le mé-canisme de bonus-malus. Une personne qui n'a pas d'accident responsable


une année a le droit à un rabais l'année suivante (un bonus) alors qu'une per-sonne ayant eu un ou plusieurs sinistres subit une majoration de prime (unmalus). D'un point de vue économétrique, cette solution présente un biaispuisqu'elle peut insiter des personnes à ne pas déclarer certains sinistres(dès lors que la majoration excède le coût du sinistre). Il n'est alors pas rared'observer trop de personnes non-sinistrées dans la population totale (parrappport à un modèle Poissonnien).

Un modèle dit zero inated est un mélange entre une masse en 0 etun modèle classique de comptage, typiquement un modèle de Poisson, oubinomial négatif. Pour modéliser la probabilité de ne pas déclarer un sinistre(et donc d'avoir un surpoids en 0), considérons un modèle logistique parexemple,

πi =exp[X ′iβ]

1 + exp[X ′iβ]

Pour le modèle de comptable, on note pi(k) la probabilité que l'individu iait k sinistres. Aussi,

P(Ni = k) =πi + [1− πi] · pi(0) si k = 0,[1− πi] · pi(k) si k = 1, 2, · · ·

Si pi correspond à un modèle Poissonnien, on peut alors montrer facilementque E(Ni) = [1− πi]µi et Var(Ni) = πiµi + πiµ

2i [1− πi].

library(gamlss) propose la fonction ZIP (pour zero inated Poisson),mais aussi ZINBI (lorsque pi correspond à une loi binomiale négative),ou ZIPIG (pour un mélange Poisson-inverse Gaussien), par exemple. Lalibrary(pscl) propose également une fonction zeroinfl plus simple d'uti-lisation, proposant aussi bien un modèle de Poisson qu'un modèle binomialnégatif.

Il existe aussi des modèles dits zero adapted, où l'on suppose que

P(Ni = k) =

πi si k = 0,

[1− πi] ·pi(k)

1− pi(0)si k = 1, 2, · · ·

Dans library(gamlss) il s'agit du modèle ZAP. Comme auparavant, il existedes fonctions ZANBI ou ZAPIG.

Ces modèles à ination zéro peuvent être particulièrement utiles pourprendre en compte un excès de non-déclarations de sinistres, généralementattribuées à une peur de perdre un niveau intéressant de bonus-malus : laperte nancière associée au malus des années suivantes peut excéder l'indem-nité versée aujourd'hui. On peut ajuster ici un modèle zero-inated (logit)avec une loi de Poisson an d'expliquer la sinistralité en fonction de l'âgedu conducteur (en prenant en compte l'âge via une fonction nonlinéaire quel'on estimera à l'aide de splines).


> reg1 <- glm(nombre~ageconducteur,offset=exposition,data=nombre,

+ family=poisson)

> reg2 <- glm(nombre~bs(ageconducteur,df=4),offset=exposition,

+ data=nombre,family=poisson)

> reg3 <- zeroinfl(nombre~ageconducteur | ageconducteur,

+ data = nombre,offset=exposition,dist = "poisson",link="logit")

> reg4 <- zeroinfl(nombre~bs(ageconducteur,df=4) | bs(ageconducteur),

+ data = nombre,dist = "poisson",link="logit",offset=exposition)

La prédiction obtenue pour les âges usuels est présentée sur la Figure1.22. Si l'on ne prend pas en compte l'âge de manière nonlinéaire, les deuxmodèles prédisent sensiblement la même chose.

20 30 40 50 60 70

0.02

0.04

0.06

0.08

0.10

0.12

Age du conducteur princpal

Fré

quen

ce a

nnue

lle d

e si

nist

re

Poisson, linéairePoisson, nonlinéaireZero inflated Binomiale Negative, linéaireZero inflated Binomiale Negative, nonlinéaire

Figure 1.22 Prédiction à l'aide de modèles zero-inated (logit) avec uneloi de Poisson de la sinistralité en fonction de l'âge du conducteur.

On peut s'intéresser plus particulièrement à l'impact de l'âge sur la pro-babilité de ne pas déclarer de sinistres (correspondant au paramètre de la loibinomiale).

> age=seq(18,80)

> DT=data.frame(ageconducteur=age,exposition=1)

> Y4z <- predict(reg4,newdata=DT,type="zero")

> plot(age,Y4z)

On notera que l'interprétation en terme de niveau de bonus-malus semblepertinente, en particulier si l'on regarde le bonus moyen en fonction de l'âgedu conducteur, présenté sur la Figure 1.24 : le taux de bonus (et donc la


20 30 40 50 60 70 80

0.5

0.6

0.7

0.8

0.9

Age du conducteur princpal

Pro

babi

lité

de n

e pa

s dé

clar

er u

n si

nist

re

Figure 1.23 Probabilité πi du modèle à ination zéro, interprétée comme laprobabilité de ne pas déclarer un sinistre, en fonction de l'âge du conducteur.

prime) diminue avec l'âge, ce qui incite probablement à ne pas déclarer cer-tains petits sinistres responsables.

1.3.6 Régression simple versus régression multiple

Il est important de bien vérier les interractions entre les variables expli-catifs dans la régression, an d'être certain que l'eet est bien additif.

1.3.7 Prédiction de la fréquence par police

Nous avons vu qu'il était possible d'ajuster un grand nombre de mo-dèles, en changeant la loi (Poisson, zero-inated Poisson, Binomiale Néga-tive, Poisson-inverse Gaussienne) de la variable N , mais aussi la forme dumodèle (l'âge intervenant tel quel, par classe, ou bien transformée de manièrenonlinéaire, par exemple). Une cinquantaine de modèles ont été ajustés. Ande comparer ces modèles, on calcule le critère d'Akaike (AIC) ou de Schwarz(BIC). On peut aussi prédire la fréquence pour quelques individus type,

> individus=data.frame(

+ exposition=c(1,1,1),

+ zone=c("B","C","D"),

+ puissance=c(11,6,7),

+ agevehicule=c(0,3,10),

+ ageconducteur=c(40,18,65),


20 30 40 50 60 70 80

5060

7080

9010

011

0


Niv

eau

de b

onus

moy

en

Figure 1.24 Niveau moyen de taux de bonus en fonction de l'âge duconducteur.

+ marque=c(1,2,10),

+ carburant=c("D","E","D"),

+ densite=c(11,24,93),

+ region=c(13,13,7))

> individus

exposition zone puissance agevehicule

1 1 B 11 0

2 1 C 6 3

3 1 D 7 10

ageconducteur marque carburant densite region

1 40 1 D 11 13

2 18 2 E 24 13

3 65 10 D 93 7

Il est aussi possible d'utiliser les arbres de régression an de mieux com-prendre les diérences entre les modèles.

> I=sample(1:nrow(sinistres),size=150000,replace=FALSE)

> base1=sinistres[I,]

> base2=sinistres[-I,]

> reg1 = glm(nombre~puissance+agevehicule+ageconducteur+carburant+as.factor(region),

+ data=base1,family=poisson,offset=log(exposition))

> library(mgcv)

> reg2 = gam(nombre~zone+puissance+s(agevehicule)+s(ageconducteur)+carburant+as.factor(region)+s(densite),


20 40 60 80

0.00

0.05

0.10

0.15


Fré

quen

ce a

nnue

lle d

e si

nist

re

Figure 1.25 Fréquence individuelle en fonction de l'âge du conducteurprincipal.

+ data=base1,family=poisson,offset=log(exposition))

> Y1=predict(reg1,newdata=base2)

> Y2=predict(reg2,newdata=base2)

> diff=(Y1-Y2)

> base2$INDIC = (diff>0)

> base2$diff = diff

> library(tree)

> arbre <- tree(diff~puissance+agevehicule+ageconducteur+carburant+zone+densite,data=base2)

> plot(arbre)

> text(arbre)

On cherche à comparer sur quelles segments de population les modèlesdonnent des prédictions sensiblement diérentes. Les deux modèles ont lamême stucture (log-Poisson), mais le premier ne prend pas en compte lesaspects nonlinéaires. Le premier n'intègre pas non plus la variable de densitéde populaion. Visiblement, il y a une forte diérence de prédiction

sur les régions 'faiblement' peuplées, densite<482.5 sur les jeunes conducteurs, ageconducteur<24.5 sur les véhicules neufs, agevehicule<0.5


20 40 60 80

0.00

0.05

0.10

0.15


Fré

quen

ce a

nnue

lle d

e si

nist

re

DieselEssence

Figure 1.26 Fréquence individuelle en fonction de l'âge du conducteurprincipal, et du type de carburant.

1.4 Modéliser les coûts individuels des sinistres

Les coûts de sinistres sont des variables positives. En présence de coûtsxes (bris de glace par exemple), la loi des coûts de sinistres sera une loicontinue, avec des masses de Dirac (là on l'on observe des coûts xes). Laloi est alors

f(y) = (1− p)f?(y) + p1(y = C)

où p désigne la probabilité d'avoir un coût qui soit précisément C. Dansnotre approche économétrique, on peut envisager un modèle de la forme

f(y|X = x) = (1− p(x))f?(y|X = x) + p(x)1(y = C)

où p(x) peut être modélisée par une régression logistique, et où f?(y|X = x)est une loi positive à densité.

On peut alors chercher à modéliser cette loi continue.

1.4.1 Modèle Gamma et modèle lognormal

Les deux modèles les plus classiques permettant de modéliser les coûtsindividuels de sinistre sont

le modèle Gamma sur les coûts individuels Yi le modèle log-normal sur les coûts individuels Yi, ou plutôt un mo-dèle Gaussien sur le logarithme des coûts, log(Yi), la loi lognormalen'appartenant pas à la famille exponentielle.

1.4. MODÉLISER LES COÛTS INDIVIDUELS DES SINISTRES 51

20 40 60 80

0.00

0.05

0.10

0.15


Fré

quen

ce a

nnue

lle d

e si

nist

re

Voiture récente (<5 ans)Voiture ancienne (>6 ans)

Figure 1.27 Fréquence individuelle en fonction de l'âge du conducteurprincipal, et de l'ancienneté du véhicule.

Le(s) modèle(s) Gamma

La loi Gamma, de paramètres α et β, de densité

f(y) =βα

Γ(α)yα−1 exp(−βy), pour y ≥ 0,

vérie E(Y ) =α

βet Var(X) =

α

β

2. Autrement dit, le coecient de variation

vaut ici

CV =

√Var(X)E(Y )

=1√α

qui peut être analysé comme un cocient de dispersion. En fait, si φ = 1/α,on peut écrire

Var(Y ) =1α

2

β2= φ · E(Y )2,

où on retrouve ici une fonction variance de forme quadratique.Le cas particulier φ = 1 corrrespond à la loi exponentielle.Bien que le lien canonique de la loi Gamma soit la fonction inverse, il est

plus fréquent d'utiliser un lien logarithmique. En eet, la forme multiplicativedonne des interprétations simples dans le cas des modèles multiples.

> reggamma <- glm(cout~ageconducteur,family=Gamma(link="log"),

+ data=sinistres)

> summary(reggamma)


20 40 60 80

0.00

0.05

0.10

0.15


Fré

quen

ce a

nnue

lle d

e si

nist

re

Faible densitéDensité élevée

Figure 1.28 Fréquence individuelle en fonction de l'âge du conducteurprincipal, et de la densité de la région d'habitation.

Call:

glm(formula = cout ~ ageconducteur, family = Gamma(link = "log"),

data = sinistres)

Deviance Residuals:


-3.6322 -0.9769 -0.6110 -0.3917 52.5993

Coefficients:


(Intercept) 8.180643 0.208009 39.328 <2e-16 ***

ageconducteur -0.010440 0.004383 -2.382 0.0172 *

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for Gamma family taken to be 109.7107)



AIC: 458704



0.02 0.04 0.06 0.08 0.10

1500

020

000

2500

030

000

fréquence prédite, individu (1)

erre

ur d

e pr

édic

tion

(L1)

0.05 0.10 0.15 0.20

1500

020

000

2500

030

000

fréquence prédite, individu (2)er

reur

de

préd

ictio

n (L

1)

0.02 0.04 0.06 0.08 0.10 0.12 0.14

1500

020

000

2500

030

000


erre

ur d

e pr

édic

tion

(L1)

0.02 0.04 0.06 0.08 0.10

1220

012

400


erre

ur d

e pr

édic

tion

(L2)

0.05 0.10 0.15 0.20

1220

012

400


erre

ur d

e pr

édic

tion

(L2)

0.02 0.04 0.06 0.08 0.10 0.12 0.14

1220

012

400


erre

ur d

e pr

édic

tion

(L2)

Figure 1.29 Estimation de E(N |X) sur 3 individus type, à l'aide d'unecinquantaine de modèle.

Si on s'intéresse à la valeur prédite pour une personne d'âgeageconducteur=50, on obtient

> predict(reggamma,newdata=data.frame(ageconducteur=50),

+ type="response")

1

2118.879

Le modèle lognormal

La régression lognormale peut être obtenue en considérant une régressionlinéaire (Gaussienne) sur le logarithme du coût,

log(Yi) = X ′iβ + εi

avec εi ∼ N (0, σ2). En eet, par dénition de la loi lognormale, Y ∼LN(µ, σ2) si et seulement si log Y ∼ N (µ, σ2). Le principal soucis danscet écriture est que E(Y ) = exp

(µ+

σ2

2

)6= exp(µ) = exp[E(log Y )]

Var(Y ) = exp(2µ+ σ2

) [exp

(σ2)− 1]6= exp(σ2) = exp[Var(log Y )]

Autrement dit, il sera délicat de passer des estimations faites à partir dumodèle sur log Y à des prédictions sur le coût Y . Une régression sur le loga-rithme des coûts donnerait par exemple,


|densite < 482.5

ageconducteur < 24.5

agevehicule < 0.5

agevehicule < 0.5

ageconducteur < 24.5

−1.7940

−1.5410 −0.7205

−1.8900

−2.0990 −1.1990

Figure 1.30 Comparaison de deux modèles log-Poisson.

> reglm <- lm(log(cout)~ageconducteur,data=sinistres)

> summary(reglm)

Call:

lm(formula = log(cout) ~ ageconducteur, data = sinistres)

Coefficients:


(Intercept) 6.7501521 0.0224328 300.905 < 2e-16 ***

ageconducteur 0.0021392 0.0004727 4.525 6.06e-06 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1



F-statistic: 20.48 on 1 and 26442 DF, p-value: 6.059e-06

> sigma=summary(reglm)$sigma

Si on s'intéresse à la valeur prédite pour une personne d'âgeageconducteur=50, on obtient

> mu=predict(reglm,newdata=data.frame(ageconducteur=50))

> exp(mu+sigma^2/2)

1

1799.239


On notera que les deux modèles donnent des résultats très sensiblementdiérents (en terme de signe par exemple). On peut comparer les prédictionssur la Figure 1.31 (sur laquelle des régressions nonparamétriques ont étésuperposées).

20 40 60 80 100

050

010

0015

0020

0025

0030

0035

00


Coû

t ind

ivid

uel d

'un

sini

stre

GammaLognormalGamma (splines)Lognormal (splines)

Figure 1.31 Régressions lognormale versus Gamma, où le coût individuelest expliqué par l'âge du conducteur.

La Figure 1.32 montre les mêmes types de modèles si l'on cherche àexpliquer le coût par l'ancienneté du véhicule. En particulier, la croissancedu coût moyen en fonction de l'âge du véhicule est surprenante compte tenude la baisse de la cote du véhciule à l'argus,

En fait, la divergence entre les deux modèles vient du fait que le mo-dèle Gamma est très sensible aux valeurs extrêmes. Un avantage du modèlelognormal est qu'en prenant le logarithme des coûts, on atténue l'impor-tance des sinistres de coût exceptionnel. En écartant les sinistres tels quesinistres$cout>200000, on obtient des modèles comparables (et prochesde ce que donnait la régression lognormale sur l'ensemble de la base)

> sinistrescap <- sinistres[sinistres$cout<200000,]

Nous reviendrons plus en détails sur la prise en compte de ces sinistresexceptionnels (qui ici ont simplement été écartés).

Prise en compte d'un montant maximal

Dans la plupart des assurances associées aux dommages matériels, lespolices indiquent des montants maximals. Dans le cas où seul le véhicule


0 5 10 15 20 25

050

010

0015

0020

0025

0030

0035

00

Ancienneté du véhicule

Coû

t ind

ivid

uel d

'un

sini

stre


Figure 1.32 Régressions lognormale versus Gamma, où le coût individuelest expliqué par l'ancienneté du véhicule.

de l'assuré est couvert, le montant maximal d'un sinistre matériel est lavaleur du véhicule. Dans la garantie vol des contrats habitations, le montantmaximal sera la valeur des biens assurés. Y est ainsi une variable censuréepar ce coût maximal (qui peut lié à la police).

Les library(Zelig) et library(HMisc) permettent de faire une régres-sion lognormale, dans le contexte des modèles de durée. Pour utiliser lafonction library(Zelig) on va indiquer que tous les coûts sont noncensurés(car ici on ne dispose pas de l'information)

> library(Zelig)

> regloglm <- zelig(Surv(cout, rep(1,length(cout))) ~ ageconducteur,

+ model = "lognorm", data = sinistres)

> summary(regloglm)

Call:

zelig(formula = Surv(cout, rep(1, length(cout))) ~ ageconducteur,

model = "lognorm", data = sinistres)

Value Std. Error z p

(Intercept) 6.75015 0.022432 300.92 0.00e+00

ageconducteur 0.00214 0.000473 4.53 6.03e-06

Log(scale) 0.12183 0.004348 28.02 9.76e-173

Scale= 1.13


0 5 10 15 20 25

050

010

0015

0020

0025

0030

0035

00

Ancienneté du véhicule

Coû

t ind

ivid

uel d

'un

sini

stre


Figure 1.33 Régressions lognormale versus Gamma, où le coût individuelest expliqué par l'ancienneté du véhicule.

Log Normal distribution

Loglik(model)= -221797.7 Loglik(intercept only)= -221807.9

Chisq= 20.47 on 1 degrees of freedom, p= 6.1e-06

Number of Newton-Raphson Iterations: 2

n= 26444

1.4.2 Modélisation des grands sinistres

Il existe un grand nombre de façons de dénir les lois à queues épaisses.La plus élégante d'un point de vue actuarielle est probablement la familledes lois sous exponentielles (décrites dans [?]). Une loi de fonction de survieF sera dite sous-exponentielle si pour tout n ≥ 2,

limx→∞

F ?n(x)F (x)

= n

ou bien, si X1, · · · , Xn, · · · sont des variables i.i.d. de loi F ,

P(X1 + · · ·+Xn > x) ∼ P(maxX1, · · · , Xn > x).

Autrement dit, la loi de la charge totale dans un portefeuille a des queues desdistributions qui se comportent comme le plus gros sinistres. Ce sont doncdes lois qui sont très inuencées par ces très gros sinistres. Parmi les lois dela famille sous-exponentielle,

la loi lognormale, f(y) ∝ 1yσ

exp(−[log y − µ]2/2σ2

)


la loi de Weibull, f(y) ∝ xk−1 exp[−xk] si k < 1mais la loi la plus utilisée, en particulier en réassurance, n'est pas dans lafamille exponentielle,

la loi de Pareto, f(y) ∝ [µ+ y]−α−1

Dans ces familles de lois à queues épaisses, on va ainsi retrouver uneautre classe relativement connue, à savoir les lois dite à variation régulière.Ces lois sont aussi dite de type Pareto, au sens où

P(Y > y) = y−αL(y)

où L est une fonction à variation lente, i.e.

limx→∞

L(tx)L(x)

= 1 pour tout t > 0.

La library(gamlss) propose d'autres familles de lois, comme les loisReverse Gumbel ou Power Exponential

Il est possible de dénir une famille dite beta généralisée de seconde espèce,notée GB2. On suppose que

log Y L= µ+ σ logΓ1

Γ2

où Γ ∼ G(αi, 1) sont indépendantes. Si Γ2 est une constante (α2 → ∞) onobtient la loi gamma généralisée.

La densité de cette loi s'écrit :

f(y) ∝ y−1

[exp

(log y − µ

σ

)]α1[1 + exp

(log y − µ

σ

)]−(α1+α2)

Supposons que µ soit une fonction linéaire des variables explicatives,µ = X ′β. Alors

E(Y |X) = C exp[µ(X)] = C exp[X ′β]

Ces modèles sont détaillés dans [23].

1.4.3 Ecrêtement des grands sinistres

Si l'on considère des modèles économétriques basés uniquement sur desvariables catégorielles (en particulier des classes pour les variables continues)la prime pure est alors généralement la moyenne empirique dans la classeconsidérée (c'est en tous les cas ce que préconise par exemple la méthodedes marges). Mais cette méthode devient alors vite très sensible aux sinistresextrêmes.

An d'éviter ce problème, il n'est pas rare d'écrêter les sinistres : on cal-cule la prime moyenne par groupe tarifaire en écartant les gros sinistres, qui


seront répartis sur l'ensemble de la population. On peut bien entendu ranercette méthode en considérant des modèles hiérarchiques et en répartissantsimplement sur une surclasse.

Supposons que les sinistres extrêmes soient ceux qui dépassent un seuils (connu). Rappelons que la formule des probabilités totales permet d'écrireque (dans le cas discret pour faire simple)

P(A) =∑i

P(A ∩Bi)∑i

P(A|Bi) · P(Bi)

où (Bi) forme une partition de Ω. En particulier

P(A) = P(A|B) · P(B) + P(A|Bc) · P(Bc)

où Bc désigne le complémentaire de B. En passant à l'espérance, et en tra-vaillant sur des variables aléatoires plutôt que des ensembles, on peut écrire

E(Y ) = E(Y |B) · P(B) + E(Y |Bc) · P(Bc)

Si on prend comme cas particulier B = Y ≤ s et Bc = Y > s, alors

E(Y ) = E(Y |Y ≤ s) · P(Y ≤ s) + E(Y |Y > s) · P(Y > s).

nallement, on note que la probabilité P n'a joué aucun rôle ici, et on peutparfaitement la remplacer par une probabilité conditionnelle, PX, i.e.

E(Y |X) = E(Y |X, Y ≤ s) · P(Y ≤ s|X) + E(Y |X, Y > s) · P(Y > s|X)

Le premier terme correspond aux sinistres `normaux' par une loi évoquéeprécédemment (régression Gamma par exemple). Pour le second terme, onnoteta que E[E(Y |X, Y > s)] = E(Y |Y > s). Autrement dit, on peut êtretenté par ne plus distinguer par classe pour le coût moyen des très trèsgros sinistres. Mais on répartira proportionnellement à la fréquence des grossinistres sinistres.

La prédiction sera donc basée sur trois parties, la première pour les si-nistres usuels (plus petits que s), et la seconde pour les grands sinistres (pourles sinistres excédant s), avec comme troisième terme que sera la probabilité,par classe tarifaire, d'avoir un sinistre excédant le seuil s.

> seuil=500000

> sinistres.inf = sinistres[sinistres$cout<=seuil,]

> sinistres.sup = sinistres[sinistres$cout>seuil,]

> sinistres$indic = sinistres$cout>seuil

> proba=gam(indic~s(ageconducteur),data=sinistres,family=binomial)

> probpred=predict(proba,newdata=data.frame(ageconducteur=age),type="response")

> reg=gam(cout~s(ageconducteur),data=sinistres.inf,family=Gamma(link="log"))

> Y.inf=predict(reg,newdata=data.frame(ageconducteur=age),type="response")

> Y.sup=mean(sinistres.sup$cout)

> Y=Y.inf*(1-probpred)+Y.sup*probpred

> plot(age,Y)


20 30 40 50 60 70 80 90

050

0010

000

1500

0


Coû

t moy

en d

'un

sini

stre

ensemble des sinistresbase écrêtée à 500 000base écrêtée à 100 000

Figure 1.34 Estimation de E(Y |X) avec ou sans écrêment (la surcrête iciici répartie entre les assurés proportionnellement à leur probabilité d'avoirun gros sinistre).

probpred est ici la prédiction de P(Y > s|X). La gure 1.35 montrecomment la charge surcrête est répartie entre les assurés : pour un seuil s à500 000 euros, les très jeunes conducteurs (moins de 22 ans) paieront moins,contrairement aux assurés de 25 à 35 ans.

1.5 Modéliser les coûts par police

Dans certains cas, on ne dispose que de la charge totale annuelle parpolice d'assurance.

1.5.1 Les modèles Tweedie comme modèle Poisson composé

Les modèles Tweedie peuvent être vu comme des modèles Poisson com-posés. On suppose que

Y =N∑k=0

Zk

où les (Zk) sont i.i.d., on on pourra supposer qu'ils suivent une loi GammaG(α, β), indépendament de N ∼ P(λ). Alors

E(Y ) = E(N) · E(Zk) = λα

β= µ

1.5. MODÉLISER LES COÛTS PAR POLICE 61

20 30 40 50 60 70 80 90

0.2

0.8

1.4


Impa

ct r

elat

if

20 30 40 50 60 70 80 90

0.2

0.8

1.4


Impa

ct r

elat

if

Figure 1.35 Impact (relatif) de l'écrêtement, pour un seuil à 100 000 eurosen haut, et 500 000 en bas.

et

Var(Y ) = E(N) · E(Z2k) + Var(N) · E(Zk)2 = λ

(α

β2+α2

β2

)Supposons qu'il existe p ∈]1, 2[ et ψ > 0 tels que

α =2− pp− 1

, β =1

ψ(p− 1)µp−1et λ =

µ2−p

ψ(2− p)

alors on peut montrer que la loi de Y appartient à la famille exponentielleavec

E(Y ) = µ et Var(Y ) = ψµp

où le paramètre ψ est un paramètre de dispersion, et la fonction variance estalors V (µ) = µp.

An de mettre en oeuvre l'utilisation de ces modèles, commençons parsommer les coûts de sinistres par police.

> base=sinistres[,1:2]

> head(base)

nocontrat cout

1 139 303.00

2 190 1981.84

3 414 1456.55

4 424 989.64

5 424 9844.36


6 463 3986.67

> somme <- aggregate(base[,2],by=list(base[,1]),sum)

> names(somme)=c("nocontrat","cout")

> head(somme)

nocontrat cout

1 139 303.00

2 190 1981.84

3 414 1456.55

4 424 10834.00

5 463 3986.67

6 606 1840.14

> sinistres <- merge(somme,nombre,all=TRUE)

> sinistres$cout=replace(sinistres$cout,is.na(sinistres$cout),0)

On peut alors utiliser les modèles Tweedie, par exemple avec un para-mètre p=1.3,

> regTw <- glm(cout~ageconducteur+agevehicule+as.factor(puissance),

+ data=sinistres, tweedie(1.3,0))

> summary(regTw)

Call:

glm(formula = cout ~ ageconducteur + agevehicule, family = tweedie(puis,

0), data = sinistres)

Deviance Residuals:


-19.384 -8.516 -8.019 -7.481 2389.532

Coefficients:


(Intercept) 4.947441 0.224142 22.073 < 2e-16 ***

ageconducteur -0.014533 0.004525 -3.212 0.00132 **

agevehicule 0.023133 0.010198 2.268 0.02330 *

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for Tweedie family taken to be 59123.96)



AIC: NA


Chapitre 2

Les provisions pour sinistres à

payer

Dans ce chapitre, nous allons étudier les méthodes pour calculer le mon-tant des provisions pour sinistres à payer, et plus particulièrement, des mé-thodes permettant de quantier la marge d'erreur associée.

2.1 La problématique du provisionnment

Comme le dénit [29], les provisions techniques sont les provisions desti-nées à permettre le règlement intégral des engagements pris envers les assuréset bénéciaires de contrats. Elles sont liées à la technique même de l'assu-rance, et imposées par la règlementation. D'un point de vue plus formel, à ladate t, la compagnie d'assurance est tenue de constituer une provision pourles sinistres survenus avant la date t qu'elle sera tenu d'indemniser. Elle doitdonc estimer le coût des sinistres survenus, et retrancher les montants déjàversés. Il s'agit donc fondamentalement d'un problème de prévision.

Parmi les méthodes reconnues par les autorités de contrôles, les plusclassiques sont basées sur les cadences de paiements. On raisonne pour celapar année de survenance de sinistre, et on suppose une certaine régularitédans la cadence de paiement.

2.1.1 Quelques dénitions et notations, aspects règlemen-taires et comptables

La plupart des méthodes présentées ici sont détaillées dans [7], ou [33].Classiquement, on notera

i (en ligne) l'année de survenance, j (en colonne) l'année de développement, Yi,j les incréments de paiments, pour l'année de développement j, pourles sinistres survenus l'année i, tableau 2.1

63

64 CHAPITRE 2. LES PROVISIONS POUR SINISTRES À PAYER

Ci,j les paiments cumulés, au sens où Ci,j = Yi,0 +Yi,1 + · · ·+Yi,j , pourl'année de survenance j, tableau 2.2

Pi la prime acquise pour l'année i, tableau 2.3 Ni,j le nombre cumulé de sinistres pour l'année de survenance i vu aubout de j années, tableau 2.4

0 1 2 3 4 50 3209 1163 39 17 7 211 3367 1292 37 24 102 3871 1474 53 223 4239 1678 1034 4929 18655 5217

Table 2.1 Triangle des incréments de paiements, Y = (Yi,j).

0 1 2 3 4 50 3209 4372 4411 4428 4435 44561 3367 4659 4696 4720 47302 3871 5345 5398 54203 4239 5917 60204 4929 67945 5217

Table 2.2 Triangle des paiements cumulés, C = (Ci,j).

Year i 0 1 2 3 4 5Pi 4591 4672 4863 5175 5673 6431

Table 2.3 Vecteur des primes acquises, P = (Pi).

Formellement, toutes ces données sont stockées dans des matrices, avecdes valeurs manquantes NA pour les valeurs futures. Pour les importer, onutilisera les triangles PAID, PREMIUM, NUMBER et INCURRED

> source(bases.R)

> PAID

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 3209 4372 4411 4428 4435 4456

[2,] 3367 4659 4696 4720 4730 NA

[3,] 3871 5345 5398 5420 NA NA

2.1. LA PROBLÉMATIQUE DU PROVISIONNMENT 65

0 1 2 3 4 50 1043.4 1045.5 1047.5 1047.7 1047.7 1047.71 1043.0 1027.1 1028.7 1028.9 1028.72 965.1 967.9 967.8 970.13 977.0 984.7 986.84 1099.0 1118.55 1076.3

Table 2.4 Triangle des nombres de sinistres, cumulés, en milliers, N =(Ni,j).

[4,] 4239 5917 6020 NA NA NA

[5,] 4929 6794 NA NA NA NA

[6,] 5217 NA NA NA NA NA

Le triangle des incréments se déduit facilement du triangle des cumulés

> INCREMENT <- PAID

> INCREMENT[,2:nrow(PAID)] <- PAID[,2:nrow(PAID)]-PAID[,1:(nrow(PAID)-1)]

> INCREMENT

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 3209 1163 39 17 7 21

[2,] 3367 1292 37 24 10 NA

[3,] 3871 1474 53 22 NA NA

[4,] 4239 1678 103 NA NA NA

[5,] 4929 1865 NA NA NA NA

[6,] 5217 NA NA NA NA NA

2.1.2 Formalisation du problème du provisionnement

Le provisionnement est un problème de prédiction, conditionelle à l'in-formation dont on dispose à la date n. On notera Fn l'information disponibleà la date n, soit formellement

Hn = (Xi,j), i+ j ≤ n = (Ci,j), i+ j ≤ n

On cherche à étudier, par année de survenance, la loi conditionnelle de Ci,∞sachant Hn, ou encore, si l'on suppose les sinistres clos au bout de n annéesla loi de Ci,n sachant Hn. Si l'on se focalise sur une année de survenanceparticulière, on pourra noter

Fi,n−i = (Xi,j), j = 0, · · · , n− i) = (Ci,j), j = 0, · · · , n− i)

Cette notation permet de prendre en compte que l'information disponiblechange d'une ligne à l'autre.


Hn Fi,n−i? ? ? ? ?? ? ? ?? ? ?? ??

? ? ? ?

On cherchera par la suite à prédire le montant des sinistres à payer pourl'année i, i.e.

C(n−i)i,n = E[Ci,n|Fi,n−i]

et la diérence entre ce montant et le montant déjà payé constituera laprovision pour sinistres à payer,

Ri = C(n−i)i,n − Ci,n−i

On essayera ensuite de quantier l'incertitude associée à cette prédiction.Comme on le verra les méthodes usuelles visaient à calculer

Var[Ci,n|Fi,n−i] ou Var[C(n−i)i,n ]

ce que l'on appelera incertitude à horizon ultime. Mais ce n'est pas ce quepropose Solvabilité II, demandant plutôt de mesurer une incertitude dite àun an. Pour cela, on va s'intéresser à la prédiction qui sera faite dans un an,

C(n−i+1)i,n = E[Ci,n|Fi,n−i+1]

et plus particulièrement le changement dans l'estimation de la charge ultime

∆ni = C

(n−i+1)i,n − C(n−i)

i,n .

Si cette diérence est positive, on parle de mali (il faudra goner la provisionan de pouvoir payer les sinistres), et si elle est négative, on parle de boni.On peut montrer que

E[∆ni |Fi,n−i] = 0,

autrement dit, on ne peut espérer faire ni boni, ni mali, en moyenne. Lescontraintes règlementaires imposéeés par Solvabilité II demandent de calculer

Var[∆ni |Fi,n−i].

2.2 Les cadences de paiements et la méthode Chain

Ladder

L'utilisation des cadences de paiements pour estimer la charge futuredate du début du XXème siècle. On suppose qu'il existe une relation derécurrence de la forme

Ci,j+1 = λjCi,j pour tout i, j = 1, · · · , n.

2.2. LES CADENCES DE PAIEMENTS ET LAMÉTHODE CHAIN LADDER67

Un estimateur naturel pour λj , basé sur l'expérience passée est alors

λj =∑n−j

i=1 Ci,j+1∑n−ji=1 Ci,j

pour tout j = 1, · · · , n− 1.

De telle sorte que l'on peut alors prédire la charge pour la partie non-observéedans le triangle,

Ci,j =[λn+1−i...λj−1

]Ci,n+1−i.

> n <- nrow(PAID)

> LAMBDA <- rep(NA,n-1)

> for(i in 1:(n-1))

+ LAMBDA[i] <- sum(PAID[1:(n-i),i+1])/

+ sum(PAID[1:(n-i),i])

Notons qu'au lieu de calculer les facteurs de développement, on peut aussides taux de développement, cumulés ou non. Autrement dit, au lieu d'écrireCi,j+1 = λjCi,j pour tout i, j = 1, · · · , n, on suppose que

Ci,j = γjCi,n ou Yi,j = ϕjCi,n.

On notera que

γj =n∏

k=j+1

1λk

et ϕj =γ1 si j = 1γj − γj−1 si j > 1

> cat("Lambda =",LAMBDA)

Lambda = 1.380933 1.011433 1.004343 1.001858 1.004735

> GAMMA <- rev(cumprod(rev(1/LAMBDA)))

> cat("Gamma =", GAMMA)

Gamma = 0.7081910 0.9779643 0.9891449 0.9934411 0.9952873

> cat("Phi =", c(GAMMA[1],diff(GAMMA)))

Phi = 0.708191033 0.269773306 0.011180591 0.004296183 0.001846141

0 1 2 3 4 n

λj 1,38093 1,01143 1,00434 1,00186 1,00474 1,0000γj 70,819% 97,796% 98,914% 99,344% 99,529% 100,000%ϕj 70,819% 26,977% 1,118% 0,430% 0,185% 0,000%

Table 2.5 Facteurs de développement, λ = (λi), exprimés en cadencede paiements par rapport à la charge utlime, en cumulé (i.e. γ), puis enincréments (i.e. ϕ).


On notera qu'il est possible de voir l'estimateur Chain-Ladder commeune moyenne pondérée des facteurs de transition individuels, i.e.

λj =n−j∑i=1

ωi,jλi,j où ωi,j =Ci,j∑n−ji=1 Ci,j

et λi,j =Ci,j+1

Ci,j.

Aussi, on peut obtenir ces coecients à l'aide de régressions linéaires pon-dérées sans constantes, en régressant les C·,j+1 sur les C·,j . Ainsi, pour lapremière valeur,

> x <- PAID[,1]

> y <- PAID[,2]

> lm(y ~ x + 0, weights=1/x)

Call:

lm(formula = y ~ x + 0, weights = 1/x)

Coefficients:

x

1.381

Une fois estimé le facteur de développement, rien de plus simple que decompléter le triangle,

> TRIANGLE <- PAID

> for(i in 1:(n-1))

+ TRIANGLE[(n-i+1):(n),i+1]=LAMBDA[i]*TRIANGLE[(n-i+1):(n),i]

0 1 2 3 4 50 3209 4372 4411 4428 4435 44561 3367 4659 4696 4720 4730 4752.42 3871 5345 5398 5420 5430.1 5455.83 4239 5917 6020 6046.15 6057.4 6086.14 4929 6794 6871.7 6901.5 6914.3 6947.15 5217 7204.3 7286.7 7318.3 7331.9 7366.7

Table 2.6 Triangle des paiements cumulés, C = (Ci,j)i+j≤n avec leurprojection future C = (Ci,j)i+j>n

Le montant de provisions est alors la diérence entre ce que l'on pensepayer pour chaque année de survenance (la dernière colonne) et que ce l'ona déjà payé (la seconde diagonale)

> ultimate <- TRIANGLE.D[,6]*(1+0.00)

> payment.as.at <- diag(TRIANGLE.D[,6:1])

> RESERVES <- ultimate-payment.as.at

> cat("Total reserve =",RESERVES)

Total reserve = 0.000 22.391 35.793 65.677 153.368 2149.656

2.3. DE MACK À MERZ & WÜTHRICH 69

On note qu'ici sum(RESERVES) vaut 2426.885, ce qui correspond au mon-tant total de réserves qu'il convient d'allouer.

Un algorithme plus rapide est d'utiliser directement la formule basée surle produit des coecients de transition. On a alors

> DIAG <- diag(triangle[,n:1])

> PRODUIT <- c(1,rev(LAMBDA))

> sum((cumprod(PRODUIT)-1)*DIAG))

> 2426.885

2.3 De Mack à Merz & Wüthrich

La méthode dite Chain Ladder, que nous venons de voir, est une méthodedite déterministe, au sens où l'on ne construit pas de modèle probabilistepermettant de mesurer l'incertitude associée à la prédiction du montant desréserves. Diérents modèles ont été proposés à partir des années 90, à partirdu modèles de Mack, jusqu'à l'approche proposée par Merz & Wüthrich quiintroduira la notion d'incertitude à un an.

2.3.1 Quantier l'incertitude dans une prédiction

Nous avons obtenu, par la méthode Chain Ladder un estimateur du mon-tant de provision, R. Classiquement, pour quantier l'erreur associée à unestimateur, on calcul la mean squared error - mse - associée,

E([R−R]2)

Formellement, comme R est ici une variable aléatoire, on ne parle pas demse, mais de mse de prédiction, notée msep (on ne prédit pas sur les donnéespassées, mais on utilisera les donnéees pour calibrer un modèle qui serviraensuite à faire de la prédiction pour les années futures). Aussi

msep(R) = E([R−R]2).

Ce terme peut se décomposer en deux (en faisant une approximation aupremier ordre), au sens où

E([R−R]2) ≈ E([R− E(R)]2)︸︷︷︸mse(R)

+ E([R− E(R)]2)︸︷︷︸Var(R)

où le terme de gauche est l'erreur d'estimation, compte tenu du fait que nousavons dû estimer le montant de provisions à partir de la partie supérieuredu triangle, et le terme de droite est l'erreur classique de modèle (tout mo-dèle comportant une partie résiduelle orthogonale aux observations, et doncimprévisible).


En fait, en toute rigueur (et nous en aurons besoin par la suite), oncherche plutôt à calculer un msep conditionnel à l'information dont on dis-pose au bout de n années,

msepn(R) = E([R−R]2|Hn).

2.3.2 Le formalisme de Mack

[20] a proposé un cadre probabiliste an de justier l'utilisation de laméthode Chain-Ladder. Pour cela, on suppose que (Ci,j)j≥0 est un processusMarkovien, et qu'il existe λ = (λj) et σ = (σ2

j ) tels queE(Ci,j+1|Hi+j) = E(Ci,j+1|Ci,j) = λj · Ci,jVar(Ci,j+1|Hi+j) = Var(Ci,j+1|Ci,j) = σ2

j · Ci,j

On note que sous ces hypothèses,

E(Ci,j+k|Hi+j) = E(Ci,j+k|Ci,j) = λj · λj+1 · · ·λj+k−1Ci,j

[20] rajoute une hypothèse supplémentaire d'indépendance entre les annéesde survenance, autrement dit (Ci,j)j=1,...,n et

(Ci′,j

)j=1,...,n

sont indépendant

pour tout i 6= i′.Une réécriture du modèle est alors de supposer que

Ci,j+1 = λjCi,j + σj√Ci,j + εi,j

où les résidus (εi,j) sont i.i.d. et centrés. A partir de cette écriture, il peutparaître légitime d'utiliser les méthodes des moindres carrés pondérés pourestimer ces coecients, en notant que les poids doivent être inversementproportionnels à la variance, autrement dit aux Ci,j , i.e. à j donné, on chercheà résoudre

min

n−j∑i=1

1Ci,j

(Ci,j+1 − λjCi,j)2

Pour tester ces deux premières hypothèses, on commence par représenter

les C·,j+1 en fonction des C·,j à j donné. Si la première hypothèse est vériée,les points doivent être alignés suivant une droite passant par l'origine.

> j=1

> plot(PAID[,j],PAID[,j+1],pch=19,col="red",cex=1.5)

> abline(lm(PAID[,j+1]~0+PAID[,j]),col="blue",lwd=2)

La Figure 2.1 montre ainsi les nuages de points pour j=1 et j=2.Pour la seconde, on peut étudier les résidus standardisés ([20] parle de

weighted residuals), εi,j =Ci,j+1 − λjCi,j√

Ci,j.


3500 4000 4500 5000

4500

5000

5500

6000

6500

PAID[, j]

PAID

[, j +

1]

4500 5000 5500 6000 6500

4500

5000

5500

6000

PAID[, j]

PAID

[, j +

1]

Figure 2.1 Nuage de points C·,j+1 en fonction des C·,j pour j = 1, 2, etdroite de régression passant par l'origine.

> j=1

> RESIDUS <- (PAID[,j+1]-LAMBDA[j]*PAID[,j])/sqrt(PAID[,j])

L'utilisation des résidus standardisés nous donnent d'ailleurs une idéesimple pour estimer le paramètre de volatilité.

σ2j =

1n− j − 1

n−j−1∑i=0

(Ci,j+1 − λjCi,j√

Ci,j

)2

ce qui peut aussi s'écrire

σ2j =

1n− j − 1

n−j−1∑i=0

(Ci,j+1

Ci,j− λj

)2

·Xi,j

(ce qui est à rapprocher de l'écriture du facteur de transition λ commemoyenne pondérée des facteurs de transitions observés).

> SIGMA=sqrt(SIGMA)

> f <- PAID[,2:n]/PAID[,1:(n-1)]

> SIGMA <- rep(NA,n-1)

> for(i in 1:(n-1))

+ D <- PAID[,i]*(f[,i]-t(rep(LAMBDA[i],n)))^2

+ SIGMA[i] <- 1/(n-i-1)*sum(D[,1:(n-i)])

> SIGMA[n-1] <- min(SIGMA[(n-3):(n-2)])


> SIGMA=sqrt(SIGMA)

> cat("Volatilite =", SIGMA)

Volatilite = 0.7248578 0.3203642 0.04587297 0.02570564 0.02570564

Cette méthode permet d'estimer les diérents paramètres intervenantsdans le modèle de [20].

2.3.3 La notion de tail factor

Classiquement on suppose que la première ligne de notre triangle estclose : il n'y a plus de sinistres ouverts, et donc le montant de provision pourcette année de survenance est nul. Cette ligne servira de base pour tous lesdéveloppements ultérieurs. Cette hypothèse peut être un peu trop forte pourles branches à déroulement long. [21] a posé les bases des premiers modèlestoujours utilisés. On supposera qu'il existe alors un λ∞ > 1 tel que

Ci,∞ = Ci,n × λ∞.

Une méthode qui a souvent été utilisée a reposé sur l'idée que l'on pouvaitprojeter les λi par une extrapolation exponentielle (ou une extrapolationlinéaire des log(λk − 1)), puis on pose

λ∞ =∏k≥n

λk

Mais mieux vaut faire attention, en particulier s'il y a des valeurs aberrantes.

> logL <- log(LAMBDA-1)

> tps <- 1:5

> modeL <- lm(logL~tps)

> tpsP <- seq(6:1000)

> logLP <- predict(modeL,newdata=data.frame(tps=tpsP))

> lambda <- prod(exp(logLP)+1)

> lambda

> cat("Facteur moyen =", lambda)

Facteur moyen = 1.146162

Autrement dit, cette méthode prévoit de rajouter 14% de charge parrapport à la prédiction faite par les méthodes classiques, en supposant lapremière année close.

2.3.4 Des estimateurs des paramètres à l'incertitude sur lemontant des provisions

A partir de tous ces estimateurs, on peut estimer le msep du montant deprovision par année de survenance, Ri, mais aussi agrégé, toutes années desurvenances confondues. Les formules sont données dans [21] ou [7].


On peut aussi utiliser la fonction MackChainLadder delibrary(ChainLadder).

> library(ChainLadder)

> MackChainLadder(PAID)

MackChainLadder(Triangle = PAID)

Latest Dev.To.Date Ultimate IBNR Mack.S.E CV(IBNR)

1 4,456 1.000 4,456 0.0 0.000 NaN

2 4,730 0.995 4,752 22.4 0.639 0.0285

3 5,420 0.993 5,456 35.8 2.503 0.0699

4 6,020 0.989 6,086 66.1 5.046 0.0764

5 6,794 0.978 6,947 153.1 31.332 0.2047

6 5,217 0.708 7,367 2,149.7 68.449 0.0318

Totals

Latest: 32,637.00

Ultimate: 35,063.99

IBNR: 2,426.99

Mack S.E.: 79.30

CV(IBNR): 0.03

On retrouve l'estimation du montant total de provisions R, IBNR, quivaut 2,426.99, ainsi que msep(R) correspondant au Mack S.E. qui vaut ici79.30. Les informations par année de survenance i sont indiqués dans lapremière partie du tableau.

On obtient également plusieurs graphiques en utilisant la fonctionplot(), correspondant aux Figures 2.2, 2.3 et 2.4

2.3.5 Un mot sur Munich-Chain Ladder

La méthode dite Munich-Chain-Ladder, developpée dans [27], proposed'utiliser non seulement les paiements cumulés, mais aussi une autre infor-mation disponible : l'estimation des charges des diérents sinistres faites parles gestionnaires de sinistres. Les triangles de paiements étaient basés surdes mouvements nanciers ; ces triangles de charges sont basées sur des es-timations faites par des gestionnaires compte tenu de l'information à leurdisposition. Les sinistres tardifs ne sont pas dedans, et certains sinistres se-ront classés sans suite. Toutefois, il peut paraître légimite d'utiliser cetteinformation.

Dans la méthode Munich-Chain-Ladder, on dispose des triangles (Ci,j)correspond aux incréments de paiments, et (Γi,j) aux charges dites dos-sier/dossier. En reprenant les notations de [27] on dénie les ratio paie-


1 2 3 4 5 6

Forecast

Latest

Mack Chain Ladder Results

Origin period

Va

lue

01

00

02

00

03

00

04

00

05

00

06

00

07

00

0

1 2 3 4 5 6

40

00

50

00

60

00

70

00

Chain ladder developments by origin period

Development period

Am

ou

nt

1

1 1 1 1 1

2

2 2 2 2

3

3 3 3

4

44

5

5

6

Figure 2.2 Comparaison entre la charge nale estimée et la somme déjàpayée, à gauche, et les cadences de paiements prédites par la méthode ChainLadder.

ment/charge, et charge/paiement,

Qi,j =Ci,jΓi,j

et Q−1i,j =

Γi,jCi,j

Comme dans le modèle Chain-Ladder de base, on suppose queE(Ci,j+1|FC

i+j) = λCj Ci,j et Var(Ci,j+1|FC

i+j) = [σCj ]2Ci,j

E(Γi,j+1|FΓi+j

) = λΓj Γi,j et Var(Γi,j+1|FΓ

i+j) = [σΓ

j ]2Γi,j

On rajoute également une information sur les λi,j . Si

λCi,j−1 =Ci,jCi,j−1

et λΓi,j−1 =

Γi,jΓi,j−1

on suppose que

E(λCi,j−1|Fi+j) = λCj−1 + λC√Var(λCi,j−1|FCi+j) ·

Q−1i,j−1 − E(Q−1

i,j−1|Fi+jC )√Var(Q−1

i,j−1|Fi+jC )

et

E(λΓi,j−1|Fi+j) = λΓ

j−1 + λΓ√Var(λΓ

i,j−1|Fi+j)Γ ·Qi,j−1 − E(Qi,j−1|Fi+jΓ)√

Var(Qi,j−1|Fi+jΓ)


4500 5000 5500 6000 6500

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Fitted

Standardised residuals

1 2 3 4 5

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Origin period


Figure 2.3 Evolution des résidus standardisés en fonction des Ci,j et desi.

On notera qu'il s'agit d'une extension du modèle Chain-Ladder, et enparticulier

E(λΓi,j−1|FCi+j) = E[E(λΓ

i,j−1|Fi+j)|Fi+j)C ] = λCj−1.

Les termes λC et λΓ sont alors simplement des coecients de corrélationconditionnelle. Plus précisément

λC = Cor(Γi,j−1, Ci,j |FCi+j−1)

Sous ces hypothèses, il est possible de construire des estimateurs sansbiais de E(Ci,j |Ci,j−1), de E(Γi,j |Γi,j−1), de E(Qi,j |FΓ

i+j) et de E(Q−1i,j |FCi+j).

Pour estimer les deux dernières quantités, posons

Qj =∑nj

i=0Ci,j∑nj

i=0 Γi,j=

1

Q−1j

On peut aussi estimer les variances conditionnelles. Par exemple

Var(Qi,j ||FΓi+j) = ()−1

n−j∑i=0

Γi,j [Qi,j − Qj ]2


1 2 3 4 5

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Calendar period


1.0 1.5 2.0 2.5 3.0 3.5 4.0−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Development period


et une expression analogue pour Var(Q−1i,j |FCi+j).

A partir de ces quantités, posons enn

Qi,j =Qi,j − Qj√

Var(Qi,j |FΓi+j)

,

λΓi,j =

√Γi,j−1

[σIj−1]2[λi,j−1 − λj−1]

et

λΓ =

∑Qi,j−1λ

Γi,j∑

Q2i,j−1

L'estimateur Munich-Chain-Ladder est construit de manière intérative. Ledétails des formules est donné dans [27] ou [33].

> (MNCL=MunichChainLadder(Paid=PAID,

+ Incurred=INCURRED))

MunichChainLadder(Paid = PAID, Incurred = INCURRED)

Latest Paid Latest Incurred Latest P/I Ratio Ult. Paid Ult. Incurred Ult. P/I Ratio

1 4,456 4,456 1.000 4,456 4,456 1

2 4,730 4,750 0.996 4,753 4,750 1


0 1 2 3 4 50 4795 4629 4497 4470 4456 44561 5135 4949 4783 4760 47502 5681 5631 5492 54703 6272 6198 61314 7326 70875 7353

Table 2.7 Triangle des estimations de charges dossier/dossier cumulées,Γ = (Γi,j)

3 5,420 5,470 0.991 5,455 5,454 1

4 6,020 6,131 0.982 6,086 6,085 1

5 6,794 7,087 0.959 6,983 6,980 1

6 5,217 7,353 0.710 7,538 7,533 1

Totals

Paid Incurred P/I Ratio

Latest: 32,637 35,247 0.93

Ultimate: 35,271 35,259 1.00

De même que pour la fonction MackChainLadder, plusieurs graphiquespeuvent être obtenus an de mieux comprendre les évolutions des paiements,mais aussi de la charge dossier/dossier estimée par les gestionnaires de si-nistres, présentés sur les Figures 2.5 et 2.6.

Si on compare les deux triangles, qui ont été complétés en tenant comptedes interactions, on obtient des choses relativement proches,

> MNCL$MCLPaid

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 3209 4372.000 4411.000 4428.000 4435.000 4456.000

[2,] 3367 4659.000 4696.000 4720.000 4730.000 4752.569

[3,] 3871 5345.000 5398.000 5420.000 5429.716 5455.324

[4,] 4239 5917.000 6020.000 6046.090 6057.284 6085.875

[5,] 4929 6794.000 6890.045 6932.247 6949.447 6982.539

[6,] 5217 7251.382 7419.621 7478.759 7502.149 7538.194

> sum(MNCL$MCLPaid[,6]-diag(MNCL$MCLPaid[,6:1]))

[1] 2633.502

> MNCL$MCLIncurred

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 4975 4629.000 4497.00 4470.000 4456.000 4456.000

[2,] 5135 4949.000 4783.00 4760.000 4750.000 4750.415

[3,] 5681 5631.000 5492.00 5470.000 5454.691 5454.445


MCL Paid

MCL Incurred

Munich Chain Ladder Results

origin period

Am

ou

nts

01

00

02

00

03

00

04

00

05

00

06

00

07

00

0

1 2 3 4 5 6

Mack P/I

MCL P/I

Munich Chain Ladder vs. Standard Chain Ladder

origin period

%

02

04

06

08

01

00

Figure 2.5 Comparaison des méthodes Chain Ladder, et Munich ChainLadder, en montant à gauche, et en valeurs relatives à droite.

[4,] 6272 6198.000 6131.00 6100.978 6084.986 6084.770

[5,] 7326 7087.000 6988.37 6984.274 6979.284 6979.732

[6,] 7353 7349.795 7493.64 7522.809 7532.206 7533.461

> sum(MNCL$MCLIncurred[,6]-diag(MNCL$MCLPaid[,6:1]))

[1] 2621.823

2.3.6 L'incertitude à un an de Merz & Wüthrich

[24] ont étudier la variation du boni/mali d'une année sur l'autre, c'est àdire du changement dans la prédiction de la charge totale. Ils ont en parti-culier montré que

msepcn−1(CDRi(t)) = C2i,∞

(Γi,n + ∆i,n

)où

∆i,n =σ2n−i+1

λ2n−i+1S

n+1n−i+1

+n−1∑

j=n−i+2

(Cn−j+1,j

Sn+1j

)2σ2j

λ2jS

nj

et

Γi,n =

(1 +

σ2n−i+1

λ2n−i+1Ci,n−i+1

)n−1∏

j=n−i+2

(1 +

σ2j

λ2j [S

n+1j ]2

Cn−j+1,j

)− 1


−2 −1 0 1 2

−2

−1

01

2

Paid residual plot

Paid residuals

Incu

rre

d/P

aid

re

sid

ua

ls

−2 −1 0 1 2

−2

−1

01

2

Incurred residual plot

Incurred residuals

Pa

id/I

ncu

rre

d r

esid

ua

ls

Figure 2.6 Corrélations entre les triangles de développement des paie-ments, et des charges dossier/dossier.

[24] ont alors approché ce terme par

Γi,n ≈σ2n−i+1

λ2n−i+1Ci,n−i+1

+n−1∑

j=n−i+2

(Cn−j+1,j

Sn+1j

)2σ2j

λ2jCn−j+1,j

en faisant tout simplement un développement de la forme∏

(1 + ui) ≈ 1 +∑ui, mais qui n'est valide que si ui est petit, soit ici

σ2j

λ2j

<< Cn−j+1,j .

Ces fonctions peuvent être obtenues à l'aide de la fonction MSEP_Mack_MW

obtenue à l'aide de source(MackMerzWuthrich.R). Pour expliquer rapide-ment les principales fonctions utilisées, il faut commencer par nir les ma-trices Gamma et Delta. Mais avant tout, initialement les matrices et vecteursqui nous serviront par la suite,

I <- nrow(PAID)

J <- ncol(PAID)

diag <- diag_inv <- Phi <- Psi <- Delta <- Lambda <- Epsilon <- matrix(NA,I,1)

S_I <- S_II <- matrix(NA,1,J)


cov_obs <- cov_reel <- matrix(0,I,J)

msep_obs <- msep_reel <- matrix(NA,1,J+1)

Delta[1] <- Phi[1] <- Psi[1] <- Epsilon[1] <- Lambda[1] <- 0

Le plus simple est alors d'utiliser les sorties de MackChainLadder,

> Mack<-MackChainLadder(PAID)

> Mack$sigma[J-1] <- sqrt(min(Mack$sigma[J-2]^4/Mack$sigma[J-3]^2,

+ min(Mack$sigma[J-2]^2,Mack$sigma[J-3]^2)))

> for (i in 1:I)

+ diag[i] = PAID[i,I-i+1]

+ diag_inv[i] = PAID[I-i+1,i]

+

> for (j in 1:J)

+ S_I[j] <- sum(PAID[1:(I-j),j])

+ S_II[j] <- sum(PAID[1:(I-j+1),j])

+

> S_I[I] <- 0

> Delta[2] <- Mack$sigma[I-1]^2/(S_I[I-1]*(Mack$f[I-1])^2)

> Phi[2] <- 0

> Psi[2] <- Mack$sigma[I-1]^2/(diag[2]*(Mack$f[I-1])^2)

> Epsilon[2] <- Mack$sigma[I-1]^2/(S_II[I-1]*(Mack$f[I-1])^2)

> Lambda[2] <- diag[2]*Mack$sigma[I-1]^2/((Mack$f[I-1]^2)*

+ S_II[I-1]*S_I[I-1])

pour les première valeurs. On fait ensuite une boucle pour incrémenter lesvecteurs,

> for (i in 3:I)

+ Delta[i] <- Mack$sigma[I-i+1]^2/(S_I[I-i+1]*(Mack$f[I-i+1])^2) + sum(

+ (diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2*

+ Mack$sigma[(I-i+2):(J-1)]^2/(S_I[(I-i+2):(J-1)]*

+ (Mack$f[(I-i+2):(J-1)])^2))

+ Phi[i] <- sum((diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2*

+ Mack$sigma[(I-i+2):(J-1)]^2/(diag_inv[(I-i+2):(J-1)]*

+ (Mack$f[(I-i+2):(J-1)])^2))

+ Psi[i] <- Mack$sigma[I-i+1]^2/(diag[i]*(Mack$f[I-i+1])^2)

+ Epsilon[i] <- Phi[i] + Mack$sigma[I-i+1]^2/(S_II[I-i+1]*

+ (Mack$f[I-i+1])^2)

+

+ Lambda[i] <- diag[i]*Mack$sigma[I-i+1]^2/((Mack$f[I-i+1]^2)*

+ S_II[I-i+1]*S_I[I-i+1]) + sum(

+ (diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2*

+ Mack$sigma[(I-i+2):(J-1)]^2/(S_I[(I-i+2):(J-1)]*

+ (Mack$f[(I-i+2):(J-1)])^2))


+

> Gamma = Phi + Psi

Une fois ces matrices dénies, on peut calculer les mse de prédiciton parannée de survenance

for (i in 1:I)

msep_obs[i] = Mack$FullTriangle[i,J]^2 * (Gamma[i] + Delta[i])

msep_reel[i] = Mack$FullTriangle[i,J]^2 * (Phi[i] + Delta[i])

Pour l'incertitude associée au montant total de provision (toutes annéesconfondues), il faut rajouter quelques calculs de covariance,

for (i in 2:(I-1))

for (k in (i+1):I)

cov_obs[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*(Upsilon[i] + Lambda[i])

cov_reel[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*(Phi[i] + Lambda[i])

On en déduit alors le mse de prédiction pour R,

> msep_obs[I+1] = sum(msep_obs[2:I]) + 2*sum(cov_obs)

> msep_reel[I+1] = sum(msep_reel[2:I]) + 2*sum(cov_reel)

Cette méthode correspond à l'approximation proposée par [24]. Pour fairele calcul exact, quelques petits changements sont à apporter (mais assezmineurs)

> facteur <- matrix(1,I,1)

> Phi_exact[2] <- Psi_exact[2] <- 0

> Gamma_exact[2] <- Mack$sigma[I-1]^2/(diag[I-1]*(Mack$f[I-1])^2)

> Epsilon_exact[2] <- Mack$sigma[I-1]^2/(S_II[I-1]*(Mack$f[I-1])^2)

> for (i in 3:I)

+ facteur[i] <-prod(1 + diag_inv[(I-i+2):(J-1)]*(Mack$sigma[(I-i+2):(J-1)]^2)/

+ ((S_II[(I-i+2):(J-1)]*Mack$f[(I-i+2):(J-1)])^2))

+ Phi_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2))*

+ (facteur[i]-1)

+ Psi_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(S_II[i]*(Mack$f[I-i+1])^2)) * Phi[i] /

+ (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2))

+ Epsilon_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(S_II[I-i+1]*(Mack$f[I-i+1])^2))*

+ facteur[i]-1

+ Gamma_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2))*

+ facteur[i]-1

+


ce qui permet d'obtenir la vraie valeur de Γi,n, stochée dans le vecteurGamma_exact. A partir de là, on peut calculer les mse de prédiction, commeprécédemment,

> for (i in 1:I)

+ msep_obs_exact[i] = Mack$FullTriangle[i,J]^2 * (Gamma_exact[i] + Delta[i])

+ msep_reel_exact[i] = Mack$FullTriangle[i,J]^2 * (Phi_exact[i] + Delta[i])

+

> for (i in 2:(I-1))

+ for (k in (i+1):I)

+ cov_obs_exact[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*

+ (Upsilon_exact[i] + Lambda[i])

+ cov_reel_exact[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*

+ (Psi_exact[i] + Lambda[i])

+

> msep_obs_exact[I+1] <- sum(msep_obs_exact[2:I]) + 2*sum(cov_obs_exact)

> msep_reel_exact[I+1] <- sum(msep_reel_exact[2:I]) + 2*sum(cov_reel_exact)

> msep_Mack <- array(0,c(1,I+1))

> msep_Mack[1:I] <- Mack$Mack.S.E[,I]

> msep_Mack[I+1] <- Mack$Total.Mack.S.E

> Vari <- array(0,c(1,I+1))

> for (i in 1:I)

+ Vari[i] <- Mack$FullTriangle[i,J]^2 * Psi[i]

+

> Vari[I+1] <- sum(Vari[1:I])

On dispose alors de l'ensemble des éléments permettant d'avoir une vision àun an de l'incertitude,

> result <- cbind(t(msep_Mack), t(sqrt(msep_obs)), t(sqrt(msep_obs_exact)))

> result <- as.data.frame(result)

> names(result) <- c("MSEP Mack","MSEP MW app.","MSEP MW ex.")

> result

MSEP Mack MSEP MW app. MSEP MW ex.

1 0.0000000 0.000000 0.000000

2 0.6393379 1.424131 1.315292

3 2.5025153 2.543508 2.543508

4 5.0459004 4.476698 4.476698

5 31.3319292 30.915407 30.915407

6 68.4489667 60.832875 60.832898

7 79.2954414 72.574735 72.572700

2.4. RÉGRESSION POISSONNIENNE ET APPROCHES ÉCONOMÉTRIQUES83

2.4 Régression Poissonnienne et approches écono-

métriques

Dans cette section, nous nous éloignerons des modèles récursifs inspirésde la méthode Chain Ladder, et nous reviendrons sur des classes de modèlestrès utilisés dans les années 70, appelés modèles à facteurs, remis au goûtdu jour en proposant une lecture économétrique de ces modèles, permettantainsi d'obtenir des intervalles de conance des diérentes grandeurs.

2.4.1 Les modèles à facteurs, un introduction historique

Avant de présenter l'utilisation des modèles de régression, on peut com-mencer par évoquer des modèles plus anciens. Par exemple Taylor (1977)supposait que

Yi,j = rj · µi+j , pour tout i, j

i.e. un eet colonne, de cadence de paiement, et un eet diagonal, que Taylorinterprète comme un facteur d'ination. Ce modèle peut se réécrire, dès lorsqu'il n'y a pas d'incrément positif,

log Yi,j = αi + γi+j

qui prend alors une forme linéaire. On montrera par la suite que le cas

log Yi,j = αi + βj

s'apparent à un modèle de type Chain-Ladder. En eet, cela suppose que

Yi,j = ai × bj

que l'on peut rapprocher du modèle de développement Yi,j = Ci,n × ϕj . [34]avait également proposé d'utiliser une courbe d'Hoerl, c'est à dire

log Yi,j = αi + βi · log(j) + γi · j.

2.4.2 Les modèles de de Vylder et de Chritophides

Les équations normales s'écrivent ici

αi =

∑j Yi,j βj∑j β

2j

et βj =∑

i Yi,jαi∑i α

2i

,

ce qui ne résoud pas explicitement. Pour le résoudre, [4] a suggéré de leréécrire comme un modèle log-linéaire, i.e.

log Yi,j ∼ N (ai + bj , σ2), pour tout i, j


> an <- 6; ligne <- rep(1:an, each=an); colonne <- rep(1:an, an)

> INC <- PAID

> INC[,2:6] <- PAID[,2:6]-PAID[,1:5]

> Y <- as.vector(INC)

> lig <- as.factor(ligne)

> col <- as.factor(colonne)

> reg <- lm(log(Y)~col+lig)

> summary(reg)

Call:

lm(formula = log(Y) ~ col + lig)

Coefficients:


(Intercept) 7.9471 0.1101 72.188 6.35e-15 ***

col2 0.1604 0.1109 1.447 0.17849

col3 0.2718 0.1208 2.250 0.04819 *

col4 0.5904 0.1342 4.399 0.00134 **

col5 0.5535 0.1562 3.543 0.00533 **

col6 0.6126 0.2070 2.959 0.01431 *

lig2 -0.9674 0.1109 -8.726 5.46e-06 ***

lig3 -4.2329 0.1208 -35.038 8.50e-12 ***

lig4 -5.0571 0.1342 -37.684 4.13e-12 ***

lig5 -5.9031 0.1562 -37.783 4.02e-12 ***

lig6 -4.9026 0.2070 -23.685 4.08e-10 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1


(15 observations deleted due to missingness)


F-statistic: 391.7 on 10 and 10 DF, p-value: 1.338e-11

On peut alors simplement utiliser cette régression pour construire le tri-angle de base du modèle, Yi,j = exp[ai + bj ] (la partie inférieure droiteconstituant la prédiction). Comme nous l'avions noté dans la Section 1.4.1,cet estimateur est toutefois biaisé,

> logY <- predict(reg,newdata=data.frame(lig,col))

> INCpred <- matrix(exp(logY),an,an)

> INCpred

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 2827.436 1074.641 41.02692 17.99380 7.721706 21.00000

[2,] 3319.436 1261.638 48.16599 21.12488 9.065354 24.65419


[3,] 3710.527 1410.282 53.84084 23.61379 10.133422 27.55892

[4,] 5102.488 1939.333 74.03860 32.47222 13.934856 37.89732

[5,] 4917.944 1869.193 71.36081 31.29779 13.430869 36.52667

[6,] 5217.000 1982.857 75.70020 33.20098 14.247588 38.74783

Le montant de provision prédit est ici

> cat("Total reserve =",sum(exp(logY[is.na(Y)==TRUE])))

Total reserve = 2444.02

ce qui est un légèrement diérent de la prédiction obtenue par la méthodeChain Ladder. Si l'on corrige du biais (car exp(E(log(Y ))) 6= E(Y )), onobtient alors

> sigma=summary(reg)$sigma

> INCpred <- matrix(exp(logY+sigma^2/2),an,an)

> INCpred

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 2871.209 1091.278 41.66208 18.27237 7.84125 21.32511

[2,] 3370.826 1281.170 48.91167 21.45193 9.20570 25.03588

[3,] 3767.972 1432.116 54.67438 23.97937 10.29030 27.98557

[4,] 5181.482 1969.357 75.18483 32.97495 14.15059 38.48403

[5,] 4994.082 1898.131 72.46559 31.78233 13.63880 37.09216

[6,] 5297.767 2013.554 76.87216 33.71498 14.46816 39.34771

> cat("Total reserve =",sum(exp(logY[is.na(Y)==TRUE]+sigma^2/2)))


2.4.3 La régression poissonnienne de Hachemeister & Sta-nard

[12], [18] et enn [19] ont montré que dans une régression log-Poissonsur les incréments, la somme des prédictions des paiments à venir correspondà l'estimateur Chain Ladder. On retrouve ici un résultat pouvant être reliéà la méthode des marges présentée dans la section 1.3.2.

> library(statmod)

> an <- 6; ligne <- rep(1:an, each=an); colonne <- rep(1:an, an)

> passe <- (ligne + colonne - 1)<=an; np <- sum(passe)

> futur <- (ligne + colonne - 1)> an; nf <- sum(passe)

> INC <- PAID

> INC[,2:6] <- PAID[,2:6]-PAID[,1:5]

> Y <- as.vector(INC)

> lig <- as.factor(ligne)

> col <- as.factor(colonne)

> CL <- glm(Y~lig+col, family=quasipoisson)


> summary(CL)

Call:

glm(formula = Y ~ lig + col, family = quasipoisson)

Deviance Residuals:


-2.3426 -0.4996 0.0000 0.2770 3.9355

Coefficients:


(Intercept) 8.05697 0.02769 290.995 < 2e-16 ***

lig2 -0.96513 0.02427 -39.772 2.41e-12 ***

lig3 -4.14853 0.11805 -35.142 8.26e-12 ***

lig4 -5.10499 0.22548 -22.641 6.36e-10 ***

lig5 -5.94962 0.43338 -13.728 8.17e-08 ***

lig6 -5.01244 0.39050 -12.836 1.55e-07 ***

col2 0.06440 0.03731 1.726 0.115054

col3 0.20242 0.03615 5.599 0.000228 ***

col4 0.31175 0.03535 8.820 4.96e-06 ***

col5 0.44407 0.03451 12.869 1.51e-07 ***

col6 0.50271 0.03711 13.546 9.28e-08 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for quasipoisson family taken to be 3.18623)

Null deviance: 46695.269 on 20 degrees of freedom

Residual deviance: 30.214 on 10 degrees of freedom

(15 observations deleted due to missingness)

AIC: NA


Il y a ici un 2n − 1 paramètres à estimer, γ, = (c1, · · · , cn−1) et= (r1, · · · , rn−1). Compte tenu du choix des facteurs (ici un facteur ligner et un facteur colonne c), une fois estimés ces paramètres, il est possible deprédire la partie inférieure du triangle très simplement, i.e.

Yi,j = µi,j = exp[γ + ri + cj ]

> mu.hat1 <- exp(predict(CL,newdata=data.frame(lig,col)))*futur

> cat("Total reserve =", sum(mu.hat1))


> mu.hat2 = predict(CL,newdata=data.frame(lig,col),type="response")*futur


> cat("Total reserve =", sum(mu.hat2))


On retrouve ici l'estimateur obtenu par la méthode Chain-Ladder.La valeur de référence est la valeur dans le coin supérieur gauche. Compte

tenu de la forme logarithmique du modèle, on a une interprétation simple detoutes les valeurs, relativement à cette première valeur

E(Yi,j |Fn) = E(Y0,0|Fn) · exp[ri + cj ].

Remarque 2.1 Dans certains triangle, il n'est pas rare d'avoir des incré-ments négatifs.

2.4.4 Incertitude dans un modèle de régression

Nous avions noté auparavant qu'obtenir une estimation du montant desinistres restant à payer ne susait pas, et qu'il fallait avoir un intervalle deconance, au au moins une mesure de la dispersion du vrai montant autourde cette valeur prédite.

Les formules économétriques fermées

Les modèles de régressions pourraient paraître très intéressants car ilexiste des formules fermés pour toutes sortes de prédiction. Par exemple,dans une régression GLM avec un lien logarithmique, rappelons que

E(Yi,j |Fn) = µi,j = exp[ηi,j ]

ou encoreYi,j = µi,j = exp[ηi,j ].

La delta method nous permet d'écrire que

Var(Yi,j) ≈∣∣∣∣∂µi,j∂ηi,j

∣∣∣∣2 ·Var(ηi,j),ce qui se simplie dans le cas où le lien est logarithmique, i.e.

∂µi,j∂ηi,j

= µi,j

Aussi, pour une loi de Poisson surdispersée (comme dans [28]),

E(

[Yi,j − Yi,j ]2)≈ φ · µi,j + µ2

i,j · Var(ηi,j)

pour la partie inférieure du triangle. De plus, car il sera nécessaire de sommertous les termes de la partie inférieure du triangle pour déterminer le montanttotal de provisions,

Cov(Yi,j , Yk,l) ≈ µi,j · µk,l · Cov(ηi,j , ηk,l).


Le montant de provision que lon cherche à estimer étant la somme des pré-dictions de paiements à venir, R =

∑i+j>n Yi,j , alors

E(

[R− R]2)≈

∑i+j>n

φ · µi,j

+ µ′ · Var(η) · µ

Remarque 2.2 Cette formule est malheureusement asymptotique, ce qui estrarement le cas en provisionnement où l'on dispose de très peu de données.

Pour programmer cette formule, il faut écarter (un peu articiellement)les valeurs manquantes.

> Y2 <- Y; Y2[is.na(Y)] <- .001

> CL2 <- glm(Y2~lig+col, family=quasipoisson)

> p <- 2*an-1;

> phi.P <- sum(residuals(CL,"pearson")^2)/(np-p)

> Sig <- vcov(CL)

> X <- model.matrix(CL2)

> Cov.eta <- X%*%Sig%*%t(X)

> mu.hat <- exp(predict(CL,newdata=data.frame(lig,col)))*futur

> pe2 <- phi.P * sum(mu.hat) + t(mu.hat) %*% Cov.eta %*% mu.hat

> cat("Total reserve =", sum(mu.hat), "mse =", sqrt(pe2),"\n")

Total reserve = 2426.985 mse = 131.7726

Les méthodes de simulations

Les méthodes de simulation sont une bonne alternative si on dispose detrop peu de données pour invoquer des théorèmes asymptotiques. Rappelons,comme le notait [20] qu'il existe 2 sources d'incertitude,

l'erreur de modèle (on parle de process error) l'erreur d'estimation (on parle de variance error)Il sera alors nécessaire d'utiliser deux algorithmes pour quantier ces

deux erreurs.An de quatier l'erreur d'estimation, il est naturel de simuler des faux

triangles (supérieurs), puis de regarder la distribution des estimateurs demontant de provisions obtenus pour chaque triangles (par exemple par laméthode Chain Ladder, à l'aide de la fonction chainladder développée au-paravant). A l'étape b, on génère un pseudo triangle à l'aide des résidus dePearson. Rappelons que pour une régression de Poisson,

εi,j =Yi,j − mi,j√

mi,j

.

En simulant des erreurs (qui sont supposées indépendantes et identiquementdistribuée), εb = (εbi,j), on pose alors

Y bi,j = mi,j +

√mi,j · εbi,j .


Pour générer des erreurs, la méthode la plus usuelle est d'utiliser une simula-tion nonparamétrique, c'est à dire que l'on va bootstrapper les résidus parmiles pseudorésidus obtenus. Sinon il est aussi possible d'utiliser un modèleparamétrique (par exemple supposer une loi normale, même si rien théo-riquement ne justie cette méthode). La distribution des résidus peut êtreobtenue par le code suivant :

> CL <- glm(Y~lig+col, family=quasipoisson)

> residus=residuals(CL,type="pearson")

> par(mfrow = c(1, 2))

> hist(residus,breaks=seq(-3,5,by=.5),col="light green",proba=TRUE)

> u=seq(-4,5,by=.01)

> densite=density(residus)

> lines(densite,col="blue",lwd=1.5)

> lines(u,dnorm(u,mean(residus),sd(residus)),lty=2,col="red")

> plot(ecdf(residus))

> lines(u,pnorm(u,mean(residus),sd(residus)),lty=2,col="red")

> Femp=cumsum(densite$y)/sum(densite$y)

> lines(densite$x,Femp,,col="blue",lwd=1.5)

Densité

Résidus

−2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

−2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Fonction de répartition

Résidus

Figure 2.7 Histogramme et densité des résidus (à gauche) et fonctions derépartition (à droite), avec l'ajustement Gaussien en pointillés.

Les triangles obtenus peuvent être visualisés sur la gure 2.4.4Une fois simulé un pseudo triangle d'incréments de paiments, on prédit

un montant de provision Rb (par exemple via une méthode Chain Ladder).La variance des Rb correspond à l'erreur d'estimation.


0 1 2 3 4 50 0.948 -1.128 -1.533 -0.489 -0.427 0.0001 0.024 0.277 -2.213 0.792 0.4142 0.116 0.056 -1.024 -0.2973 -1.082 0.891 4.2374 0.130 -0.2115 0.000

Table 2.8 Le triangle des résidus de Pearson, εi,j = µ−1/2i,j · [Yi,j − µi,j ].

An de prendre en compte l'erreur de modèle, plusieurs méthodespeuvent être utilisées. La première, et la plus simple, consiste à noter qu'àpartir du pseudo triangle Y b

i,j , peut obtenir des prédictions pour la partie in-

férieure, Y bi,j . Compte tenu du modèle Poissonnien, on peut alors simuler une

trajectoire possible d'incréments de paiements en simulant les Y bi,j à l'aide

de loi de Poisson de paramètre Y bi,j . Le code est alors le suivant

> CLsimul1=function(triangle)

+ triangles=rpoisson(length(triangle),lambda=triangle)

+ return(sum(ULT-DIAG))

La seconde méthode est d'utiliser une relecture du modèle de [20], pro-posée par [8]. A partir du pseudo triangle, on va utiliser les facteurs dedéveloppement λj et les variances associés σ2

j obtenus sur le triangle initial.On prolonge alors le triangle dans la partie inférience via le modèle dyna-mique

Cbi,j+1|Cbi,j ∼ N (λjCbi,j , σ2j C

bi,j).

Le code est alors le suivant, où triangle est un triangle de paiements cu-mulés, l correspond à un vecteur de facteurs de développement, et s à unvecteur de volatilités,

> CLsimul2=function(triangle,l,s)

+ m=nrow(triangle)

+ for(i in 2:m)

+ triangle[(m-i+2):m,i]=rnorm(i-1,

+ mean=triangle[(m-i+2):m,i-1]*l[i-1],

+ sd=sqrt(triangle[(m-i+2):m,i-1])*s[i-1])

+

+ ULT=triangle[,m]

+ DIAG=diag(triangle[,m:1])

+ return(sum(ULT-DIAG))


2.4.5 Le modèle binomial-négative

Ce modèle a été proposé par [31]. On suppose ici que

E(Xi,j |Fj−1) = [λj−1 − 1] · Ci,j−1

Var(Xi,j |Fj−1) = λj−1[λj−1 − 1] · Ci,j−1

Pour rappels, la régression binomiale négative se fait à l'aide de la fonc-tion glm.nb de library(MASS), ou l'option model = "negbin" dans la fonc-tion Zelig.

2.4.6 Quel modèle de régression ?

Comme nous l'avons mentionné dans le premier chapitre, deux para-mètres fondamentaux interviennent dans une régression linéaire généralisée,

la fonction lien, qui lie la prédiction aux facteurs, ici Yi,j =E(Yi,j |Fn) = exp[γ + αi + βj ],

la loi ou la fonction variance, qui donne la forme de l'intervalle deconance, ici Var(Yi,j |Fn) = φ · E(Yi,j |Fn),

L'unique motivation du modèle précédent est qu'il permet d'obtenir exac-tement le même montant que la méthode Chain Ladder. Mais aucun critèrestatistique n'a été évoqué, pour l'instant, an de légitimer ce modèle.

Les modèles Tweedie sont une famille de surmodèle, incluant le modèlePoissonnien. On suppose que

la fonction lien, est une fonction puissance, ou plutôt une tranforméede Box-Cox, Yi,j = g−1

λ [γ + αi + βj ] où gλ(x) = λ−1[xλ − 1] si λ > 0avec le cas limite g0(x) = log(x).

la fonction variance, qui donne la forme de l'intervalle de conance, iciVar(Yi,j |Fn) = φ · E(Yi,j |Fn)µ

où les paramètres λ et µ sont inconnus.La densité 1 d'une loi Tweedie de paramètre mu est ici

> ftweedie = function(y,p,mu,phi)

+ if(p==2)f = dgamma(y, 1/phi, 1/(phi*mu)) else

+ if(p==1)f = dpois(y/phi, mu/phi) else

+ lambda = mu^(2-p)/phi /(2-p)

+ if(y==0) f = exp(-lambda) else

+ alpha = (2-p)/(p-1)

+ beta = 1 / (phi * (p-1) * mu^(p-1))

+ k = max(10, ceiling(lambda + 7*sqrt(lambda)))

+ f = sum(dpois(1:k,lambda) * dgamma(y,alpha*(1:k),beta))

+

+ return(f)

1. où le terme densité s'entend au sens large, à savoir une probabilité dans le cas discret.


An de juger de la pertinance de l'ajustement, on peut calculer la log-vraisemblance du modèle, en gardant un lien logarithmique par exemple (cequi est parfois plus simple au niveau numérique, mais aussi au niveau del'interprétation),

> pltweedie <- function(puissance)

+ regt = glm(Y~lig+col, tweedie(puissance,0))

+ reserve = sum(fitted.values(regt)[!passe])

+ dev = deviance(regt)

+ phi.hat = dev/n

+ mu = fitted.values(regt)[passe]

+ hat.logL = 0

+ for (k in 1:length(Y))

+ hat.logL <- hat.logL + log(ftweedie(Y[k], puissance, mu[k], phi.hat))

+ cat("Puissance =", round(puissance,3), "phi =", round(phi.hat,2),

+ "Reserve (tot) =", round(reserve), "logL =", round(hat.logL,3),"\n")

Si on calcule la log-vraisemblance pour 5 valeurs, comprises entre 1 et2 (correspondant respectivement au cas d'une régression Poisson et une ré-gression Gamma), on obtient

> library(statmod)

> for(puissance in c(1,1.25,1.5,1.75,2))pltweedie(puissance)

Puissance = 1 phi = 166.95 Reserve (tot) = 1345 logL = -Inf

Puissance = 1.25 phi = 42.92 Reserve (tot) = 1216 logL = -151.72



Puissance = 2 phi = 6.78 Reserve (tot) = 125 logL = -170.614

La Figure 2.8 permet de visualiser l'inuence du paramètre de la puis-sance de la fonction variance. La Figure montre aussi l'évolution du montantde provision R,

Si l'on souhaite garder un lien logarithmique, le paramètre le plus vrai-semblance pour la fonction variance est entre 1 et 2, µ = 1.38,

> optimize(pltweedie, c(1.01,1.99), tol=1e-4,maximum = TRUE)


2.5 Les triangles multivariés

Comme nous l'avions expliqué dans l'introduction, l'utilisation des tri-angles, et des méthodes de cadences de paiements, n'est possible que siles triangles sont stables, et homogènes. Or il n'est pas rare qu'un trianglecomporte des risques relativement diérents dans leur développement. Parexemple en assurance auto, les accidents matériels et corporels sont sensible-ment diérents.

2.5. LES TRIANGLES MULTIVARIÉS 93

puissance de la fonction variance

1.0 1.2 1.4 1.6 1.8 2.0

200

400

600

800

1000

1200

x

−50

0−

450

−40

0−

350

−30

0−

250

−20

0−

150

Mon

tant

de

prov

isio

ns

log−

vrai

sem

blan

ce

Figure 2.8 Évolution de la log-vraisemblance prolée en fonction de µ etmontant de provision R estimé par GLM (avec un lien logarithmique).

2.5.1 Hypohtèse d'indépendance entre les triangles, et loisparamétriques

En s'insiprant de l'idée de [20], on peut supposer que Ri suive une loiLN(µi, σ2

i ) pour i = 1, 2. Si l'on suppose les risques indépendant, la loi de lasomme est simplement la convolée des deux lois. On peut utiliser les famillesde distribution au format S4 et la library(distr). Rappelons que pour siX ∼ LN(µ, σ2),

µ = log[E(X)]− 12

log(

1 +Var(X)E(X)2

)et σ2 = log

(1 +

Var(X)E(X)2

).

A partir des moyennes et variances - données par la méthode de [20] parexemple - on en déduit les lois des deux montants de provision. Si on supposeque les deux triangles sont indépendants, alors

> library(distr)

> V=MackChainLadder(P.mat)$Total.Mack.S.E^2

> E=sum(MackChainLadder(P.mat)$FullTriangle[,n]-

+-diag(MackChainLadder(P.mat)$FullTriangle[n:1,]))

> mu = log(E) - .5*log(1+V^2/E^2)

> sigma2 = log(1+V^2/E^2)

> LM = Lnorm(meanlog=mu,sdlog=sqrt(sigma2))

> V=MackChainLadder(P.corp)$Total.Mack.S.E^2

> E=sum(MackChainLadder(P.corp)$FullTriangle[,n]-


+ diag(MackChainLadder(P.corp)$FullTriangle[n:1,]))

> mu = log(E) - .5*log(1+V^2/E^2)


> LC = Lnorm(meanlog=mu,sdlog=sqrt(sigma2))

> LT=LM+LC

On peut alors comparer la loi convolée, et la loi lognormale ajustée sur letriangle cumulé,

> P.tot = P.mat + P.corp

> library(ChainLadder)

> V=MackChainLadder(P.tot)$Total.Mack.S.E

> E=sum(MackChainLadder(P.tot)$FullTriangle[,n]-

+ diag(MackChainLadder(P.tot)$FullTriangle[n:1,]))

> mu = log(E) - .5*log(1+V^2/E^2)


> u=seq(0,qlnorm(.95,mu,sqrt(sigma2)),length=1000)

> vtotal=dlnorm(u,mu,sqrt(sigma2))

> vconvol=d(LT)(u)

> plot(u,vtotal)

> lines(u, vconvol)

250000 300000 350000 400000 450000 500000 550000

0.0e

+00

5.0e

−06

1.0e

−05

1.5e

−05

Montant de provision, total

Loi lognormale sur le triangle cumuléConvolution des lois lognormales

Figure 2.9 Distribution du montant de provision R = R1 + R2.

Les quantiles à 95% sont alors respectivement

> cat("Quantile convolée =",q(LT)(.95))

Quantile convolée = 434615.9

2.5. LES TRIANGLES MULTIVARIÉS 95

> cat("Quantile lognormal =",qlnorm(.95,mu,sqrt(sigma2)))

Quantile lognormal = 467686.8

pour la loi convolée et pour la somme des deux triangles. Deux interprétationssont alors possibles : supposer les triangles comme étant indépendants estprobablement une hypothèse trop forte et travailler sur un triangle agrégé(et donc peu homogène) introduit une incertitude supplémentaire.

2.5.2 Le modèle de Mack bivarié

[26] a proposé une méthode de type Chain-Ladder dans un cadre multi-varié. On note

λi,j = (λ(k)i,j ) où λ(k)

i,j =C

(k)i,j

C(k)i,j−1

et Ci,j = (C(k)i,j ) ∈ RK On suppose qu'il existe λj =∈ RK

E[Ci,j |Ci,j−1] = (λj−1) ·Ci,j−1

et

Cov[Ci,j ,Ci,j |Ci,j−1] = (√Cj−1) ·Σj−1 · (

√Cj−1)

Alors sous ces hypothèses, comme dans le cas univarié, on peut écrire

E[Ci,n|Ci,n−i] =n−1∏j=n−i

(λj)Ci,n−i.

L'estimateur du facteur de transition est

λj =

[n−j−1∑i=0

(√i,j) ·Σ−1j · (

√i,j)

]−1

·n−j−1∑i=0

(√i,j) ·Σ−1j · (

√i,j)λi,j+1

L'estimateur Chain-Ladder de la charge ultime est

Ci,n =n−1∏j=n−i

(λj)Ci,n−i.

Cet estimateur vérie les mêmes propriétés que dans le cas univarié. Enparticulier, cet estimateur est un estimateur sans biais de E[Ci,n|Ci,n−i]mais aussi de E[Ci,n].

Il est aussi possible de calculer les mse de prédiction.


2.5.3 Modèles économétriques pour des risques multiples

L'idée dans les modèles économétriques est de supposer que les résiduspeuvent être corrélés,

> ligne = rep(1:n, each=n); colonne = rep(1:n, n)

> passe = (ligne + colonne - 1)<= n

> PAID=P.corp; INC=PAID

> INC[,2:n]=PAID[,2:n]-PAID[,1:(n-1)]

> I.corp = INC

> PAID=P.mat; INC=PAID

> INC[,2:n]=PAID[,2:n]-PAID[,1:(n-1)]

> I.mat = INC

> Ym = as.vector(I.mat)

> Yc = as.vector(I.corp)

> lig = as.factor(ligne)

> col = as.factor(colonne)

> base = data.frame(Ym,Yc,col,lig)

> regm=glm(Ym~col+lig,data=base,family="poisson")

> regc=glm(Yc~col+lig,data=base,family="poisson")

> res.corp=residuals(regc,type="pearson")

> res.mat=residuals(regm,type="pearson")

> plot(res.corp,res.mat)

−20 0 20 40

−60

−40

−20

020

4060

résidus de Pearson, sinistres corporels

rési

dus

de P

ears

on, s

inis

tres

mat

érie

l

Figure 2.10 Nuage de points de résidus de Pearson, obtenus sur un modèlelog-Poisson, (εmatériel

i,j , εcorporeli,j ).

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LESMÉTHODES BAYÉSIENNES97

On notera que la corrélation n'est pas nulle.

> cat("Corrélation des résidus =",cor(res.mat,res.corp))

Corrélation des résidus = 0.2957895

Une fois notée qu'il existe probablement une dépendance entre les deuxtriangles, il semble légitime de la prendre en compte dans les algorithmes desimulations évoqués dans la partie 2.4.4.

pour l'erreur d'estimation, quand on tire les résidus, on ne les tirepas indépendement dans les deux triangles. On tire alors les paires derésidus (εmatériel,b

i,j , εcorporeli,j , b) pour l'erreur, on peut tirer une loi de Poisson bivariée si onutilise une régression Poissonnienne bivariée (implémentée danslibrary()bivpois ou un vecteur Gaussien bivarié.

Dans le second cas,(Cmatérieli,j+1

Ccorporeli,j+1

)∼ N

((λmj C

matérieli,j

λcjCcorporeli,j

),

(σm2j Cmatériel

i,j ?

? σc2j Ccorporeli,j

))

2.6 Borhutter-Fergusson, Benktander et les mé-

thodes bayésiennes

Les deux premières méthodes que nous allons voir ont souvent été propo-sées comme une alternative à la méthode Chain Ladder, car elles introduisentun a priori sur la charge ultime.

2.6.1 Le modèle de Borhutter-Ferguson et l'introductiond'un avis d'expert

Classiquement, on continue ici à supposer que les années de survenance sont indépendantes les unes des autres il existe µi et des facteurs de développement β1, β2, · · · , βn - avec βn =

1 - tels queE(Ci,1) = β1µi

E(Ci,j+k|Ci,1, · · · , Ci,j) = Ci,j + [βj+k − βj ]µi

Sous ces hypothèses, pour tout i, j E(Ci,j) = βjµi. Ce qui peut rappeler lesmodèles à facteurs évoqués auparavant. Sauf qu'ici, seul β = (β1, β2, · · · , βn)sera à estimer statistiquement, µ = µi étant obtenu par avis d'expert, µi étantun estimateur de E(Ci,n). Moyennant ces deux estimations, on en déduitl'estimateur de E(Ci,n|Ci,1, · · · , Ci,j) de la forme

Ci,n = Ci,j + [1− βj−i]µi


L'estimateur proposé par Bornhutter-Ferguson est alors simplement ob-tenu à partir de la méthode Chain-Ladder, en posant

βj =n∏

k=j+1

1

λk

Enn, pour estimer µi, on suppose disposer d'un ratio sinistre/prime cible,par exemple de 105%, par année de survenance. Dans ces conditions, on peutalors estimer simplement le montant de provision,

> mu <- 1.05*PREMIUM

> beta <- rev(cumprod(rev(1/LAMBDA)))

> Cdiag = diag(PAID[,n:1])

> Cultime <- Cdiag+(1-c(1,rev(beta)))*mu

> cat("Total reserve =",Cultime-Cdiag)

Total reserve = 0.00 23.12 33.49 58.98 131.26 1970.45

i 0 1 2 3 4 5prime 4591 4692 4863 5175 5673 6431µi 4821 4927 5106 5434 5957 6753λi 1,380 1,011 1,004 1,002 1,005βi 0,708 0,978 0,989 0,993 0,995Ci,n 4456 4753 5453 6079 6925 7187Ri 0 23 33 59 131 1970

Table 2.9 Estimation du montant de provision par Borhutter-Ferguson,avec un ratio sinistres/primes de 105%.

2.6.2 Benktander

L'estimateur de [3], repris quelques années plus tard par [14], reposesur un estimateur a priori de la charge ultime Ci,n, noté µi. On supposeégalement qu'il existe une cadence de paiemments β = (β1, · · · , βn), connue,telle que

E(Ci,j) = µiβj

Sous ces hypothèses, le montant de provision devrait être

Ri = Ci,n − Ci,n−i = [1− βn−i]µi

Au lieu de se baser uniquement sur µi, [3] avait proposé un estimateurcrédibilisé de la charge ultime, de la forme

βn−iCCLi,n + [1− βn−i]µi


Il s'agit d'utiliser l'estimateur Chain-Ladder, moyenné avec l'estimation apriori de la charge ultime. Alors

RBHi = Ci,n − Ci,n−i = [1− βn−i]

(βn−iC

CLi,n + [1− βn−i]µi

)On notera que

RBHi = (1− βn−i)CBF

i

si la cadence β = (β1, · · · , βn) est construite à partir des facteurs de déve-loppement induits par la méthode Chain-Ladder. Une autre écriture de cetteexpression est d'écrire la charge ultime (et non plus le montant de provision),

CBHi = Ci,n−i + (1− βn−i)CBF

i = βn−iCCLi + (1− βn−i)CBF

i

ce qui permet de voir la prédiction de Benktander comme une combinaisonconvexe des estimateurs Chain-Ladder et de Bornhuetter-Ferguson.

2.6.3 La méthode dite Cape-Code

Dans cette approche, on utilise là encore un avis d'expert. L'idée est deréécrire l'expression

Ci,n = Ci,n−i +(

1− Ci,n−iCi,n

)Ci,n

sous la forme

Ci,n = Ci,n−i +(

1− Ci,n−iCi,n

)LRi · Pi,

où LRi correspond au loss ratio pour l'année i, i.e. LRi = Ci,n/Pi. L'idée dela méthode dite Cape-Code est d'écrire une forme plus générale,

Ci,n = Ci,n−i + (1− πn−i)LRiPi

où πn−i correspond à une cadence de paiement, et peut être estimé parla méthode Chain Ladder. Quant aux LRi il s'agit des loss ratio cibles,correspondant à un avis d'expert. On peut aussi proposer un même ratiocible pour plusieurs années de survenance. On posera alors

Ri = Ci,n − Ci,n−i = (1− πn−i)LRAPi.

pour i ∈ A, où

LRA =∑

k∈ACn,n−k∑k∈A πn−kPk

.

Dans un premier temps, on peut calculer les πi à partir de la méthodeChain Ladder, i.e.

πn−i =Ci,n−iCi,n

où la charge ultime est celle prédite pas la méthode Chain-Ladder.


> (PI <- 1-Cdiag/Cultime)

[1] 0.000000 0.004713 0.006559 0.010855 0.022036 0.291809

> LR=TRIANGLE[,6]/PREMIUM

> Cdiag <- diag(PAID[,n:1])

> Cultime <- TRIANGLE[,6]

> cat("Coef. PI =", (Cultime-Cdiag)/(LR*PREMIUM))

Coef. PI = 0.00000 0.00471 0.00656 0.01085 0.02204 0.29181

Si on suppose ensuite que A = 1, 2, · · · , n, alors

> LR=sum(TRIANGLE[,6])/sum(PREMIUM)

> cat("Total reserve =", PI*LR*PREMIUM)

Total reserve = 0.0000 24.5832 35.6120 62.7199 139.5729 2095.2682

On obtient ici un montant de provision total inférieur à celui obtenu par laméthode Chain Ladder puisque sum(R) vaut ici 2357.756.

2.6.4 Les approches Bayésiennes

Les approches Bayésiennes ont été popularisées en sciences actuariellespar la théorie de la crédibilité, correspondant à une approche Bayésiennedans un cadre linéaire. Mais il est possible d'aller plus loin.

Classiquement, supposons que l'on s'intéresse à dont la loi serait f(·|θ),où très généralement, = (Yi,j) et θ = (θi,j). peut être ici le triangle despaiements cumulés , le triangle des incréments , ou le triangle des coecientsde transition des cadences de paiements λ =i,j+1 /i,j .

Exemple 2.1 Dans l'approche de [20], θj = (λj , σ2j ).

Application aux cadences de paiements

Ici, on s'intéresse à la loi de λ, qui dépendra de θ = (θj) où θj = (γj , σ2j ),

où, pour des simplicités de notations (et éviter de confondre avec les λi,j) onnote γj le facteur de développement sous-jacent.

λi,j |(γj , σ2j ) ∼

(γj ,

σ2j

Ci,j

)

Ici, σ2 ne sont pas les paramètres d'intérêt, et sont supposés estimés sépa-rément (comme nous le faisions déjà dans les modèles linéaires généralisés).Quant aux Ci,j , ils sont interprétés ici comme des poids, et sont supposésconnus. La log-vraisemblance est ici

logL(λ|γ) =∑i,j

12

(log

[Ci,j−1

σ2j

]− Ci,j−1

σ2j

[λi,j − γj ]2).


En utilisant la formule de Bayes, la log-densité de γ conditionnelle aux λ estsimplement

log[g(γ|λ)] = log[π(γ)] + log[L(λ|γ)] + constante,

où π(·) est une loi a priori de γ (par exemple un vecteur Gaussien).

L'algorithme de Gibbs et généralisations

On cherche ici à générer un ensemble de vecteurs aléatoires γ =(γ1, · · · , γm) ∈ Rm. Contrairement aux méthodes de Monte Carlo où l'oncherche à générer des vecteurs indépendants les uns des autres, on va es-sayer de construire une suite de manière récurente, vériant des propriétésd'ergodicité.

On part d'un vecteur initial γ(0) = (γ(0)1 , · · · , γ(0)

m ), par exemple les va-leurs obtenues par la méthode Chain Ladder puis on génère, de manièreitérée

γ(k+1)1 ∼ f(·|γ(k)

2 , · · · , γ(k)m , λ)

γ(k+1)2 ∼ f(·|γ(k+1)

1 , γ(k)3 , · · · , γ(k)

m , λ)γ

(k+1)3 ∼ f(·|γ(k+1)

1 , γ(k+1)2 , γ

(k)4 , · · · , γ(k)

m , λ)...

γ(k+1)m−1 ∼ f(·|γ(k+1)

1 , γ(k+1)2 , γ

(k+1)m−2 , γ

(k)m , λ)

γ(k+1)m ∼ f(·|γ(k+1)

1 , γ(k+1)2 , · · · , γ(k+1)

m−1 , λ)

Ces lois conditionnelles n'ayant pas forcément de forme simple, l'algo-rithme de metropolis (d'acceptation-rejet) peut alors être utiliser pour simu-ler ces diérentes lois conditionnelle.

La méthode de rejet est basé sur l'idée suivante on souhaite tirer (indépendemment) suivant une loi f , qu'on ne saitpas simuler

on sait simuler suivant une loi g qui vérie f(x) ≤ Mg(x), pour toutx, où M peut être calculée.

L'agorithme pour tirer suivant f est alors le suivant répéter tirer Y selon la loi g tirer U selon la loi uniforme sur [0, 1], indépendamment de Y ,

tant que U >f(Y )Mg(Y )

.

poser X = Y .

Exemple 2.1 On peut utiliser cette technique pour simuler une loi normaleà partir d'une loi de Laplace (qui est une variable exponentielle avec un signepositif ou négatif), de densité g(x) = 0.5 · exp(−|x|), avec M =

√2eπ−1.

Mais cet algorithme est très coûteux en temps s'il y a beaucoup de rejets,


comme le montre le code suivant : ici, on note que l'on perd près du quartdes simulations.

> n=1000

> Y=rexp(n)* sample(c(-1,1),size=n,replace=TRUE)

> U=runif(n)

> dlaplace=function(x).5*exp(-abs(x))

> M=sqrt(2*exp(1)/pi)

> test=U<dnorm(Y)/(M*dlaplace(Y))

> mean(test)

[1] 0.761

> X=Y[test==TRUE]

> plot(density(X))

> curve(dnorm(x),add=TRUE,col="red",lty=2,xlab="")

Figure 2.11 Simulation d'une variable Gaussienne par une méthode derejet basée sur une loi de Laplace.

L'adaptative rejection sampling est une extension de cet algorithme, àcondition d'avoir une densité log-concave. On parle aussi de méthode descordes. On majore localement la fonction log f par des fonctions linéaires,autrement dit, on construit alors une enveloppe à log f . On majore alors fpar une fonction gn constituées de n fonctions linéaires par morceaux, commele montre la gure 2.12

Formellement, on construit Li,j(x) la droite reliant les points(xi, log(f(xi))) et (xj , log(f(xj))). On pose alors

hn(x) = min Li−1,i(x), Li+1,i+2(x) ,

qui dénie alors une enveloppe de log(f) (par concavité de log(f). On utilisealors un algorithme de rejet avec comme fonction de référence

gn(x) =exp(hn(x))∫exp(hn(t))dt

normalisée pour dénir une densité.

L'algorithme est alors le même que précédemment, à savoir répérer tirer Y selon la loi gn tirer U selon la loi uniforme sur [0, 1], indépendamment de Y ,

tant que U >f(Y )

exp(hn(Y )).

poser X = Y .


−6 −4 −2 0 2 4 6 8

−20

−15

−10

−5

05

Figure 2.12 Majoration d'une log-densité par des fonctions linéaires parmorceaux.

Enn, dans le cas des densités non log-concave, il est possible de rajou-ter une étape. En eet, dans la construction précédente, la fonction hn esttoujours un majorant, mais ce n'est plus forcément une enveloppe de log(f).Il sut alors de rajouter une étape de rejet supplémentaire.

Le plus simple est d'implémenter un algorithme de Gibbs, c'est à direcréer une suite de variables X1, X2, · · · par un processus itératif, Markovien.Les variables ne sont plus indépendantes, mais en invoquant des résultatsd'ergodicité, les calculs de moyennes, de quantiles, ou de lois marginalesrestent valides.

Supposons que l'on dispose deXk−1. Pour tirerXk, on utilise l'algorithmeprécédant, et la nouvelle étape de rejet est la suivante

tirer U selon la loi uniforme sur [0, 1], indépendamment de X et deXk−1,

si U > min

1,f(X) minf(Xk−1), exp(hn(Xk−1))f(Xk−1) minf(X), exp(hn(X))

alors garder

Xk = Xk−1

sinon poser Xk = X

Ces fonctions exponentielles par morceaux sont inéressantes car elles sontfaciles à simuler. La fonction hn est linéaires par morceaux, avec commenoeuds Nk, de telle sorte que

hn(x) = akx+ bk pour tout x ∈ [Nk, Nk+1].


Alors gn(x) =exp(hn(x))

Inoù

In =∫

exp(hn(t))dt =∑ exp[hn(Nk+1)]− exp[hn(Nk)]

ak.

On calcule alors Gn, la fonction de répartition associée à gn, et on fait utiliseune méthode d'inversion pour tirer suivant Gn.

2.6.5 Approche bayésienne sur les facteurs de développe-ment

En s'inspirant de la relecture du modèle de [20],

Cbi,j+1|Cbi,j ∼ N (λjCbi,j , σ2j C

bi,j).

nous pouvons supposer que les facteurs de développements λi,j suivent uneloi lognormale, comme le suggérait [2].

La Figure 2.13 montre la simulation de 1000 valeurs R de montant deprovision, par cette méthode. La série n'est pas i.i.d. mais elle vérie despropriétés d'ergodicité qui autorisent en particulier l'étude de la distributiondu montant de provision.

Pour implémenter la méthode Bayésienne, il faut commencer par dénirla fonction de log-vraisemblance associé au vecteur de facteurs de transition,noté ici g,

> Log_Ln<-function(g,C=PAID,sigma2=SIGMA^2,f=PAID[,2:n]/PAID[,1:(n-1)])

+ s=0

+ for(i in 1:(n-1))

+ for(j in 1:(n-i))

+ s<-s+0.5*(log(C[i,j]/sigma2[j])-(C[i,j]/sigma2[j])*

+ (f[i,j]-exp(g[j]))^2)

+ return(s)

Commençons par initialiser les valeurs,

gamma<-log(LAMBDA)

Mat_parametres<-gamma

parametres<-gamma

n_it<-1

On fait alors une boucle dénie par unwhile(n_it <= nb_iteration_gibbs*length(parametres)). A chaqueitération de la boucle, on commence par initialiser la valeur à échantillonner,

rg_var<-n_it-trunc(n_it/length(parametres))*length(parametres)+1

Xcur<-parametres[rg_var]

n_seg<-20


On crée alors la segmentation de l'intervalle,

t1<-colSums(f+C[,1:ncol(C)-1]*matrix(rep(sigma2,nrow(f)),nrow(f),ncol(f),

byrow = TRUE)-f,na.rm =TRUE)

t2<-(colSums(f+C[,1:ncol(C)-1]-f,na.rm =TRUE))^2

V_gamma<-1/lambda^2*t1/t2

X_inf<-gamma-coef*sqrt(V_gamma)

X_sup<-gamma+coef*sqrt(V_gamma)

X<-seq(0,n_seg-1)

X<-X_inf[rg_var]+X/(n_seg-1)*(X_sup[rg_var]-X_inf[rg_var])

X<-sort(X)

La première étape importante de l'algorithme est de simuler un vecteurXu à partir de gn,

step1<-FALSE

while(step1==FALSE)

lg_vrais<-function(x,rg_var.)

param<-parametres

param[rg_var.]<-x

Log_Ln(param)

y<-lg_vrais(X[1],rg_var)

for(k in 2:n_seg)y<-cbind(y,lg_vrais(X[k],rg_var))

Y<-y[1,]

a=(Y[2:n_seg]-Y[1:(n_seg-1)])/(X[2:n_seg]-X[1:(n_seg-1)])

b=Y[1:(n_seg-1)]-a*X[1:(n_seg-1)]

X_int=-(b[3:length(b)]-b[1:(length(b)-2)])/(a[3:length(b)]-b[1:(length(b)-2)])

Y_int=a[1:(length(b)-2)]*X_int+b[1:(length(b)-2)]

X2=X

Y2=Y

for (k in 1:length(X_int))

if(X_int[k]>=X[k+1] & X_int[k]<=X[k+2])

if(Y_int[k]>=a[k+1]*X_int[k]+b[k+1])

X2<-c(X2,X_int[k])

Y2<-c(Y2,Y_int[k])

M<-rbind(X2,Y2)

M<-M[,order(M[1,])]

X2<-M[1,]

Y2<-M[2,]

a2=(Y2[3:(length(Y2)-1)]-Y2[2:(length(Y2)-2)])/(X2[3:(length(Y2)-1)]

-X2[2:(length(Y2)-2)])

b2=Y2[2:(length(Y2)-2)]-a2*X2[2:(length(Y2)-2)]

if(Y[1]>=a[2]*X[1]+b[2])


a2<-c(a[1],a2)

b2<-c(b[1],b2)

else

a2<-c(a[2],a2)

b2<-c(b[2],b2)

if(Y[n_seg]>=a[n_seg-2]*X[n_seg]+b[n_seg-2])

a2<-c(a2,a[n_seg-1])

b2<-c(b2,b[n_seg-1])

else

a2<-c(a2,a[n_seg-2])

b2<-c(b2,b[n_seg-2])

temp<-(exp(Y2[2:length(Y2)])-exp(Y2[1:length(Y2)-1]))/a2

m_n=sum(temp)

G_n=rep(0,length(X2))

for(k in 1:length(temp))

G_n[k+1]<-G_n[k]+temp[k]/m_n

U<-runif(1,0,1)

k_Xu<-1

while(G_n[k_Xu+1]<=U) k_Xu<-k_Xu+1

Xu<-1/a2[k_Xu]*(log((U-G_n[k_Xu])*m_n*a2[k_Xu]+exp(Y2[k_Xu]))-b2[k_Xu])

Pour faire un algorithme de rejet, on tire ensuite une loi uniformeU<-runif(1,0,1), et on peut ensuite lancer la seconde étape de l'algorithme

val<-exp(lg_vrais(Xu,rg_var))/exp(a2[k_Xu]*Xu+b2[k_Xu])

lg_vrais(Xu,rg_var)

if (U>val)

n_seg<-n_seg+1

X<-c(X,Xu)

sort(X)

else

Xa=Xu

step1<-TRUE

La troisième étape est l'algorithme d'Hastings-Metropolis, autrement diton pose U<-runif(1,0,1), puis la procédure est la suivante

k_Xcur<-1

while(X2[k_Xcur+1]<=Xcur& k_Xcur+1<=length(X2)) k_Xcur<-k_Xcur+1

k_Xa<-1

while(X2[k_Xa+1]<=Xa & k_Xa+1<=length(X2)) k_Xa<-k_Xa+1

num<-exp(lg_vrais(Xa,rg_var))*min(exp(lg_vrais(Xcur,rg_var))

,exp(a2[k_Xcur]*Xcur+b2[k_Xcur]))

denom<-exp(lg_vrais(Xcur,rg_var))*min(exp(lg_vrais(Xa,rg_var))


,exp(a2[k_Xa]*Xa+b2[k_Xa]))

if (U>min(1,num/denom))

Xm<-Xcur elseXm<-Xa

parametres[rg_var]<-Xm

if(rg_var==length(parametres)) Mat_parametres<-rbind(Mat_parametres,parametres)

n_it<-n_it+1

Ce qui constitue la n de la boucle. On dispose alors d'une matrice de pa-ramètres Mat_parametres, que l'on va utiliser pour obtenir un vecteur demontant de provisions par année de survenance,

for (k in 1:nrow(Mat_parametres))

lambda_hat<-exp(Mat_parametres[k,])

Mat_prov<-C

for(l in (n+2):(n+n))

i_dep<-l-n

for (i in i_dep:n)

a<-lambda_hat[l-i-1]^2*Mat_prov[i,l-i-1]/sigma2[l-i-1]

s<-sigma2[l-i-1]/lambda_hat[l-i-1]

Mat_prov[i,l-i]<-rgamma(1,shape = a,scale = s )

last<-rep(0,n)

for (i in 1:n)

last[i]<-Mat_prov[i,n+1-i]

Res<-t(Mat_prov[,n])-last

if(k==1)Mat_res<-cbind(Res,sum(Res))

if(k>1)Mat_res<-rbind(Mat_res,cbind(Res,sum(Res)))

Toute l'information est alors dans le vecteur Mat_res. Un ensemble de simu-lations du montant total apparait dans la dernière ligne de Mat_res.

Tout le code précédant peut être obtenu à l'aide de la commandesource(bayes-triangle).

> source(bayes-triangle)

> plot(B$reserves[,6])

> abline(h=2426.88)

> apply(B$reserves,2,mean)

[1] 0.00000 22.46982 35.78285 66.30972 152.50063 2150.45450 2427.51752

La Figure 2.14 montre ainsi la distribution du montant de provision ob-tenu par cet algorithme, ainsi que les ordres de grandeurs des quantiles à95%, 99% et 99.5%.

En iterant cette fonction, on peut d'ailleurs noter que l'estimation duquantile à 95% est relativement robuste, avec 10 000 tirages.


0 200 400 600 800 1000

2200

2300

2400

2500

2600

2700

iteration

rese

rves

(to

tal)

Figure 2.13 Génération d'une suite de montants de provisions R.

2100 2200 2300 2400 2500 2600 2700

0.00

00.

001

0.00

20.

003

0.00

40.

005

reserves (total)

2500 2550 2600 2650 2700 2750

0.90

0.92

0.94

0.96

0.98

1.00

reserves (total)

Figure 2.14 Distribution du montants de provisions R, et estimation duquantile à 95%.


0 2000 4000 6000 8000 10000

2500

2520

2540

2560

2580

2600

95%

Val

ue−

at−

Ris

k

Figure 2.15 Convergence du quantile à 95% du montant de provision.


Bibliographie

[1] R.A. Bailey. Insurance rates with minimum bias. Proceedings of theSociety of Actuaries, 50 :411, 1963.

[2] N. Balson. Mesure d'incertitude sur l'estimation des provisions de si-nistres en Assurance Non Vie. Institut des Actuaires - ENSAE, 2008.

[3] G. Benktander. An approach to credibility in calculating ibnr for ca-sualty excess reinsurance. Actuarial Review, 3 :731, 1976.

[4] S. Christodes. Regression models based on log-incremental payments.In Institute of Actuaries, editor, Claims Reserving Manual, 1989.

[5] A.C. Davison and E.J. Snell. Residuals and diagnostics. In N. ReidD.V. Hinkley and E.J. Snell, editors, Statistical Theory and Modelling.Chapman and Hall.

[6] P. de Jong and G.H. Zeller. Generalized Linear Models for InsuranceData. Cambridge University Press, 2008.

[7] M. Denuit and A. Charpentier. Mathématiques de l'assurance non-vie :Tarication et provisionnement. Tome 2. Economica, 2005.

[8] P. D. England and R. J. Verrall. Analytic and bootstrap estimatesof prediction errors in claims reserving. Insurance : Mathematics andEconomics, 25 :281293, 1999.

[9] E.W. Frees. Regression modeling with actuarial and nancial applica-tions. Cambridge University Press, 2009.

[10] J. Friedman. Multivariate additive regression splines. Annals of Statis-tics, 19(1) :167, 1991.

[11] H.U. Gerber and E.S.W. Shiu. Option pricing by esscher transforms.Transactions of the Society of Actuaries Society of Actuaries, 46 :99191, 1994.

[12] C. A. Hachemeister and J. N. Stanard. Ibnr claims count estimationwith static lag functions. In 12th ASTIN Colloquium, Portimao, Portu-gal, 1975.

[13] T. Hastie and R. Tibshirani. Generalized Additive Models. Chapmanand Hall, 1990.

111

112 BIBLIOGRAPHIE

[14] E. Hovinen. Additive and continuous ibnr. In ASTIN Colloquium, Loen,Norway, 1981.

[15] C. M. Hurvich and C.-L. Tsai. Model selection for extended quasi-likelihood models in small samples. Biometrics, 51 :10771084, 1995.

[16] J. Jung. On automobile insurance ratemaking. ASTIN Bulletin, 5 :4148, 1968.

[17] M. ; Dhaene J. Kaas, R. ; Goovaearts and M. Denuit. Modern ActuarialRisk Theory. Springer Verlag, 2009.

[18] E. Kremer. Ibnr claims and the two-way model of anova. ScandinavianActuarial Journal, pages 4755, 1982.

[19] T. Mack. A simple parametric model for rating automobile insuranceor estimating ibnr claims reserves. ASTIN Bulletin, 21 :93109, 1991.

[20] T. Mack. Distribution-free calculation of the standard error of chain-ladder reserve estimates. ASTIN Bulletin, 15 :133138, 1993.

[21] T. Mack. The standard error of chain-ladder reserve estimates : Recur-sive calculation and inclusion of a tail factor. ASTIN Bulletin, 29 :361366, 1993.

[22] P. McCullagh and J.A. Nelder. Generalized Linear Models. CRC Press,1991.

[23] R.J. McDonald, J.B. Butler. Regression models for positive randomvariables. Journal of Econometrics, 43 :227251, 1990.

[24] M. Merz and M. V Wüthrich. Modelling the claims development resultfor solvency purposes. CAS E-Forum, pages 542568, 2008.

[25] E. Ohlsson and B. Johansson. Non-life insurance pricing with Genera-lized Linear Models. Springer Verlag, 2010.

[26] C. Pröhl and K. D. Schmidt. Multivariate chain-ladder. In ASTINColloquium, Zurich, 2005.

[27] G. Quarg and T. Mack. Munich chainladder a reserving method thatreduces the gap between ibnr projections based on paid losses and ibnrprojections based on incurred losses. Variances, 2 :267299, 2004.

[28] A. E. Renshaw and R. J. Verrall. A stochastic model underlying thechain-ladder technique. British Actuarial Journal, 4 :903923, 1998.

[29] G. Simonet. Comptabilité des entreprises d'assurance. L'Argus de l'As-surance, 1998.

[30] C.J. Stone. Additive regression and other nonparametric models. Annalsof Statistics, 13(2) :689705, 1985.

[31] R. J. Verrall. An investigation into stochastic claims reserving modelsand the chain-ladder technique. Insurance : Mathematics and Econo-mics, 26 :9199, 2000.

BIBLIOGRAPHIE 113

[32] S.N. Wood. Additive regression and other nonparametric models. An-nals of Statistics, 62(2) :413428, 2000.

[33] M. V. Wüthrich and M. Merz. Stochastic Claims Reserving Methods inInsurance. Wiley Interscience, 2008.

[34] B. Zehnwirth. Interactive claims reserving forecasting system (ICRFS).Benhar Nominees Pty Ltd. Tarramurra N.S.W., Australia., 1985.

Arthur Charpentier To cite this version - Accueil - CEL

Documents