Séminaire Lirdhist 11janvier 1/59 Thierry Lafouge [email protected] Université Claude Bernard Lyon1 Laboratoire URSIDOC http://docsi.univ-lyon1.fr/
Apr 04, 2015
Séminaire Lirdhist 11janvier 1/59
Thierry Lafouge [email protected]
Université Claude Bernard Lyon1Laboratoire URSIDOC
http://docsi.univ-lyon1.fr/
Séminaire Lirdhist 11janvier 2/59
Applications des lois infométriques en science de l’information
Dualité,champ infométrique d’usage et de production.
Du bon usage des mathématiques en science de l’information
Séminaire Lirdhist 11janvier 3/59
Contexte
• ISI (1955)
• Scientométrie (1970)
• Bibliométrie (1969)
• Infométrie (1980)
• X métrie
Séminaire Lirdhist 11janvier 4/59
Domaines de recherche
• Infométrie mathématique– Modèles de circulation des documents– Distribution<->Théorie de l’information(TMC :Shannon)
• Scientométrie: usage des périodiques scientifiques
• Webométrie : structuration de corpus sur le web
Séminaire Lirdhist 11janvier 5/59
Infométrie mathématique
• Régularités statistiques observées• Lois puissances (Inverse power law)
• Usages: circulation des documents
Séminaire Lirdhist 11janvier 6/59
Régularités statistiques observées
• Sources items– Chercheurs produisent des articles(Lotka)– Revues éditent des articles (Bradford)– Mots produisent des occurrences (Zipf)
– Ouvrages produisent des emprunts– Articles produisent des commandes
Séminaire Lirdhist 11janvier 7/59
Régularités statistiques observées
Fonction de ProductionSources Items
s1
s2
i1
i2
i3
s3
Séminaire Lirdhist 11janvier 8/59
Régularités statistiques observées
• Bibliométrie distributionnelle– (fréquence - effectif)
Distribution
020406080
100120140160
0 2 4 6 8 10 12
Fréquence
Eff
ecti
f
Séminaire Lirdhist 11janvier 9/59
Régularités statistiques observées
• Loi de Lotka (fréquence - effectif)– En 1926 Lotka observe une régularité entre le
nombre de publications dans un domaine scientifique et le nombre de ses membres.
aii
NN 1
Séminaire Lirdhist 11janvier 10/59
Séminaire Lirdhist 11janvier 11/59
Régularités statistiques observées
• Loi de Bradford (rang-fréquences cumulées)
– En 1934 bradford pour résoudre le problème du « chaos documentaire »de la littérature scientifique observe une régularité de la répartition des articles dans les journaux selon leur aptitude à représenter un domaine scientifique.
)(.)( nLogknR
Séminaire Lirdhist 11janvier 12/59
Séminaire Lirdhist 11janvier 13/59
Régularités statistiques observées
• Loi de Zipf (rang fréquence)– En 1935 Zipf analyse des corpus de données
textuelles et observe des régularités sur la fréquence des mots.
r
FFi
1
Séminaire Lirdhist 11janvier 14/59
Séminaire Lirdhist 11janvier 15/59
Lois Puissances
Distribution Gaussienne Distribution Zipfienne
Séminaire Lirdhist 11janvier 16/59
Lois puissances
• Caractéristiques – Décroissance avec une longue queue– Distributions asymétriques
• Concentration forte d’un coté, large dispersion de l’autre• Caractéristique du champ social
– Il existe un petit nombre de chercheurs qui publient un grand nombre d’articles.
– Présentes dans beaucoup d’autres domaines• épidémiologie
Séminaire Lirdhist 11janvier 17/59
Lois puissances
• Propriétés mathématiques– Pas de moments d’ordre n < a– Invariance d’échelle– Lien avec la théorie de l’information
• (Loi du moindre effort :fonction d’effort)
Séminaire Lirdhist 11janvier 18/59
Lois puissances
• Robustesse de la loi de lotka– Probabilité de publier n articles sachant que les
chercheurs publient x articles en moyenne
– Poisson
20
).(.)./()(n
KdxxfAxnPnH
21
)(x
xf
)/( xnP
Séminaire Lirdhist 11janvier 19/59
Lois puissances
• Modèle Probabiliste– Loi de Pareto
aki k
kkFiXP
)()()(
Séminaire Lirdhist 11janvier 20/59
Lois puissances
• Modèle probabiliste– Modèle de l’Urne de Polya– Le succès engendre le succès– Le résultat de Price de 1976
• Loi des avantages cumulés
• Comportement asymptotique = loi puissance
)2;().1( kiBetakiP
Séminaire Lirdhist 11janvier 21/59
Une autre approche
• Quelques questions – Lien entre comportement social et description
statistique ?– Échec = Non évènement– Prendre en compte le paramètre « No Use »– Processus discret / continu
Séminaire Lirdhist 11janvier 22/59
Usages
• Deux caractéristiques– Croissance de la quantité d’information
• Mesure : augmentation de la littérature scientifique
– Obsolescence de l’information• Mesure : taux de citation d’un article
– La demi vie de citation d’une revue(indicateur ISI)
• Mesure : % du fonds actif
Séminaire Lirdhist 11janvier 23/59
Usagescirculation des documents
• Exemples– Circulation des ouvrages dans une
bibliothèque– Commandes des articles chez un fournisseur
de documents– Téléchargements de documents
Séminaire Lirdhist 11janvier 24/59
Usages paramètres de circulation des documents
• Corpus
• Temps– Durée d’observation – Fréquence d’observation
• Prise en compte des « No use »
• Fi : i =0,1,2……..imax, nombre d’ items demandés i fois
Séminaire Lirdhist 11janvier 25/59
Emprunts livres : Bibliothèque Bordeaux Collection Payot Science 1984
Fréquence Emprunts
Effectif
Ouvrages
0 328
1 51
2 15
3 8
>4 6
Emprunts 134
Ouvrages 408
Séminaire Lirdhist 11janvier 26/59
Commandes articles-Inist Parfums cosmétique Corps gras 1985
Fréquence
Commande
Effectif
Articles
1 734
2 49
3 13
4 2
5 1Commandes 884
Articles 799
Séminaire Lirdhist 11janvier 27/59
Usage / Production dualité
sp1 su1
sp2
su2
SourcesSources
Production Usage
Items
i1
i2
i3
Séminaire Lirdhist 11janvier 28/59
Commandes Usagers Revues
1 220 344
2 142 859
3 100 375
4 70 248
5 50 141
6 48 105
7 42 92
8 34 56
9 25 46
10 27 37
11 16 35
12 8 24
13 11 12
14 17 20
15 9 15
16 8 17
17 10 8
18 6 7
19 4 5
20 6 2
Plus de 20 147 47
Total 1000 5595
Tableau - 2 – Commandes des revues à l’Inist durant la première semaine de janvier 1997
Séminaire Lirdhist 11janvier 29/59
y = 4738,4x-2,2028
R2 = 0,9586
0
1000
2000
3000
4000
5000
0 5 10 15 20 25
Commandes
Rev
ues
Séminaire Lirdhist 11janvier 30/59
y = 390,8x-1,3456
R2 = 0,9184
050
100150200
250300350
400450
0 5 10 15 20 25
Commandes
Us
ag
ers
Séminaire Lirdhist 11janvier 31/59
Usages : modèle mathématique
• Modèle mathématique probabiliste– xt nombre de circulations pendant la période
[o t]
Xt processus connu pour un paramètre
dxxfxitXPitXP )()/()(
Séminaire Lirdhist 11janvier 32/59
Usages : modèle mathématique
• Lois de probabilité discrète
– P : Processus Poissonien de taux / f fonction gamma
-> Loi Binomiale négativeLoi géométrique
dxxfxitXPitXP )()/()(
Séminaire Lirdhist 11janvier 33/59
Emprûnts livres – Bibliothèque Bordeaux
Collection Payot Science 1984Ajustement par la moi binomiale négative
Emprunts Ouv-Observés Ouv-Attendus
0 328 326,73
1 51 51,36
2 15 17,42
3 8 6,97
4 1 3,00
5 5 1,35
total 408 408
Séminaire Lirdhist 11janvier 34/59
Commandes Articles / Parfums cosmétique 1985
Fonction Puissance
Circulation des articles
y = 823,43x-4,1397
R2 = 0,9908
-200
0
200
400
600
800
1000
0 5 10 15 20
Fréquence
Eff
ecti
f
Séminaire Lirdhist 11janvier 35/59
Usages commandes Volumes / Parfums cosmétique 1985
Fonction Puissance
Circulation Volumes
y = 365,25x-2,1305
R2 = 0,9856
050
100150200250300350400450
0 5 10 15 20
Fréquence
Eff
ecti
f
Séminaire Lirdhist 11janvier 36/59
Usage : IPP ordre 2
• Sources : revues/articles
REVUES ARTICLES COMMANDES
Produit Contient
Séminaire Lirdhist 11janvier 37/59
Usages : nombre d’articles revue- JCR /1999
Articles Revues
[1 50[ 239
[50 150[ 91
[150 200[ 41
[200 250[ 33
[250 300[ 15
[300 350[ 17
[350 400[ 8
>400 27
Somme 471
Séminaire Lirdhist 11janvier 38/59
Usages : nombre d’articles produits revue- JCR /1999
0
50
100
150
200
250
300
0 5 10 15
Articles
Re
vu
es
Séminaire Lirdhist 11janvier 39/59
Usage champ infométrique
Items
Sources Primaires SP
Sources Secondaires SS
Sp1
Sp2
i1 i2
i3
Sp1 Sp2
Production
Ss1
UP
US
Séminaire Lirdhist 11janvier 40/59
Usage champ infométrique
• Analyse de la distribution de la demande– Les articles demandés (sources primaires)– Comptage au niveau des volumes (sources
secondaires)
i i
iUSiiUPi ..
i iUSiUP
miXi
i
miAi ...
Séminaire Lirdhist 11janvier 41/59
Commandes articles-Inist Parfums cosmétique Corps gras 1985
Fréquence Commande
Nombre
Articles
Nombre
Volumes
Nombre-Volumes
1 734 382 394
2 49 70 73
3 13 37 38
4 2 21 18
5 1 15 11
6 6 0
>7 6 2Commandes 884 884 799
items 799 537 537
Séminaire Lirdhist 11janvier 42/59
USAGEmodèle mathématique
• X (i) = probabilité pour qu’un volume soit demandé i fois• A(i) = probabilité pour qu’un article soit demandé i fois• Y( j) = probabilité pour qu’un volume ait j articles
• po = probabilité pour qu’un article ne soit pas demandé
• Gj(i) = probabilité pour qu’un volume ayant j articles soit demandé i fois
1
...1,0)().()(
j
ijYiGjiX
..... iXiiAim
Séminaire Lirdhist 11janvier 43/59
USAGEutilisation d’un modèle
• Approche positiviste– Ajuster une distribution observée par une
distribution théorique
• Une autre approche
Séminaire Lirdhist 11janvier 44/59
Approche positivisteAjustement d’une distribution statistique
• Ajuster : pourquoi ?– Vérifier une loi– Modèle explicatif raisonnable
• Ajuster : intérêt– Analyse prévisionnelle– Création d’indicateurs
• Ajuster : comment ?
Séminaire Lirdhist 11janvier 45/59
Commandes des Revues en chimie en 1985 Inist
• Génie chimique 43 titres• Appliqués : 23• Théoriques: 22
• Polymères 51 titres• Appliqués: 22• Théoriques 29
• Matériaux construction 22 titres• Peintures et Vernis 10 titres• Bois et Papier 6 titres• Parfums,cosmétiques 13 titres
Séminaire Lirdhist 11janvier 46/59
Questions posées
• Revues appliquées– Un article leader
• C’est moins vrai pour les revues fondamentales
-> Créer des indicateurs
Séminaire Lirdhist 11janvier 47/59
Réponses
• Indicateur :
• Indicateur
iUSiUP
m
K
USiUPix
Séminaire Lirdhist 11janvier 48/59
Réponses
• Ajuster la courbe de distribution des volumes / connaissant la distribution des articles .– Proportion d’articles non demandés dans les
volumes demandés– Répartition des articles dans les volumes
• Modèles d’ajustement
Séminaire Lirdhist 11janvier 49/59
Ajustement Parfums cosmétique Corps gras 1985
Commandes Volumes observés
Volumes attendus
1 71,1% 72,9%
2 13% 19,2%
3 6,9% 6,1%
4 3,9% 1,3%
5 2,8% 0,6%
>6 2,2% 0,2%Indicateur Po= 0.811 m= 1,4
Séminaire Lirdhist 11janvier 50/59
Ajustement Indicateurs
Domaine M1 M2 M3 x
Bois Papier 1,95 2,6 1,2 0,69
Peinture Verni 2,35 3 1,4 0,45
Matériaux con. 2,35 3 1,4 0,78
Poly. Appl. 2,4 3 1,6 0,69
Parfuns Cos. 2,4 3,2 1,4 0,60
Genie App. 2,4 3,3 1,6 0,69
Genie Thé 2,6 3 1,6 0,80
Poly Thé 2,6 3,2 1,6 0,93
Séminaire Lirdhist 11janvier 51/59
Ajustement-Indicateurs
Domaine Commandes Nombre articles
Nombre volumes
Indice(3) Indice(2)
Articles
50-79
3059 2947
2175 1,36
2,8 1,4
Articles
80-85
4213 3763
2320 1,63
3,3 1,8
Séminaire Lirdhist 11janvier 52/59
Questions posées
• Forme de la distribution de contenu
• Sens de la distribution de contenu
• Sens des conditions limites
• Pourquoi les distributions d’usage s’ajustent suivant des lois particulières?– Loi binomiale négative, loi géométrique
Séminaire Lirdhist 11janvier 53/59
0
2
4
6
8
10
0 5 10
Articles
Vo
lum
es0
2
4
6
8
0 5 10 15 20
Articles
Volu
mes
Graphe –5 Distributions de contenu des volumes des revues Scientometrics et JIS
Séminaire Lirdhist 11janvier 54/59
USAGE:une autre appocheHypothèses
• Distribution d’usage : Gj – Gj loi binomiale de paramètre j et po
– Gj loi binomiale négative de paramètre j et po
• Distribution de contenu :Yj– Poisson– Géométrique– Binomiale négative
Séminaire Lirdhist 11janvier 55/59
USAGE:approhe mathématiqueCondition limites
• Passage à la limite– Croissance et obsolescence de l’information
MYEop
YEop
XX
)()1(
)(
1
)lim(
Séminaire Lirdhist 11janvier 56/59
USAGE:modèle mathématiqueRésultats
Distribution Gj
Distribution contenu Y
Distribution d’usage lim(X)
Binomial Poisson
Géométrique
Négative binomiale
Poisson M
Géométrique M
Neg. Bino M
Négative binomiale
Binomial
Poisson
Géométrique
Négative binomiale
Poisson M
Poisson M
Géométrique M
Neg. Bino M
Séminaire Lirdhist 11janvier 57/59
USAGE:une autre appocheinterprétation des conditions limites
• N périodiques [0 T]– Y: nombre articles produits [o T]– X(dt):nombre d’articles commandés au moins
1fois [T T+dt]
)()(
)()(
)(1)(
)()(
cMN
dtX
bN
tY
atX
dtXtY
)()()1(
)()(
)(1
cMYEop
bYE
aop
Séminaire Lirdhist 11janvier 58/59
Quelques références bibliographiquesLois de l'information (Articles fondateurs)
Lotka A. J., 1926The frequency distribution of scientific productivityJournal of the Washington Academy of Sciences, 16 p317-323, 1960.
Bradford S. C., 1934Sources of information on specific subjects. S. C. BradfordEngineering p. 85-86, 26 janvier 1934.
Zipf, G. K., 1935The form and behavior of wordsThe psycho-biology of language Boston : Houghton, 1935 p. 20-48.
Price D. S., 1976A general theory of bibliometric and other cumulative advantage process . Journal of the American Society for Information Science., Vol 27, N°5, 1976, p.
292-306.
Séminaire Lirdhist 11janvier 59/59
Quelques références
bibliographiques (Travaux personnels sur la circulation des documents)
Lafouge, T., Lainé-Cruzel S, 1997A new explanation of the geometric law in the case of library circulation data.Information Processing and Management, Vol 33, No 4, p. 523-527, 1997.
Lafouge, T., 1998Mathématiques du document et de l’information, Bibliométrie distributionnelle.Mémoire d’habilitation. http://193.51.109.173/memoires/ThierryLafouge_ext.pdf
Lafouge, T., Guinet E., 1999 A new explanation of the negative binomial law and the Poisson law with regard to library
circulation data. Journal of Information Science, 25(1), p.89-93, 1999
Lafouge T., Boukacem B. 2004Application des lois infométriques en Science de l’Information. Dualité, champ
infométrique d’usage et de production. ISDM N°17 http://isdm.univ-tln.fr/isdm.html