Top Banner
EMBA7 Costruzione di un modello di regressione multipla lineare. AS-8 Corso di QM 1 Prof. M. Poli “Il mercato degli Enti di Certificazione in Italia” Alessandro Vetriani matr. n. 104489
14

Qm "Regressione multipla"

May 31, 2015

Download

Documents

avetriani
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Qm "Regressione multipla"

EMBA7

Costruzione di un modello di regressione multipla lineare. AS-8 Corso di QM 1 Prof. M. Poli

“Il mercato degli Enti di Certificazione in Italia”

Alessandro Vetriani matr. n. 104489

Page 2: Qm "Regressione multipla"

INDICE

Obiettivo dell’analisi e presentazione del data set Analisi univariata e multivariata Modello di analisi di regressione multipla lineare

Analisi globale modello Analisi locale modello

Conclusioni

Page 3: Qm "Regressione multipla"

Obiettivo dell’analisi e presentazione del D.S.

Si è scelto di analizzare il mercato degli Enti di Certificazione in Italia utilizzando alcuni dati disponibili sul sito del Sincert – Ente di Accreditamento Italiano per gli Enti di Certificazione (www.sincert.it) e costruendone altri in base alle esperienze del canditato in questo specifico settore. Obiettivo dell’analisi è valutare quali sono i fattori che influenzano maggiormente la quantità di certificati emessi dagli Enti secondo lo standard ISO 9001:2000/2008 per i Sistemi di Gestione della Qualità. Si precisa che il database è aggiornato al 31/12/2008.

Alessandro Vetriani
Page 4: Qm "Regressione multipla"

Obiettivo dell’analisi e presentazione del D. S.

Come variabile dipendente si è proceduto quindi a utilizzare i dati inerenti il numero di certificati emessi da 15 Enti di Certificazione Italiani di medio-grandi dimensioni, mentre come variabili indipendenti le seguenti:

Numero di settori di accreditamento (che rappresentano I settori merceologici per i quali l’Ente è autorizzato all’emissione del certificato e che sono 39 in totale per lo standard in questione)

Quantità di personale impiegato (interno/esterno) Costi sostenuti per la pubblicità Costi sostenuti per la formazione Anni di presenza sul mercato

Page 5: Qm "Regressione multipla"

Analisi Univariata: La variabile dipendente

I valori variano da 1003 (min) a 14307 (max). Il box di Whisker plot ci da una rappresentazione grafica di min (1003) I quartile (1328) mediana (4555) III quartile (7959) e max (14307). Media (5500) e mediana (4555) non sono molto vicine, la distribuzione appare concentrata verso il basso.

Page 6: Qm "Regressione multipla"

Analisi univariata: le variabili indipendenti

L’analisi univariata delle variabili indipendenti evidenzia la totale assenza di outlier

La maggiore concentrazione per quanto riguarda I settori di accreditamento è da 26 a 39. Notiamo tralaltro che il valore minimo è 22, e c’è una certa concentrazione verso l’alto (questo è evidentemente influenzato dal fatto che questi dati si riferiscono ad Enti di Certificazione di medio-grandi dimensioni)

Page 7: Qm "Regressione multipla"

Analisi Multivariata

Ottenuta la matrice di correlazione riga colonna (in alto), si possono osservare I valori di “ro” o matrice simmetrica. Cerchiati in rosso i valori più alti che potrebbero causare multicollinearità (descrizione dello stesso fenomeno da parte di due variabili).

Page 8: Qm "Regressione multipla"

Regressione multipla: Analisi globale modello

I valori di R2 e R2 adjusted sono molto buoni. Il modello spiega il 97% della variabilità di y. OK!

Il Test F di Fisher è ottimo. Il valore <0,0001 è di gran lunga inferiore a 0,05 che è il valore limite per di accettazione di H0, perciò rifiutiamo H0 (non c’è correlazione lineare). OK!

I residui sembrano abbastanza sparsi ed hanno un andamento soddisfacente. OK!

Page 9: Qm "Regressione multipla"

Regressione multipla: Analisi locale modello

Tutti valori VIF (Variance Inflation Factor) sono <10 perciò nessuna variabile disturba il modello e non c’è multicollinearità. OK!

Osservando il valore “prob>t” notiamo che le variabili “settori di accreditamento” e “costi formazione” non sono significative nel modello per spiegare la variabilità di y. NOT OK!

Procederemo eliminando la variabile con il valore maggiore, “settori di accreditamento”.

Page 10: Qm "Regressione multipla"

Regressione multipla: Analisi globale modello

I valori di R2 ed R2 restano molto buoni, R2 è sceso a livello impercettibile mentre R2 adj è salito anch’esso a livello impercettibile. OK!

Il test F di Fisher rimane ottimo. OK! I residui mantengono l’andamento mostrato nella precedente

slide e rimangono perciò più che accettabili per il modello. OK!

Page 11: Qm "Regressione multipla"

Regressione multipla: Analisi locale modello

Il valore di “Prob>t” della variabile “costi formazione” è troppo alto, perciò dovremo eliminare questa variabile. NOT OK!

Page 12: Qm "Regressione multipla"

Regressione multipla: Analisi finale modello

I valori di R2 ed R2 adj. sono sempre ottimi. OK! Il test F di Fisher è ottimo. OK! I residui sono abbastanza sparsi. OK!Tutte le variabili hanno valori buoni e quindi accettabili. OK!

Modello finale: Y= - 823.3078 + 12.813 * N. personale + 29.147 * Costi pubblicità + 168.939 * Anni di presenza sul mercato

Page 13: Qm "Regressione multipla"

Conclusioni

Osservando i valori relativi agli standard beta, possiamo valutare il peso percentuale delle tre variabili indipendenti. Ricalcolando gli std. beta ponendo la somma uguale ad 1 ci rendiamo conto che la variabile più importante è “costi pubblicità” che da sola spiega il 50% del modello. Questo valore è fortemente influenzato dalla dimensione degli Enti di Certificazione campionati (medio/grande).

La variabile “Costi pubblicità” ed il “N. Personale” insieme

influenzano l’85% del modello.

Page 14: Qm "Regressione multipla"

Conclusioni

La variabile meno imporante è rappresentata dagli “anni di pres. Mkt” ed è facilmente spiegabile attraverso la presenza di forti barriere all’entrata nel mercato della Certificazione e per la dimensione (medio/grande) dei 15 Enti qui campionati.

Gli intervalli di confidenza (lower & upper 95%) rappresentano un

intervallo in cui con un’assegnata probabilità a priori cade il vero valore del coefficiente. Ad esempio “N. Personale”varia da 7,96 a 17,66.