Top Banner
1995 - 1996
151

Dispensa statistica

Dec 17, 2015

Download

Documents

Lucy

statistica
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • Appunti di Statistica per le decisioni d'impresa

    Roberta Siciliano

    2

    Eipartimento di Matematica e Statistica

    Universit Federico II di Napoli Federico II

    e-mail: [email protected]

    U.R.L.:http://cds.unina.it/ roberta

    2

    Questi appunti costituiscono materiale didattico di supporto per l'insegnamento di

    Statistica per le decisioni d(impresa rivolto agli studenti del Corso di Laurea in Statistica

    e informatica per l'economia e le imprese della Facolt di Economia. Invero, essi cos-

    tituiscono una rielaborazione della dispensa didattica dal titolo Statistica Aziendale:

    Modelli statistici per l(economia e le imprese che no allo scorso anno stata pro-

    posta agli studenti del corso di Statistica aziendale, esame annuale caratterizzante il prolo

    formativo del Corso di Economia Aziendale, secondo il vecchio ordinamento degli studi.

    Fin dalla sua prima edizione (a.a. 1995 1996), la dispensa didattica ha subito numeroserivisitazioni, integrazioni ed aggiornamenti, in seguito a correzioni, suggerimenti e com-

    menti da parte sia dei frequentanti il corso di Statistica Aziendale, il cui numero cresciuto

    esponenzialmente nel tempo, che soprattutto dei collaboratori alla cattedra di Statistica

    Aziendale, che si sono succeduti in tutti questi anni. Se dei primi sarebbe improponibile

    menzionarli tutti, dei secondi invece doveroso menzionare nome e cognome. Pertanto,

    seguendo un mero ordine di anzianit di servizio didattico reso (attraverso lezioni inte-

    grative, seminari, esercitazioni in laboratorio, attivit di tutoraggio a numerosi tesisti e

    gruppi di lavoro per la elaborazione di tesi di laurea e di tesine), si sono succeduti nel

    tempo, ed ove possibile collaborano ancora: il dott. Claudio Conversano, ricercatore in

    Statistica presso la Facolt di Economia dell'Universit di Cassino, la dott.ssa Carmela

    Cappelli, ricercatrice in Statistica presso la Facolt di Scienze Politiche dell'Universit di

    Napoli Federico II, il dott. Massimo Aria, dottorando in Statistica Computazionale presso

    il Dipartimento di Matematica e Statistica dell'Universit di Napoli Federico II, la dott.ssa

    Roberta Pellican, dottorando in Statistica presso il Dipartimento di Matematica e Sta-

    tistica dell'Universit di Napoli Federico II. A loro va il pi aettuoso dei ringraziamenti

    per il prezioso ed indispensabile contributo ed entusiasmo profuso durante le attivit uni-

    versitarie, ma soprattutto per avermi indotto a proporre agli studenti le mie cartelle delle

    lezioni sotto forma di dispensa didattica.

    1

  • Capitolo 1

    La statistica in contesti

    decisionali

    1.1 La statistica aziendale

    La statistica moderna si occupa della raccolta e dell'analisi di grandi mole

    di informazioni riguardanti fenomeni complessi caratterizzati dall'interagire

    congiunto di un numero elevato di variabili servendosi, a tal ne, del calco-

    latore elettronico. La statistica aziendale si propone, quale supporto delle

    decisioni aziendali, di integrare le esigenze informative che si presentano nel-

    la gestione della azienda con lo scopo di informare, controllare, prevedere.

    A tal ne, si avvale di informazioni qualitative e quantitative derivanti da

    statistiche interne e da statistiche esterne alla azienda.

    Le statistiche interne riguardano direttamente l'organizzazione e la gestione

    della azienda e sono eettuate sulla base di dati rilevati all'interno della

    azienda stessa; ne costituiscono un esempio la determinazione della scorta

    massima e minima di ogni materiale, il calcolo della incidenza dei costi di

    distribuzione sul prezzo dei singoli prodotti, la preparazione del graco di

    redditivit, l'elaborazione degli indici di bilancio, la previsione delle vendite,

    il controllo di qualit.

    Le statistiche esterne studiano i mercati nei quali l'azienda opera, l'attivit

    delle aziende concorrenti e dei settori complementari ed in genere i fenomeni

    concernenti l'ambiente socio-economico in cui l'azienda opera o intende op-

    erare. Ai ni dell'elaborazione delle statistiche esterne, l'azienda si avvale di

    dati provenienti da diverse fonti, quali ad esempio le banche dati statistiche,

    le riviste specializzate di settore, i bollettini di istituti di statistica o di ricerca

    economica, le pubblicazioni di statistiche uciali italiane ed internazionali,

    2

  • pubblicazioni di categoria, indagini dirette (o tramite istituti specializzati),

    sperimentazioni.

    Nell'ambito del sistema informativo aziendale, la statistica aziendale svolge

    un duplice ruolo di integrazione e di complementariet. La conoscenza dei

    fenomeni economici non pu prescindere da informazioni sucientemente

    esaustive tanto in termini qualitativi che quantitativi: si assiste sempre pi

    alla sinergia tra analisi qualitative e analisi quantitative, basate queste ultime

    sulla visualizzazione sotto forma di tabelle e graci, sulla sintesi attraverso

    indici statistici, rapporti statistici o indicatori aziendali, su reports che ri-

    assumono i risultati derivanti dall'elaborazione statistica dei dati attraverso

    modelli statistici.

    Il percorso di studio che si seguir privileger l'aspetto quantitativo appro-

    fondendo i metodi statistici che possono contribuire alla denizione di una

    base di conoscenza quantitativa che superi la fase iniziale tipicamente de-

    scrittiva e si proli come formativa per la costruzione di modelli statistici.

    1.2 Il procedimento scientico di ricerca

    L'evoluzione dei fenomeni economici pu essere seguita ed analizzata medi-

    ante un processo di conoscenza con fasi ben individuate che prendono l'avvio

    dall'osservazione di un sistema o mondo reale. La realt viene osservata dal

    ricercatore non nella sua interezza, bens attraverso una nestra che limita

    l'angolo visuale focalizzando l'attenzione solo su alcuni aspetti e trascuran-

    done altri. L'ampiezza della nestra e l'orientamento dell'angolo sono deter-

    minati dal paradigma scientico prevalente che condiziona le singole ricerche,

    dai giudizi di valore del ricercatore che giudica interessanti alcuni temi e non

    altri, dalle conoscenze a-priori del ricercatore, dalle sue capacit di analisi.

    Le fasi del paradigma scientico di ricerca, che possono essere iterate pi di

    una volta, sono nel seguito descritte.

    Denizione del problema. Lo statistico in azienda si propone di fornire

    risposte qualitative e quantitative a determinati problemi connessi alla ges-

    tione aziendale. L'esatta denizione del problema consente di formulare cor-

    rette ipotesi di lavoro utili alla ricerca. Questa rappresenta la fase pi impor-

    tante della procedura di ricerca scientica. Lo statistico non si domander se

    il problema rilevante ai ni della gestione aziendale (ci di pertinenza del

    manager, dell'imprenditore, etc.), ma si assicura che il problema sia denito

    correttamente in modo da poterlo tradurre in un problema statistico, cos da

    3

  • individuare il fenomeno che si vuole studiare, le informazioni a-priori che si

    hanno su tale fenomeno, le caratteristiche incognite e l'obiettivo nale del-

    l'analisi statistica.

    Dati. La fase precedente si traduce nella specicazione dei dati da uti-

    lizzare ai ni dell'analisi statistica; questo momento strettamente legato

    al momento della scelta dell'approccio e del metodo statistico che si vuole

    adottare. In generale, si distinguono dati sperimentali, che sono costruiti ad

    hoc dal ricercatore, e dati di osservazione, che sono rilevati dal ricercatore

    ai ni della descrizione di una realt gi esistente. I dati di osservazione

    possono provenire da rilevamenti censuari o da indagini campionarie. In-

    oltre, i dati di osservazione, come noto, possono essere di tipo quantitativo

    (discreti o continui) o di tipo qualitativo (nominali o ordinali). Un'ulteriore

    distinzione pu essere fatta tra dati di tipo sezionale (cross-section), derivanti

    dall'osservazione, in un punto nel tempo, di una o pi variabili su un gruppo

    di individui, e dati temporali, derivanti dall'osservazione in T distinti puntinel tempo di una o pi variabili su un individuo (serie temporali) o su pi

    individui (panel, dati di tipo longitudinale).

    Informazione a priori. Successivamente, si considera una fase che combina

    i dati a disposizione con l'informazione a priori riguardante sia il fenomeno

    oggetto di studio (assunzioni, vincoli, condizioni, etc.) sia il ruolo delle vari-

    abili ritenute rilevanti. Se infatti tra le variabili vi un legame di inuenza

    reciproca, o di interdipendenza, l'analisi sar di tipo simmetrico, se invece

    possibile ipotizzare che una o pi variabili dette di risposta o variabili dipen-

    denti, sono spiegate da altre dette predittori o variabili esplicative, allora

    l'analisi sar di tipo asimmetrico o di dipendenza.

    Analisi dei dati ed elaborazioni. Sulla base quindi della natura del

    problema, del tipo di dati e della informazione a-priori, avviene la scelta tra

    i diversi metodi di analisi statistica che determina il tipo di elaborazione

    successiva dei dati. In generale, si considerano analisi esplorative quando

    si vogliono trarre le prime indicazioni da un insieme di dati, sotto forma di

    relazioni tra variabili, somiglianze tra le unit, identicazione delle strut-

    tura latente nei dati, individuazione di ipotesi da vericare in una successiva

    analisi. Le analisi confermative partono invece da ipotesi o modelli formulati

    a-priori, che sono sottoposti al giudizio di conformit con l'evidenza empirica

    rappresentata dal campione che si ha a disposizione. In denitiva, i metodi

    statistici dell'analisi esplorativa attengono al campo della scoperta, mentre

    quelli dell'analisi confermativa attengono al campo della giusticazione.

    4

  • Interpretazione dei risultati. Il procedimento di ricerca potrebbe chiud-

    ersi con l'analisi dei risultati, ovvero potrebbe essere reiterato per maggiori

    approfondimenti. In taluni casi, per le analisi confermative, si pu tentare

    una generalizzazione dei risultati mediante la denizione di un modello che

    costituisce una semplicazione della realt da cui si partiti ma che, trovan-

    do conferma statistica, pu essere utilizzato nella pratica gestionale no a che

    nuove ipotesi lo rendono vulnerabile a nuovi cambiamenti. In altre parole, il

    modello statistico dovr essere comunque validato nel tempo con l'esperienza

    e l'evidenza empirica. Esempi di modelli a supporto della gestione aziendale

    sono rappresentati da funzioni di costi, modelli per l'approvviggionamento

    dei materiali, modelli della produzione, funzioni delle vendite, modelli per la

    segmentazione dei mercati, modelli per la valutazione della soddisfazione dei

    consumatori, modelli del credit scoring, etc.

    1.3 La statistica per le decisioni d'impresa

    Ai giorni nostri, la statistica nell'era dell'informatica - caratterizzata da una

    riduzione di tempi e costi relativi all'accesso ad enormi basi di dati - pu

    essere inquadrata nel Paradigma dell'Informazione recentemente denito da

    Coppi (2002). L'obiettivo di generare informazione aggiunta, attendibile e

    signicativa, per la risoluzione di problemi reali di decisione, assemblando,

    attraverso strumenti statistici e computazionali, processi di estrazione della

    conoscenza da varie fonti. In tale contesto, si possono distinguere due pas-

    saggi fondamentali: l'apprendimento statistico dai dati, al ne di derivare

    l'informazione signicativa volta ad identicare particolari strutture ricor-

    renti nei dati e trend (passaggio dato -> informazione), e l'estrazione della

    conoscenza basata sull'informazione rilevante e realizzata attraverso modelli

    e procedure statistiche che richiedono un uso intensivo del computer (pas-

    saggio informazione -> conoscenza). Il primo passaggio trova espressione

    nell'analisi esplorativa dei dati, avvalendosi di tecniche di riduzione dei dati

    e sintesi dell'informazione per strutture complesse di dati (i.e., cluster anal-

    ysis, analisi delle componenti principali, segmentazione binaria, etc.). Il

    secondo passaggio si identica nell'analisi confermativa che intende validare

    le ipotesi formulate sulla base dei risultati dell'analisi precedente attraverso

    modelli statistici di previsione e di decisione. In tale contesto, la statistica

    per le decisioni d'impresa si propone quale disciplina che ha lobiettivo di

    generare informazione statistica signicativa e con valore aggiunto, in termi-

    ni di risoluzione di problemi reali, ovvero di supporto alle decisioni aziendali,

    5

  • attraverso il processo di estrazione della conoscenza seguendo il procedimen-

    to scientico di ricerca ed impiegando i metodi della statistica e della scienza

    dell'informazione.

    La monograa fondamentale di Hastie, Friedman e Tibshirani (2001)

    identica esplicitamente le nuove sde nelle aree dell'archiviazione, della

    organizzazione e della gestione di dati, nalizzate al Data Mining ed alla

    gestione statistica della complessit e dimensione dei fenomeni osservati.

    Una denizione di Data Mining dai pi ritenuta esauriente quella di

    David Hand (2000) che den quest'ultimo come il processo che attraverso

    l'impiego di modelli non banali ha l'obiettivo di individuare relazioni tra i

    dati non banali, nascoste, utili e fruibili dall'utilizzatore. Questa denizione

    contiene alcuni punti che meritano un approfondimento. In particolare, il

    processo impiega modelli non banali, ossia l'analisi condotta attraverso

    una strategia che prevede l'uso combinato di diversi metodi statistici nal-

    izzato alla estrazione della conoscenza. Per relazioni tra i dati non banali

    e nascoste si vuole sotto intendere un obiettivo del processo il quale deve

    concentrarsi sulla scoperta di relazioni che siano sconosciute all'analista e

    all'utilizzatore e che non si evincono da uno studio superciale della base dei

    dati. I termini utile e fruibile chiariscono che la relazione o le relazioni

    identicate devono presentare (attraverso strumenti che ne garantiscano la

    comprensibilit anche ai non esperti della materia) delle utilit oggettive a

    favore dei soggetti interessati, devono consentire alle aziende e agli enti di

    migliorare la quantit dei servizi oerti, ridurre i costi, accrescere il proprio

    business. Il Data Mining si avvale di numerose metodologie statistiche a

    forte contenuto computazionale, quali ad esempio i metodi e algoritmi di

    partizione ricorsiva per la costruzione di alberi decisionali, procedure selet-

    tive per le regole di associazione, algoritmi adattivi di stima, tecniche di

    ricampionamento, etc. Data Mining parte di un processo di estrazione

    della conoscenza (Knowledge Discovery from Databases), ossia il processo

    di esplorazione e analisi di grandi quantit di dati, condotto in modo au-

    tomatico o semiautomatico, al ne di scoprire delle regolarit (pattern) nei

    dati, che siano considerabili nuovi elementi di conoscenza. In tale prospet-

    tiva lo statistico si trova a giocare un ruolo fondamentale nel Data Mining

    divenendo regista delle strategie alternative di analisi per l'esplorazione di

    importanti caratteristiche e relazioni presenti in strutture complesse di dati.

    Il Paradigma dell'Informazione nel quale il Data Mining assume un ruo-

    lo fondamentale pu essere completato in termini di accessibilit e capac-

    it predittiva dell'informazione statistica e dei processi di estrazione della

    conoscenza al ne di indirizzare nella direzione giusta i processi decisionali.

    Ci risulta particolarmente importante quando gli attori sono manager di

    6

  • piccole e medie imprese che in un mercato globale debbono competere con

    industrie multinazionali in grado di reperire risorse nanziarie, competenze

    umane e strumenti tecnologicamente avanzati per il miglior utilizzo dell'in-

    formazione. Il successo non guidato solo dall'ecienza dei processi ma

    anche dalla capacit di gestire i dati, le informazioni e le conoscenze. In

    quest'ottica rendere pi ecace un processo decisionale essenziale per in-

    crementare il livello competitivo dell'impresa e per farlo necessario ottenere

    in modo rapido e essibile informazioni strategicamente utili, che siano cio

    di supporto all'interpretazione dell'operato dell'azienda e dell'andamento del

    mercato in cui opera. Invero, negli ultimi decenni il ciclo di vita dei processi

    decisionali nelle Aziende andato accorciandosi sempre pi e la tempestivit

    delle decisioni aziendali (i.e., individuazione di nuovi segmenti di mercato,

    scoperta di preferenze e comportamenti da parte di clienti, riduzione di even-

    tuali sprechi nella produzione o razionalizzazione di altri processi aziendali)

    diventato fattore vitale per la sopravvivenza. Tale tempestivit, tuttavia, a

    volte contrasta con la mole dei dati da elaborare per estrarre le informazioni

    necessarie a supportare il processo decisionale. Le informazioni sono spesso

    dicilmente recuperabili perch sommerse nell'insieme di dati ospitati dal

    sistema informativo. Il ricorso alle tecnologie dell'informazione quindi un

    passo obbligato. In questo le Aziende vengono aiutate dalle applicazioni di

    Business Intelligence (BI), ossia l'insieme dei processi, delle tecniche e degli

    strumenti basati sulla tecnologia dell'informazione, che supportano i processi

    decisionali di carattere economico. BI una corretta mescolanza di tecnolo-

    gia, informatica e statistica che fornisce agli utenti le informazioni necessarie

    per rispondere ecacemente alle esigenze di business. L'obiettivo fondamen-

    tale nella BI , quindi, quello di disporre di sucienti informazioni in modo

    tempestivo e fruibile e di analizzarle cos da poter avere un impatto posi-

    tivo sulle strategie, le tattiche e le operazioni aziendali. Nell'ambito della

    BI un'attivit fondamentale la raccolta dei dati aziendali. Questa raccolta

    non si deve limitare ai soli dati transazionali, generati e usati nei processi

    produttivi o operativi di un'impresa, ma deve essere orientata anche ai dati

    decisionali (o business data), caratterizzati da una natura aggregata, una

    struttura essibile, un uso non ripetitivo, un orizzonte temporale pi ampio.

    A questo scopo si rende necessaria la progettazione e la costruzione di un

    magazzino dei dati (Data Warehouse) che, attingendo periodicamente sia

    dal sistema transazionale aziendale sia da altre sorgenti informative, raccol-

    ga e sintetizzi le informazioni secondo regole ben denite dettate dal proprio

    business, e poi le organizzi in una forma comprensibile per chi in azienda

    deve prendere decisioni tattiche e/o strategiche. I Data Warehouse (DW)

    sono considerati una buona tecnologia per supportare soluzioni di KDD.

    7

  • Tale processo prevede, fra l'altro, delle fasi di selezione e pulizia dei dati,

    al ne di rimuovere inconsistenze, trattare dati mancanti, e determinare il

    giusto livello di aggregazione. Tutto ci assicurato da un DW, che diventa

    una tecnologia di supporto, anche se non strettamente necessaria, al KDD.

    In un contesto aziendale, la conoscenza scoperta pu avere un valore perch

    consente di aumentare i protti riducendo i costi oppure aumentando le en-

    trate. Questo spiega l'importanza di soluzioni KDD nel BI. Il processo KDD

    si completa integrando il DW, ove possibile, con strumenti pi propriamente

    statistici che costituiscono un Decision Support System (DSS) per il man-

    agement aziendale. L'architettura di un DSS consiste di tre elementi: un

    database alimentato da un DW o da un Data Mart (ossia una sottoparte o

    replica del DW contenente l'insieme delle informazioni rilevanti per un par-

    ticolare problema), un sistema di modelli e strumenti statistici di DM, una

    interfaccia interattiva che svolge le funzioni di cruscotto aziendale guidan-

    do il manager nei processi decisionali aziendali attraverso i risultati derivanti

    dall'analisi statistica dei dati o pi in generale da strategie di Data Mining.

    Un DSS pu essere inteso come un insieme di strumenti progettati e

    orientati all'integrazione delle necessit dell'utente nale, le tecnologie e i

    metodi di analisi, con l'obiettivo di sostenere - e non sostituire - il decisore

    nella scelta della azione pi appropriata al raggiungimento di un scopo. Al-

    l'interno di questo progetto, l'attivit decisionale considerata come una

    fase del ben pi generale processo di BI. Il DSS progettato per eseguire

    quattro tipologie di operazioni fondamentali:

    query and reporting, al ne di seguire periodicamente una serie di in-terrogazioni del database, creando report, tipicamente a ni statistici,

    per l'analisi graca degli andamenti aziendali;

    data mining, che consiste nell'impiego di metodologie statistiche avan-zate volte ad identicare comportamenti tendenziali, a ricercare pat-

    tern e caratteristiche tipologiche, a realizzare segmentazioni nei dati a

    scopo di classicazione;

    analisi what if, al ne di costruire scenari di riferimento per soddis-fare obiettivi di pianicazione e previsione degli andamenti futuri di

    mercato;

    OLAP (On Line Analytical Process), allo scopo di generare interrogazioniintelligenti (attraverso operatori Drill-Down, Roll-Up, Pivot) in tem-

    po reale ed in maniera intuitiva senza preoccuparsi dell'eettiva strut-

    tura logica dei dati.

    8

  • In sintesi, da un lato, il DW si impone come strumento strategico nel

    momento in cui le varie direzioni funzionali alle quali destinato possono

    accedere ai dati secondo principi di analisi multidimensionale; dall'altro, i

    DSS consentono di automatizzare le procedure decisionali e di facilitare sul

    piano pratico le attivit manageriali, suragate cos dall'esperienza passata

    e dalla possibilit di simulare scenari futuri.

    1.4 Il percorso di studio

    Il percorso di studio caratterizzato dalle seguenti parti, ciascuna delle quali

    consiste di moduli tematici:

    L'impiego della statistica in azienda, con particolare riferimento allacostruzione di database e data warehousing, alla gestione statistico-

    informatica delle informazioni ed alla presentazione delle metodolo-

    gie statistiche di base (i.e., richiami di inferenza e processi decision-

    ali aziendali, campionamento straticato, modelli lineari dell'analisi

    della varianza e della regressione semplice e multipla, la regressione

    logistica);

    I metodi di segmentazione per la costruzione di alberi esplorativi ed al-beri delle decisioni, considerando le metodologie CART (Classication

    and Regression Trees) e TWO-STAGE;

    I metodi e modelli a forte contenuto computazionale, preferendo ladescrizione della classe dei modelli additivi generalizzati per problemi

    di classicazione e regressione non lineare, dei metodi associativi della

    market basket analysis, delle strategie IDA (Intelligent Data Analysis)

    e sistemi di supporto alle decisioni d'impresa.

    Il percorso di studio si completa con l'esercitazione pratica in labora-

    torio attraverso l'uso di software specialistico per l'impiego dei metodi e

    delle strategie proposte in contesti applicativi reali. Nel seguito si descrive

    brevemente il contenuto strettamente metodologico di ciascun capitolo della

    presente dispensa didattica:

    Richiami di inferenza statistica.In questo modulo verranno dapprima presentati alcuni richiami di in-

    ferenza statistica per la risoluzione classica di problemi decisionali in

    condizione di incertezza. La teoria degli intervalli di condenza pu es-

    sere applicata per la costruzione delle carte di controllo statistico della

    9

  • qualit. La teoria della verica delle ipotesi pu risultare utile nel

    marketing, nell'adabilit dei processi, etc. Questi richiami sono stru-

    mentali all'interpretazione della signicativit delle stime dei parametri

    di un modello, all'analisi della stabilit delle stime, e in generale al-

    l'impiego di criteri statistici per la selezione del modello statistico pi

    appropriato.

    Processi decisionali.Successivamente, si considera pi in generale la teoria delle decisioni

    statistiche, qualora si associno i valori monetari alle azioni intraprese

    rispetto ai dierenti stati della realt. Verranno descritti processi de-

    cisionali senza e con informazioni campionarie.

    L'indagine statistica e schemi di campionamento.Inne, si far cenno alle problematiche relative all'indagine campionar-

    ia con riferimento alla scelta dello schema di campionamento statisti-

    co da adottare. Si confronter il campionamento semplice con quello

    straticato con ripartizione proporzionale o con ripartizione ottimale

    per evidenziare i criteri di determinazione della numerosit campionar-

    ia e di valutazione dell'ecienza delle stime. Queste scelte incidono sul

    budget nanziario da attribuire sia alle indagini statistiche esterne di

    settore (ad esempio, le ricerche di mercato) sia alle analisi interne di

    supervisione delle attivit ed in generale del controllo di gestione.

    L'analisi della varianza.L'analisi della varianza pu essere riguardata come una generalizzazione

    del test sulla dierenza tra le medie di due popolazioni a confronto

    quando il confronto si estende a pi popolazioni. L'obiettivo quello

    di valutare se i fattori di tipo qualitativo, impiegati per la speci-

    cazione delle popolazioni, siano discriminanti rispetto ai valori medi

    di una variabile dipendente di tipo numerico. Si tratta di un'anal-

    isi delle dipendenza basata su un approccio parametrico confermativo

    che utilizza usualmente dati sperimentali. Il ricercatore denisce un

    disegno degli esperimenti, denendo uno o pi fattori per specicare

    gli eetti da sperimentare su un gruppo di individui, e misura una

    variabile numerica sui gruppi individuati per vericare se sussiste una

    qualche discriminazione tra i gruppi e se vi un'eventuale interazione

    tra i fattori presi in considerazione. Le applicazioni aziendali possono

    10

  • riguardare il marketing, il controllo di gestione, le analisi di mercato,

    il controllo di qualit etc.

    La regressione lineare multipla.Un ampio modulo dedicato alla regressione multipla sia per l'anal-

    isi delle relazioni di dipendenza che quale strumento di previsione. Si

    approfondiranno le ipotesi del modello classico, le principali trasfor-

    mazioni di variabili, l'impiego delle variabili dicotomiche (dummy), gli

    aspetti inferenziali con particolare riferimento ai metodi di scelta delle

    variabili, l'analisi dei residui ed inne si far cenno alle alternative pos-

    sibili in seguito alla rimozione delle ipotesi classiche. Le applicazioni

    della regressione multipla si inquadrano pi strettamente in un con-

    testo econometrico al ne di vericare empiricamente un modello di

    domanda o di oerta, un modello dei costi di produzione, delle ven-

    dite, etc.

    La regressione logistica.Spesso nelle analisi di regressione vi la necessit di assumere una

    variabile dipendente di tipo qualitativo, spesso dicotomica. In tal caso

    occorre operare con modelli a risposta qualitativa per problemi classici

    di discriminazione parametrica. Alcuni esempi sono rappresentati dalla

    previsione delle insolvenze nanziarie, dalle analisi delle opportunit,

    dagli studi sulle preferenze dei consumatori basati su funzioni di utilit.

    Per tali contesti applicativi, si approfondir il modello di regressione

    logistica, basato su una trasformazione logistica della equazione di re-

    gressione, e costituisce un modello parametrico alternativo agli alberi

    di classicazione di tipo non parametrico.

    I modelli additivi generalizzati.In molte applicazioni su dati reali l'ipotesi di linearit alla base del

    modello classico di regressione risulta alquanto restrittiva. I modelli

    additivi generalizzati seguono un approccio semi-parametrico per tener

    conto di relazioni nonlineari tra le variabili. Si tratta di una partico-

    lare classe di modelli di regressione nei quali il contributo di ciascun

    predittore alla spiegazione della variabile dipendente valutato sep-

    aratamente sulla base di opportune funzioni di smoothing. La carat-

    teristica fondamentale di tali modelli l'additivit degli eetti, poich

    11

  • la predizione dei valori assunti dalla variabile dipendente ottenuta

    sommando il contributo non lineare fornito da ciascun predittore.

    I metodi di segmentazione.La segmentazione un'analisi asimmetrica che presuppone la presenza

    di una variabile dipendente o di risposta che debba essere spiegata da

    un insieme di predittori. L'obiettivo duplice, in quanto pu essere

    condotta un'analisi esplorativa o confermativa ed il risultato nale

    rappresentato da un albero delle decisioni per la classicazione, se la

    risposta qualitativa, o per la regressione, se la variabile dipendente

    numerica. L'approccio seguito, da un punto di vista metodologico,

    non parametrico o distribution free, nel senso che non sono richieste

    assunzioni probabilistiche.

    Le applicazioni della segmentazione in campo aziendale sono numerose

    se si ritiene che questa metodologia possa essere impiegata per la

    risoluzione di diversi problemi decisionali, ad esempio nelle analisi -

    nanziarie delle banche (credit scoring), nella logistica, nel marketing

    per l'analisi delle tipologie di prodotto associate a tipologie di con-

    sumatore, per l'analisi dell'ecacia della comunicazione pubblicitaria,

    per l'analisi della customer satisfaction.

    I metodi associativi per la market basket analysis.Con la Market basket Analysis si vogliono identicare le relazioni es-

    istenti tra un vasto numero di prodotti acquistati da dierenti con-

    sumatori in un particolare luogo, come ad esempio un punto vendita

    della grande distribuzione. L'obiettivo principale dei metodi associativi

    quello di porre in evidenza la struttura di interdipendenza sottostante

    le vendite dei diversi prodotti disponibili. La corretta identicazione

    ed estrapolazione delle regole signicative tra tutte le possibili regole

    che possono essere generate da un insieme di dati condizionata alla

    disponibilit di un considerevole quantit di informazioni che permet-

    tano di identicare i clienti e seguire l'evoluzione dei loro acquisti nel

    corso del tempo.

    12

  • Capitolo 2

    Richiami di inferenza statistica

    2.1 Premessa

    L'inferenza statistica aronta problemi di decisione in condizioni di incertez-

    za, di previsione, o di conoscenza del mondo reale, basandosi sia su infor-

    mazioni a-priori sia su dati campionari e sperimentali, che per loro natura

    costituiscono aspetti parziali di tale realt. Il campionamento un elemen-

    to indispensabile, costituisce una fase preliminare all'inferenza statistica e

    consiste in un modo di osservare la natura e di accumulare informazioni con

    lo scopo di denire, in base ad esso, la strategia da seguire e le azioni da

    compiere per arrivare alla conoscenza della realt.

    Il campione osservato viene visto come la realizzazione di un modello di

    probabilit teorico che dipende da uno o pi parametri: in alcuni casi il mod-

    ello noto a meno dei parametri che costituiscono le caratteristiche incognite

    del fenomeno, in altri lo stesso modello teorico che deve essere ricercato

    sulla base delle osservazioni campionarie. Ad esempio, se si considera una

    classe di distribuzioni appartenenti ad un modello teorico noto a meno di al-

    cuni suoi parametri la decisione nale di una procedura inferenziale quella

    di essere indotti a ritenere pi plausibile che la popolazione appartenga ad

    una particolare distribuzione piuttosto che ad un'altra. Ci perch si ritiene

    pi probabile che l'osservazione campionaria sia stata generata da alcune

    distribuzioni di probabilit che da altre appartenenti al modello.

    L'inferenza statistica si propone di risolvere due diversi tipi di problemi.

    Va sotto il nome di teoria della stima l'obiettivo di conoscere il valore nu-

    merico o un intervallo di valori di uno o pi parametri incogniti del modello

    di probabilit teorico a partire dai dati campionari. Invece, con la teoria del-

    la prova delle ipotesi si vuole vericare in senso statistico, ovvero con regole

    13

  • di decisione, una certa aermazione fatta relativamente alla popolazione,

    ovvero se essa debba ritenersi vera o falsa sulla base di ci che appare dal

    campione.

    Gli approcci statistici che possono essere impiegati nel processo decision-

    ale inferenziale sono sostanzialmente tre: l'analisi statistica classica, l'analisi

    statistica bayesiana, l'analisi statistica delle decisioni.

    L'analisi statistica classica si basa sui seguenti fondamenti:

    la specicazione di un modello di probabilit teorico per la popolazione; l'osservazione analizzata come elemento di un campione, cio come larealizzazione di una delle distribuzioni di probabilit che costituiscono

    il modello;

    l'uso di funzioni delle osservazioni campionarie, di regole di decisionee di propriet di campionamento.

    I risultati dell'analisi statistica classica basata sul campione possono es-

    sere utilizzati a ni inferenziali, ovvero si potranno fare induzioni di tipo

    probabilistico sulle caratteristiche incognite della popolazione.

    L'analisi statistica bayesiana aggiunge ai precedenti i seguenti aspetti:

    la specicazione di una distribuzione di probabilit a-priori per i parametriincogniti del modello teorico denito sulla popolazione;

    l'obiettivo la revisione della distribuzione di probabilit a-priori inuna distribuzione a-posteriori derivata per mezzo del teorema di Bayes.

    L'informazione derivante dal campione viene usata per rivedere l'infor-

    mazione a-priori che si ha gi sul fenomeno.

    L'analisi pi completa rispetto alle precedenti senza dubbio l'analisi

    statistica delle decisioni in quanto oltre al modello e alla distribuzione a-

    priori si introduce anche una funzione perdita in modo da tener conto dei

    costi associati alle singole decisioni.

    2.2 Teoria della stima

    Sia data una popolazione nita e su di essa sia denita una v.c. X continuao discreta la cui funzione di densit o ditribuzione di probabilit dipenda

    completamente da un parametro (scalare), ovvero X f(x|) con ap-partenente allo spazio parametrico . Per stimare il valore di si ricorre ad

    14

  • un campione di n unit statistiche. Le osservazioni campionarie (x1, . . . , xn)sono le realizzazioni indipendenti delle v.c. (X1, . . . , Xn) ciascuna distribui-ta come la v.c. X. Si denisce funzione di verosimiglianza del campione lafunzione di probabilit congiunta descritta dalle n osservazioni (x1, . . . , xn),supposte indipendenti, denita nello spazio parametrico , ovvero

    L(x1, . . . , xn|) = f(x1, . . . , xn|) = if(xi|) (2.1)Si denisce stimatore del parametro una v.c. t(X1, . . . , Xn) denitaquale funzione nota (ovvero non contenente parametri incogniti) delle v.c.

    (X1, . . . , Xn). La stima il valore assunto dallo stimatore in corrispondenzadi un particolare campione, ovvero t(x1, . . . , xn) = . Le propriet deglistimatori per piccoli campioni sono note come

    correttezza se E(t) = , ecienza relativa se var(t) < var(t1) per un altro stimatore correttot1,

    ecienza assoluta se var(t) = [I()]1 dove I() l'Informazione diFisher relativo all'intero campione,

    sucienza quando lo stimatore sfrutta tutta l'informazione campionar-ia utile per la stima di .

    Inoltre, se esiste uno stimatore non distorto ed eciente questo uni-

    co e coincide con quello ottenuto con il metodo di massima verosimiglianza.

    Questo metodo di stima determina quale stima di il valore che rende massi-ma la funzione di verosimiglianza; in altre parole il valore che rende il cam-pione pi verosimilmente estratto da una popolazione f(x|) con parametro piuttosto che da altri valori del parametro.Le propriet degli stimatori per grandi campioni prendono in consid-

    erazione le leggi di convergenza delle variabili aleatorie. In particolare il

    teorema del limite centrale consente di stabilire che sotto determinate con-

    dizioni pur non essendo noto il modello teorico di riferimento la media cam-

    pionaria converge in distribuzione ad una normale. Inoltre, lo stimatore

    tn(X1, . . . , Xn) asintoticamente corretto se la sua distribuzione limite uguale a . Una propriet molto importante per la scelta di uno stimatore quella della consistenza che si ha quando lo stimatore converge in probabilit

    a .

    15

  • In molte applicazioni si preferisce eettuare una stima per intervalli in

    luogo di quella puntuale. L'obiettivo quello di valutare in termini prob-

    abilistici la precisione dello stimatore (ovvero la dispersione della sua dis-

    tribuzione campionaria intorno alla media), ovvero di quanto la stima siada considerarsi vicina al parametro incognito da stimare.

    Siano date le n v.c. X1, . . . , Xn indipendenti, ciascuna con funzionedi probabilit f(x|), e sia dato lo stimatore t(X1, . . . , Xn); si deniscanogli estremi casuali ta = t(X1, . . . , Xn) e tb = t(X1, . . . , Xn) + taliche Pr(ta < < tb) = 1 , l'intervallo casuale [ta, tb] un intervallo dicondenza per con livello di condenza (1 ).Qualunque sia , ssato il livello , per un ipotetico processo di estrazionicampionarie l'intervallo [ta, tb] conterrebbe nel 100(1)% di casi mentrelo escluderebbe nel 100%.Tanto minore il livello ssato di tanto pi ampio risulta l'intervallo dicondenza ad esso associato, e quindi minore la precisione dello stimatore

    nello stimare .Una volta che il campione estratto e si hanno le osservazioni campionarie

    (x1, . . . , xn), si calcolano le stime a e b. L'intervallo [a, b] non casualema l'insieme dei valori probabili per il parametro incognito .

    2.3 Teoria della verica delle ipotesi

    Alcuni problemi statistici in campo manageriale ed industriale vengono impo-

    stati come veri e propri problemi di decisione per il fatto che l'infor- mazione

    parziale fornita dai dati dell'esperimento o del campione usata per prendere

    una decisione immediata tra diverse azioni alternative. Nel seguito si fa rifer-

    imento al caso di due sole alternative possibili, mentre la generalizzazione

    verr proposta successivamente.

    L'obiettivo quello di vericare mediante una regola di decisione se

    un'ipotesi statistica debba ritenersi vera o falsa sulla base del valore assunto

    da una statistica test denita nello spazio campionario.

    Un'ipotesi statistica un'aermazione riguardante la funzione di prob-

    abilit f(x|) o il processo che ha generato le osservazioni campionarie.L'ipotesi statistica parametrica se l'aermazione riguarda uno o pi parametri

    della funzione di probabilit. Inoltre, essa semplice se permette di speci-

    care completamente la f(x|), mentre composta se riguarda una molteplic-it di funzioni. L'ipotesi statistica parametrica composta unidirezionale se

    del tipo > 0 o < 0, mentre bidirezionale se del tipo 6= 0.In genere si formulano due ipotesi H0 e H7 circa il valore che pu

    16

  • assumere. Si vuole stabilire se sia pi probabile che il campione osserva-

    to provenga da una popolazione con valore del parametro specicato sot-

    to l'ipotesi H0 (ipotesi nulla) o sotto l'ipotesi H1 (ipotesi alternativa). Laformulazione delle ipotesi H0 e H1 conduce ad una partizione dello spazioparametrico in due sottoinsiemi disgiunti: 2 indotto dall'ipotesi H0 e1, complementare a 7, indotto da H1.La statistica test d(X1, . . . , Xn) una funzione che fa corrispondere adogni campione casuale (X1, . . . , Xn) un valore numerico che pu essere clas-sicato come: coerente con l'ipotesi specicata sotto H0 e non coerente conl'ipotesi specicata sotto H6.Un test statistico d luogo ad una partizione dello spazio campionario

    in due sottoinsiemi complementari: la regione di accettazione, ovvero un

    insieme A costituito da valori del test compatibili con H0, la regione criticao di riuto, ovvero l'insieme C costituito da valori del test compatibili conH1.La regola di decisione il criterio statistico che consente di discriminare

    i valori numerici del test statistico appartenenti alla regione di accettazione

    da quelli appartenenti alla regione critica.

    La decisione nale a-posteriori del test statistico pu comportare uno

    solo di due tipi di errore:

    errore di I tipo se si riuta H0 quando H0 vera:

    Pr(EI) = Pr(d(X1, . . . , Xn) C| 0) = () (2.2)

    errore di II tipo se si accetta H0 quando H1 vera:

    Pr(EII) = Pr(d(X1, . . . , Xn) A| 1) = () (2.3)

    Entrambi gli errori EI ed EII possono essere invece commessi a-priori. Danotare che le probabilit associate a questi errori, e , variano in sensoopposto e naturalmente sono inversamente proporzionali alla numerosit del

    campione.

    L'ipotesi nulla H0 quella che si vuole provare falsa al di l di ogni ra-gionevole dubbio, mentre l'ipotesi alternativaH1 quella che si vuole provarevera.

    Per provare la falsit dell'ipotesi H0 al di l di ogni ragionevole dubbiooccorre ssare una regola di decisione che conduca ad una probabilit di

    commettere un errore di I tipo che possa ritenersi irrilevante, tale cio da

    non costituire un ragionevole dubbio. Nell'approccio classico si ssa a-priori

    17

  • il livello e si determina la soglia della regola di decisione che discrimina laregione critica C dalla regione di accettazione A.

    2.4 Le regole di decisione

    Si considerino due ipotesi alternative per il parametro incognito della popo-

    lazione: {H0 : = 0} e {H1 : = 1} che formano per semplicit ditrattazione lo spazio parametrico di .Si vuole denire una regola di decisione che, sulla base di un campione

    di n osservazioni E = (x1, . . . , xn) consenta di propendere per H0 o per H1.La soluzione proposta dall'approccio classico (secondo la teoria di Neyman-

    Pearson) consiste nell' eettuare un confronto tra la probabilit probativa

    del campione sotto H0 e quella sotto H1, ovvero:

    P (E|H0)P (L|H1) =

    L(x1, . . . , xn|0)L(x1, . . . , xn|1) = (2.4)

    dove L rappresenta la funzione di verosimiglianza.La regola di decisione potrebbe utilizzare il valore 1 quale va- lore dis-

    criminatorio tra le due ipotesi e quindi propendere per H0 se risulta 1e per H1 se invece < 1. Tuttavia, questo equivale ad assumere unaposizione di indierenza rispetto alle due ipotesi, mentre nella realt vi

    sempre una ipotesi ritenuta pi importante dell'altra e che pertanto non si

    vuole rigettare con troppa facilt quando invece vera. Tale ipotesi viene

    posta come ipotesi nulla e ci spiega anche perch l'errore di prima specie

    quello pi grave.

    Pertanto, ricordando che la probabilit di commettere l'errore di prima

    specie , la regola di decisione viene denita ssando ad un livello (basso)ritenuto accettabile e determinando quel valore tale che = P ( n0 sia:

    32

  • Pr{|Pn p| < } > 1 (4.3)dove > 0 rappresenta l'errore ammesso e 1 < 1 il livello di probabilit.Il problema della scelta della numerosit campionaria si risolve individ-

    uando un n0 tale che una pressata percentuale (1 %) (sucientementealta) di campioni dar luogo ad una stima accettabile nel senso che rientra

    in un pressato intervallo intorno al parametro di ampiezza 2:

    Pr{p < Pn < p+ } > 1 (4.4)Poich per n sucientemente grande la variabile binomiale relativa ap-prossimata da una normale (per il teorema di De Moivre-Laplace), con-

    siderando nella (4.4) la standardizzazione si ha z/2 = /p(1 p)/n dove

    z/2 il livello soglia che lascia nelle code un'area di probabilit pari a /2;si ricava = z/2

    p(1 p)/n. Per 1 = 0.95 si ha z0.025 = 1.96 per cui

    = 1.96p(1 p)/n Per maggiore sicurezza tale livello pu essere approssi-mato per eccesso con un valore pari a 2. Risolvendo rispetto a n si deducela soglia della numerosit campionaria n0 come:

    n0be =

    4p(1 p)2(4.5)

    che dipende da p. Usualmente si considera la situazione di massima variabil-it per la quale p = 0.5 che sostituita nella (4.5) suggerisce di scegliere unanumerosit campionaria n > 1/2. Pertanto la probabilit di avere campionisbagliati dipende dalla relazione tra n ed .Nel caso di estrazione senza ripetizione, ovvero in blocco, le variabili

    aleatorie che costituiscono il campione saranno non indipendenti in quan-

    to ad ogni estrazione la probabilit di successo si modica modicandosi di

    estrazione in estrazione la popolazione. In tal caso lo stimatore frequen-

    za relativa di successi si distribuisce come una ipergeometrica con media

    E(Pn) = p e var(Pn) =p(1p)

    nNnN1 . Si osserva in particolare che si ha unariduzione della variabilit delle stime e ci comporter che a parit di ed si avr una riduzione della numerosit campionaria. Infatti, partendo dal-la (4.3) e procedendo in maniera analoga a prima si deduce la soglia della

    numerosit campionaria in caso di estrazione in blocco:

    n0bl =

    4p(1 p)N2(N 1) + 4p(1 p) (4.6)

    e per p = 0.5 si ha n > N2(N1)+1 .

    33

  • Nel problema pi generale della stima della media di una popolazionesi impiega lo stimatore media campionaria, corretto ed eciente, denito

    come:

    Xn =1n

    ni=1

    Xi (4.7)

    con media E(Xn) = e var(Xn) = 2

    n nel caso di estrazione con ripetizione

    e var(Xn) = 2

    nNnN1 nel caso di estrazione in blocco. Applicando la leggedebole dei grandi numeri si ha che questo stimatore converge in probabilit

    al parametro da stimare:

    limnPr{|Xn | < } = 1 (4.8)Poich per n sucientemente grande la media campionaria si distribuiscecome una normale (per il teorema del limite centrale) si potr seguire lo stesso

    procedimento illustrato sopra che conduce alla numerosit del campione:

    n0be =

    42

    2(4.9)

    nel caso di estrazione con ripetizione e

    n0bl =

    42N2(N 1) + 42 (4.10)

    nel caso di estrazione senza ripetizione. Il problema della stima della varianza

    non nota si pu risolvere in due modi: (1) per campioni grandi la varian-

    za potr essere stimata con la varianza campionaria corretta impiegando

    una parte delle unit del campione in un'indagine pilota; (2) altrimenti si

    potr considerare una situazione di stima sfavorevole rappresentata da una

    popolazione distribuita uniformemente; in quest'ultimo caso la stima della

    varianza sar data dalla varianza di una uniforme distribuita fra il valore

    minimo a ed il valore massimo b:

    2 =(b a)2

    12(4.11)

    4.3 Il campionamento straticato

    Nel campionamento straticato la popolazione viene ripartita in sottopopo-

    lazioni dette strati. La straticazione risponde a diversi obiettivi, quale ad

    34

  • esempio quello di caratterizzare l'indagine per aree geograche e di intro-

    durre in generale il massimo controllo pur mantendo casuale la struttura di

    selezione del campione in ogni strato. La scelta della variabile di strati-

    cazione dovrebbe soddisfare l'esigenza di ottenere strati nei quali la variabil-

    it del fenomeno sia approssimativamente costante (internamente omogenei)

    e tra i quali la variabilit sia massima (esternamente eterogenei). Si con-

    sideri una variabile di straticazione S (qualitativa o quantitativa) le cuiK modalit s1, . . . , sK consentono di suddividere la popolazione in Kstrati 1, . . . ,K tali che Kk=1k = per i 6= j (straticazione esaustiva)e i j = (strati disgiunti) di numerosit N1, . . . , NK rispettivamente(con

    kNk = N).Si supponga sia denita sulla popolazione una variabile aleatoria X edi voler stimare la media generale che pu essere denita come mediaponderata delle medie parziali k nei diversi strati, =

    k kNk/N . Lavarianza totale della variabile aleatoria X pu essere espressa come sommadi due componenti:

    2 =k

    2kNkN

    +k

    (k )2NkN(4.12)

    dove 2k la varianza nel k-esimo strato. La varianza totale in parte dovu-ta alla variabilit della variabile aleatoria X nei diversi strati e in partealla variabilit delle medie parziali rispetto alla media generale. La strat-

    icazione sar tanto pi buona quanto pi la seconda componente risulta

    grande rispetto alla prima. In tal caso infatti quanto pi gli strati sono

    omogenei internamente, ovvero con bassa variabilit, tanto minore sar la

    numerosit del campione a parit di errore campionario. Nell'eettuare il

    campionamento in ogni strato non si tiene conto della seconda componente,

    bens occorrer tener conto della variabilit internamente ai singoli strati.

    Nel campionamento straticato, una volta denita la numerosit totale

    del campione n sorge il problema di ripartire questa numerosit nei diversistrati, ovvero estraendo casualmente K sottocampioni di numerosit rispet-tivamente n1, . . . , nK , un sottocampione per ogni strato. Nel seguito si fariferimento ad estrazioni bernoulliane sebbene sia possibile estendere i con-

    cetti al caso di estrazioni senza ripetizione. Il campione totale Cn costituitoda K sottocampioni del tipo (Xk1, . . . , Xknk) per k = 1, . . . ,K. Quale sti-matore non distorto ed eciente della media parziale k nel k-esimo stratosi considera la media campionaria Mk con E(Mk) = k e var(Mk) = 2k/nk(estrazione con ripetizione). La media generale potr essere stimata da

    35

  • Xn =Kk=1

    MkNkN(4.13)

    con media E(Xn) = e in particolare si pu dimostrare che la varianza data dalla seguente espressione:

    var(Xn) =k

    2knk

    N2kN2(4.14)

    La varianza della stima globale della media della popolazione funzione

    inversa del numero di estrazioni che vengono eettuate all'interno di ogni

    strato. Una volta che gli strati sono deniti, facendo variare nk si fa variarela varianza della stima.

    La ripartizione ottimale di n nei diversi strati dovr essere eettuatadeterminando le numerosit dei singoli sottocampioni che minimizzano la

    varianza della stima (4.14). Si tratta di risolvere un problema di minimo

    vincolato, ovvero minimizzare la (4.14) con il vincolo che

    k nk = n. Siottiene quale soluzione:

    nkso = n

    kNkk kNk(4.15)

    dove si evince che la numerosit nk nel k-esimo strato dipende direttamentedallo scarto quadratico medio e dalla numerosit della popolazione nel k-esimo strato. Sostituendo la (4.15) nella (4.14) si ottiene la varianza della

    stima nel caso di campionamento straticato con ripartizione ottimale:

    var(Xn)so =

    1n(

    k kNkN

    )2

    (4.16)

    che pu essere interpretata come il quadrato della media ponderata degli

    scarti quadratici medi. Naturalmente per poter impiegare questo schema

    di campionamento occorre stimare la varianza non nota nei singoli strati

    attraverso un'indagine pilota.

    Quale alternativa alla ripartizione ottimale si pu considerare la ripar-

    tizione proporzionale determinando le numerosit nei singoli strati come:

    nksp = n

    NkN(4.17)

    nel quale non si considera la variabilit nei singoli strati e quindi uno stra-

    to pi numeroso pu essere meno variabile e uno strato meno numeroso

    36

  • pu essere pi variabile. Sostituendo la (4.17) nella (4.14) si ottiene la var-

    ianza della stima nel caso di campionamento straticato con ripartizione

    proporzionale:

    var(Xn)sp =

    1n

    k

    2kNkN(4.18)

    che pu essere interpretata come il momento secondo degli scarti quadratici

    medi. Dal confronto tra (4.16) e (4.18) si evince che

    var(Xn)so var(Xn)sp (4.19)dove l'uguaglianza si ha quando le varianze negli strati sono tutte uguali fra

    loro cos che la (4.15) uguale alla (4.17).

    Se si vuole estendere il confronto al campionamento semplice si dovr

    considerare la varianza della stima:

    var(Xn)cs =

    2

    n(4.20)

    Considerando la (4.12) si pu scrivere la (4.20) come

    var(Xn)cs =

    1n

    k

    2kNkN

    +1n

    k

    (k )2NkN(4.21)

    Poich la prima componente proprio la varianza della stima nel campiona-

    mento straticato proporzionale si ha che:

    var(Xn)sp var(Xn)cs (4.22)dove l'uguaglianza si ha quando le medie negli strati sono tutte uguali fra

    loro: k = per ogni k.In conclusione, la stima pi eciente, nel senso di fornire l'errore cam-

    pionario pi piccolo, ha bisogno di una numerosit pi piccola. Rispetto

    al campionamento semplice il campionamento straticato conviene quando

    la variabile di straticazione conduce a una dierenza in media tra i diver-

    si strati. Si preferisce la straticazione con ripartizione ottimale rispetto a

    quella proporzionale quando i diversi strati hanno diversa variabilit.

    37

  • Capitolo 5

    Il modello dell(analisi della

    varianza

    5.1 Premessa

    L'analisi della varianza estende il test sulla dierenza tra le medie di due

    popolazioni a pi popolazioni. Essa viene infatti impiegata per vericare

    l'ipotesi nulla di uguaglianza di h medie di altrettante popolazioni discrim-inate sulla base delle modalit (o livelli) di un fattore sperimentale A chepu essere assimilato ad una variabile qualitativa. Il principio su cui si fonda

    l'ANOVA (ANalysis Of VAriance) che la variabilita' apporta informazione

    sulle cause dei fenomeni e sulla loro relazione. Per comprendere le caratter-

    istiche di tale tipo di analisi, si consideri il caso di una ditta farmaceutica

    che vuole vericare se tre prodotti volti alla cura della medesima patologia

    siano o meno ugualmente ecaci.

    A tale scopo, i farmaci vengono somministrati ad alcune cavie andando

    poi a misurare su di esse il loro eetto. Nella analisi della varianza, quindi,

    si ha un fattore qualitativo A che agisce" mentre la variabile di risposta Y numerica. Se i tre farmaci sono ugualmente ecaci, le risposte ai trattamenti

    da parte delle cavie dovrebbero essere in media non troppo diverse. Sinte-

    tizzando al massimo, potremmo dire che scopo della analisi della varianza

    stabilire cosa debba intendersi per troppo diverse". In caso di uguaglian-

    za degli eetti, le dierenze che si riscontrano tra le medie delle risposte ai

    trattamenti da parte dei tre gruppi di cavie vanno ascritte alla variabilit

    sperimentale o componente accidentale delle risposte sperimentali che fa si

    che la risposta dierisca da cavia a cavia anche quando queste sono sotto-

    poste al medesimo trattamento. Questo tipo di dierenze sono infatti dovute

    38

  • ad un complesso molto ampio di cause che sfuggono al controllo dello speri-

    mentatore e che vengono allora conglobate nella componente accidentale, a

    sua volta rappresentata mediante una variabile casuale. Per tale variabile

    casuale si ipotizza, in applicazione del teorema di Laplace, una distribuzione

    di tipo normale. Dalla normalit della componente accidentale discende che

    le risposte da parte dei tre gruppi di cavie possono essere riguardate come

    altrettanti campioni estratti da popolazioni anch'esse normali e con media

    diversa od uguale a seconda che i farmaci siano o meno parimente ecaci.

    5.2 L'analisi della varianza ad un fattore

    5.2.1 Il modello

    Sia A un fattore sperimentale ad h modalit e siano i (per i = 1, . . . , h) lemedie delle popolazioni da cui si possono ritenere estratti h campioni. Talimedie possono essere scisse nella somma di due componenti:

    i = + i, (5.1)

    dove rappresenta la media comune delle h popolazioni e i l'eetto dovutoal trattamento con la i-esima modalit del fattore sperimentale. Si ipotizzache le risposte siano generate da un modello lineare del tipo:

    yij = + i + ij (5.2)

    dove yij rappresenta la j-esima risposta (per j = 1, . . . , ni, con

    i ni = n) altrattamento con la i-esima modalit del fattore, decomposta nella somma didue componenti, una parte sistematica + i ed una parte accidentale ij ,detta errore, che sintetizza la variabilit sperimentale. Qualora il numero

    delle osservazioni sperimentali costante per ciascun trattamento ipotizzato

    (ni = n/h per ogni i) si denisce un disegno sperimentale bilanciato. Secondola (5.2), la risposta yij risulta determinata da una forma additiva e lineareche considera l'eetto medio generale e costante nell'esperimento (ossia ),l'eetto dovuto al trattamento i-esimo rispetto al livello medio generale (ossiai), l'eetto erratico legato alla j-esima osservazione sperimentale. Al nedi identicare gli h + 1 parametri del modello si pone, senza perdere ingeneralit, il vincolo che

    i i = 0. Per la componente accidentale valgonole seguenti ipotesi:

    E(ij) = 0, (5.3)

    E(ij2) = 2, (5.4)

    39

  • E(ij , kl) = 0, i 6= k, j 6= l (5.5)Si ipotizza inoltre che l'errore si distribuisca come una variabile casuale

    normale da cui discende che:

    yij N(i, 2). (5.6)Si distingue il modello ad eetti ssi, per il quale i livelli del fattore speri-

    mentale sono deterministici (in quanto si considerano tutti i possibili livelli

    del fattore sperimentale), dal modello ad eetti casuali o randomizzato, per

    il quale i livelli del fattore discendono da un'estrazione casuale e pertanto gli

    i sono variabili aleatorie che soddisfano ipotesi analoghe a quelle formulateper gli errori ij :

    E(i) = 0, (5.7)

    E(i2) = 2, (5.8)

    E(i, l) = 0, i 6= l (5.9)Si assume inoltre che vi sia indipendenza tra le variabili aleatorie i ed ij . Ladierenza tra un modello ad eetti ssi ed un modello ad eetti casuali, nel

    caso di un solo fattore di classicazione, non foriera di alcuna conseguenza

    sotto il prolo delle modalit di espletamento dell'analisi inferenziale.

    5.2.2 Il test

    L'ipotesi nulla di uguaglianza delle hmedie pu essere espressa nella seguenteforma:

    H0 : i = 0, i (5.10)Allo scopo di eettuare il test, si considera la devianza campionaria totale

    di Y :

    SST =i

    j

    (yij y..)2 (5.11)

    dove y.. rappresenta la media campionaria generale. Sia inoltre yi. la mediacampionaria relativa all'i-esimo livello del fattore, la devianza campionariatotale pu essere decomposta in devianza tra i trattamenti e devianza entro

    i trattamenti:

    40

  • i

    j

    (yij y..)2 =i

    (yi. y..)2ni +i

    y

    (yij yi.)2 (5.12)

    Se indichiamo con SSA la devianza campionaria tra i trattamenti (cio laparte della devianza campionaria totale spiegata dai livelli del fattore) e con

    SSE la devianza campionaria entro i trattamenti (cio la parte dovuta allavariabilit sperimentale) si ha:

    SST = SSA+ SSE (5.13)

    Si dimostra che le seguenti varianze campionarie corrette:

    MST =SST

    n 1 (5.14)

    MSA =SSA

    h 1 (5.15)

    MSE =SSE

    n h (5.16)

    sono stimatori non distorti per 2. Assumendo la normalit degli errori, si hache se vera l'ipotesi nulla allora si hanno due variabili aleatorie chi-quadrato

    indipendenti:

    SSA

    2 2h1 (5.17)

    SSE

    2 2nh (5.18)Pertanto, il test pu essere condotto considerando il seguente rapporto:

    F =MSA

    MSE(5.19)

    che si distribuisce come una variabile aleatoria F di Fisher con (h1), (nh)gradi di libert. Pi tale rapporto risulta elevato, maggiore il contributo dei

    livelli del fattore sperimentale alla spiegazione della variabilit del fenomeno

    osservato, ci che induce a rigettare l'ipotesi nulla. Associato al livello em-

    pirico della F si indica usualmente il pi piccolo livello di signicativit deltest (indicato con pA) per rigettare l'ipotesi nulla di assenza dell'eetto delfattore A sulla risposta: pi basso questo valore pi inverosimile l'ipotesinulla data l'evidenza empirica. La tabella riassuntiva dell'ANOVA ad un

    fattore sperimentale riepiloga i risultati del test statistico.

    41

  • Origine della Somma dei Gradi di Media dei Rapporto F sign.variabilit quadrati libert quadrati

    Tra i SSA h 1 MSA MSA/MSE pAgruppi

    Interna ai SSE n h MSEgruppi

    Totale SST n 1

    Tabella 5.1: Analisi della varianza ad un fattore sperimentale

    Se si rigetta l'ipotesi nulla signica che esiste almeno un livello del fattore per

    il quale l'ipotesi nulla non vericata, ossia la media del gruppo dierisce

    dalla media generale.

    5.2.3 I confronti multipli

    Il ricercatore interessato ad individuare quale gruppo abbia contribuito al

    rigetto dell'ipotesi nulla (e che ha determinato un aumento della variabil-

    it dovuta al fattore A) dovrebbe procedere ad eettuare tutti i confrontisimultanei tra coppie di gruppi. Diversi sono gli approcci possibili.

    Una procedura tradizionale denominata Least Signicant Dierence (LSD)

    si basa sulla costruzione di un intervallo di condenza per la dierenza fra

    ciascuna coppia di medie (i l) considerando la statistica t di Student:

    (yi. yl.) t/2;(nh)s[1ni

    +1nl]1/2

    (5.20)

    dove s2 = SSE/(n h). Ciascuna coppia di medie potr essere validatausando l'intervallo (5.20): se l'intervallo conterr lo zero allora le medie non

    dieriscono signicativamente al livello .Il metodo di Sche propone un test pi conservativo per il quale l'inter-

    vallo di condenza viene costruito considerando la statistica F :

    (yi. yl.) s[(h 1)F;(h1)(nh)1ni

    +1nl]1/2

    (5.21)

    cos che l'errore campionario dipende da per ciascuna coppia di medie.In generale, i confronti tra coppie di medie rappresentano casi particolari

    di un confronto (o contrasto) denito dalla combinazione lineare:

    42

  • L =hi

    ii (5.22)

    tale che

    i i = 0. Due confronti, caratterizzati dai coecienti i e i(per i = 1, . . . , h) tali che

    i ii = 0, sono detti confronti ortogonali. possibile procedere al confronto simultaneo tra pi medie. Per esem-

    pio, se il ricercatore sostiene che a priori si ha 1 = 3 e 2 = 4 mache (1, 3) 6= (2, 4) allora un'ipotesi nulla da vericare sar del tipoH0 : (1+3)/2 (2+4)/2 = 0. Questa ipotesi un confronto con coe-cienti (1/2,1/2, 1/2,1/2) rispettivamente per (1, 2, 3, 4). Il metododi Sche per il confronto fra coppie di medie potr essere esteso al confronto

    L considerando l'intervallo di condenza:

    hi

    iyi. s[(h 1)F;(h1)(nh)hi

    2i/ni]

    1/2

    (5.23)

    Questo metodo assume che per tutti i confronti possibili la proporzione di

    intervalli che non include lo zero pari ad se le h medie della popolazionesono uguali, controllando in tal modo l'errore di primo tipo del test. Qualora

    si rigetta l'ipotesi nulla che tutte le medie sono uguali fra loro simultanea-

    mente, allora esister un confronto che dierir signicativamente da zero. I

    coecienti del confronto che dar il pi grande valore di

    [hi

    iyi.]

    2

    /[s2hi

    2i/ni] (5.24)

    sono dati da i = ni(yi. y..), per i = 1, . . . , h. Questo confronto sar ilprimo responsabile del rigetto dell'ipotesi nulla che tutte le medie sono uguali

    fra loro.

    5.2.4 Le condizioni di applicabilit

    In conclusione, le condizioni di applicabilit del modello ANOVA ad un fat-

    tore sono: normalit degli errori, indipendenza ed additivit degli eetti,

    omoschedasticit delle varianze fra i gruppi. Sono previsti anche alcuni test

    statistici che consentono di vericare a priori le condizioni di applicabilit

    del modello. In particolare si pu far riferimento al test di Hartley per quan-

    to concerne l'ipotesi di omoschedasticit, ossia di uguaglianza delle varianze

    delle popolazioni da cui sono estratti i campioni. Esso si basa sul confronto

    43

  • tra le varianze campionarie corrette massime e minime assumendo sia un

    disegno bilanciato che la plausibilit dell'ipotesi di normalit degli errori. In

    generale, il test sul confronto tra le medie robusto alla non normalit degli

    errori, cos che per la verica della omoschedasticit si pu far ricorso a test

    non parametrici (test sui ranghi, test basati su tecniche di ricampionamento

    del tipo jackknife).

    5.3 L'analisi della varianza a due fattori

    L'analisi della varianza pu essere generalizzata al caso di pi fattori, nel

    seguito ne saranno considerati due. Per illustrare tale caso, si consideri il

    seguente esempio: il direttore marketing di una catena di supermercati vuole

    studiare l'eetto che la disposizione dei prodotti negli scaali ha sulle vendite,

    considerando al contempo, diverse dimensioni di supermercato. Quando si

    analizzano due fattori, si pu essere interessati nel vericare se vi sia un

    eetto di ciascuno dei fattori, e se inoltre vi sia anche un eetto dovuto alla

    interazione tra essi. Nel seguito, si far riferimento dapprima ad un modello

    senza interazione e successivamente si illustrer il modello con interazione.

    Siano allora A e B due fattori sperimentali rispettivamente ad h e glivelli, e si considerino hg possibili trattamenti per un totale di n = hgosservazioni (ossia ciascun trattamento, formato dalla combinazione di due

    rispettivi livelli dei fattori, osservato esclusivamente una volta). Il modello

    espresso nel seguente modo:

    yij = + i + j + ij (5.25)

    dove rappresenta la media generale delle hg popolazioni, i uno scosta-mento da questa dovuto all'eetto dell'i-esimo livello del fattore A e juno scostamento dovuto al j-esimo livello del fattore B con i = 1, . . . , h,e j = 1, . . . , g, inne, ij rappresenta come sopra la variabilit sperimentale.Inoltre, si assume, senza perdere in generalit,

    i i = 0 e

    j j = 0. Nelcaso di modello randomizzato, sia i che j sono variabili casuali per le qualivalgono le consuete ipotesi gi viste sopra per i nel modello ad un fattore.Si assume che vi sia indipendenza tra i, j ed .

    L'ipotesi nulla di uguaglianza delle hg medie pu essere scissa in duesotto ipotesi:

    H01 : i = 0, i (5.26)H02 : j = 0, j (5.27)

    44

  • Queste ipotesi vengono sottoposte a verica scindendo la devianza campi-

    onaria totale nel seguente modo:i

    j

    (yij y..)2 = (5.28)

    +i

    (yi. y..)2g+ (5.29)

    +j

    (y.j y..)2h+ (5.30)

    +i

    j

    (yij yi. y.j + y..)2 (5.31)

    dove y.. la media campionaria generale, yi. la media delle risposte cam-pionarie per l' i-esimo livello di A qualunque sia il livello di B e y.j la me-dia delle risposte campionarie per il j-esimo livello di B qualunque sia illivello di A. La (5.28) si decompone in una componente (5.29) dovuta alfattore A (SSA), in una componente (5.30) dovuta al fattore B (SSB) edun'ultima dovuta alla variabilit sperimentale SSE. Il test viene condottoconsiderando i rapporti:

    F =SSA/(h 1)

    SSE/(h 1)(g 1) (5.32)

    F =SSB/(g 1)

    SSE/(h 1)(g 1) (5.33)

    che, con ragionamento analogo a quello eettuato per il modello ad un fat-

    tore, se sono vere le ipotesi nulle, ed assumendo la normalit degli errori,

    si distribuiscono come la variabile casuale F di Fisher con gradi di libertrispettivamente pari a (h 1), (h 1)(g 1) e pari a (g 1), (h 1)(g 1).Anche in questo caso, si concluder per il rigetto di ciascuna ipotesi nulla

    se il relativo rapporto considerato risulta elevato cos che saranno bassi i

    corrispondenti valori di signicativit.

    Se si vuole impiegare un modello con interazione, ricordando l'esempio dei

    supermercati, si ha che per ciascun trattamento, ossia ciascuna combinazione

    tra tipo di disposizione della merce e dimensione del supermercato, vengono

    considerate delle replicazioni. Si supponga per semplicit che il numero di

    replicazioni sia costante e pari ad r per ogni combinazione dei livelli delprimo e del secondo fattore. Quindi i trattamenti possibili sono ancora ghmentre il numero complessivo di osservazioni n = rhg. Il modello diviene:

    45

  • Origine della Somma dei Gradi di Media dei Rapporto F sign.variabilit quadrati libert quadrati

    Fattore A SSA h 1 MSA MSA/MSE pAFattore B SSB g 1 MSB MSB/MSE pBResiduale SSE (h-1)(g-1) MSETotale SST n 1

    Tabella 5.2: Analisi della varianza a due fattori, modello senza interazione

    yijk = + i + j + ij + ijk (5.34)

    k = 1, . . . , r (5.35)

    dove ij esprime l'eetto dovuto alla interazione tra i due fattori e, nel casodi modello ad eetti casuali, anche esso una variabile casuale per la quale

    valgono le usuali ipotesi. Alle ipotesi specicate sopra (5.26 e 5.27), se ne

    aggiunge una terza, ovvero:

    H03 : ij = 0, i, j (5.36)La presenza di una interazione comporta che la devianza campionaria totale

    venga scissa nelle seguenti componenti:i

    j

    k

    (yijk y...)2 = (5.37)

    i

    (yi.. y...)2gr+ (5.38)

    +j

    (y.j. y...)2hr+ (5.39)

    +i

    j

    (yij. yi.. y.j. + y...)2)r+ (5.40)

    +i

    j

    k

    (yijk yij.)2 (5.41)

    dove yij. rappresenta la media campionaria delle risposte al trattamento conl' i-esimo livello di A e con il j-esimo livello di B. Nella decomposizione delladevianza totale compare dunque, una ulteriore componente che rappresenta

    46

  • la parte della devianza campionaria totale dovuta alla interazione; ci com-

    porta una modica della componente residuale. Inoltre, quando si considera

    la interazione tra i due fattori, l'analisi viene condotta in modo dierente per

    il modello ad eetti ssi e per quello ad eetti casuali. Nel caso di eetti ssi

    infatti, si considerano i rapporti F (5.32 e 5.33) a cui si aggiunge il rapporto:

    F =SSI/(h 1)(g 1)SSE/(n hg) F(h1)(g1),(nhg) (5.42)

    che, se risulta elevato, evidenzia la presenza di una signicativa interazione

    tra i due fattori.

    Origine della Somma dei Gradi di Media dei Rapporto F sign.variabilit quadrati libert quadrati

    Fattore A SSA h 1 MSA MSA/MSE pAFattore B SSB g 1 MSB MSB/MSE pBInterazione SSI (h 1)(g 1) MSI MSI/MSE pISpiegata SSL hg 1Residuale SSE n hg MSETotale SST n 1

    Tabella 5.3: Analisi della varianza a due fattori, modello con interazione ad

    eetti ssi

    Se gli eetti sono invece casuali, si rapportano le stime corrette delle varianze

    campionarie relative ai fattoriA eB alla stima della varianza corretta relativaalla interazione ottenendo:

    F =SSA/(h 1)

    SSI/(h 1)(g 1) (5.43)

    F =SSB/(g 1)

    SSI/(h 1)(g 1) (5.44)

    47

  • Origine della Somma dei Gradi di Media dei Rapporto F sign.variabilit quadrati libert quadrati

    Fattore A SSA h 1 MSA MSA/MSI pAFattore B SSB g 1 MSB MSB/MSI pBInterazione SSI (h 1)(g 1) MSI MSI/MSE pISpiegata SSL hg 1Residua SSE n hg MSETotale SST n 1

    Tabella 5.4: Analisi della varianza a due fattori, modello con interazione ad

    eetti casuali

    48

  • Capitolo 6

    Il modello di regressione

    lineare multipla

    6.1 Premessa

    Per elaborare delle teorie economiche occorre raggruppare le relazioni tra

    variabili in modo da formare un modello. Un modello statistico una rap-

    presentazione parsimoniosa, fedele e necessaria della realt derivata dall'ev-

    idenza empirica e da deduzioni logiche. La realt osservata, si formulano

    delle ipotesi, si assumono delle relazioni di causa ed eetto tra le variabili

    di interesse, ci si avvale delle conoscenze a-priori derivanti da teorie. Ci si

    traduce nella formalizzazione di un modello statistico, basato su una strut-

    tura probabilistica, che viene sottoposto ad inferenza mediante un'indagine

    campionaria.

    La costruzione di un modello statistico si concretizza in tre fasi succes-

    sive: specicazione, stima dei parametri, verica. La fase pi delicata la

    ricerca di una corretta specicazione del modello. Sulla base di conoscen-

    ze a-priori derivanti da teorie, assunzioni, ipotesi, risultati sperimentali, si

    formula una relazione funzionale tra le variabili di interesse individuando

    la funzione f() che lega la variabile dipendente Y e le variabili esplicativeo predittori (X1, . . . , XK). Lo statistico introdurr un elemento stocasticonella specicazione del modello anch questo sia parsimonioso cos da cos-

    tituire un'approssimazione fedele della realt, di sua natura sar un modello

    non deterministico. La relazione funzionale pi semplice tra due variabili

    data dall'equazione di una retta cos da ottenere:

    Y = 1 + 2X + u (6.1)

    49

  • dove i parametri sono 1 e 2, rispettivamente intercetta e coeciente ango-lare della retta, mentre u la componente aleatoria o stocastica che riassumeil non spiegato teoricamente (le variabili omesse) cos come l'errore di mis-

    urazione. L'obiettivo sar quello di pervenire a delle stime dei parametri del

    modello e di vericare la bont di adattamento del modello ai dati per una

    possibile generalizzazione delle aermazioni teoriche suragate dall'evidenza

    empirica.

    6.2 Il modello classico di regressione lineare sem-

    plice

    6.2.1 Il modello e le ipotesi

    Il modello di cui si tratta nel seguito detto modello classico di regressione

    lineare semplice. Esso detto semplice poich considera la relazione tra due

    sole variabili a dierenza di quello multiplo che include pi predittori. Il

    termine lineare sar riferito ai parametri indipendentemente dalle variabili

    che possono essere opportunamente trasformate. Il modello poi basato su

    ipotesi dette classiche, che fanno di questo modello il punto di riferimen-

    to per altri modelli basati sulla rimozione di talune delle ipotesi classiche.

    Il modello, inne, detto di regressione poich con esso si intende stimare

    o predire il valor medio della variabile dipendente sulla base di valori pre-

    ssati della variabile esplicativa, per cui si dice che la variabile dipendente

    regredisce verso la media al variare dei valori della variabile esplicativa.

    Si supponga di studiare la spesa per consumo settimanale di un dato

    prodotto (i.e., la variabile dipendente Y ) in funzione di diversi livelli di red-dito (i.e., la variabile esplicativa X). Lo statistico dovr scegliere la relazioneche spieghi il valore atteso della distribuzione condizionata di Y dato il livelloi-esimo di X distinguendo il caso discreto:

    E(Y |X = xi) =

    yp(y|xi) (6.2)dove p(y|xi) descrive la distribuzione di probabilit condizionata al livelloi-esimo del reddito, dal caso continuo

    E(Y |X = xi) =yf(y|xi)dy (6.3)

    dove f(y|xi) descrive la funzione di densit di probabilit condizionata allivello i-esimo del reddito.

    50

  • Si pu ipotizzare che nella popolazione la spesa media settimanale sia

    funzione lineare del reddito. Ci si traduce nell'assumere che la rappre-

    sentazione cartesiana dei punti di coordinate date dal livello di reddito xie valore atteso della spesa E(Y |X = xi) sia descritta esattamente da unaretta, detta di regressione, denita come

    E(Y |xi) = f(xi) = 1 + 2xi (6.4)dove 1 l'intercetta e 2 il coeciente di regressione che descrive anchela pendenza della retta. Invero, se si osserva un individuo con reddito pari a

    xi e spesa per consumo pari a yi, sar naturale ritenere che questa spesa noncoincida esattamente con il valore atteso del gruppo, ovvero sar maggiore o

    minore del valore atteso, e tale scostamento sar descritto da una variabile

    casuale denominata errore:

    ui = yi E(Y |xi) (6.5)in quanto strettamente legato al processo di estrazione casuale dell'indi-

    viduo dalla popolazione. Pertanto, se si osserva un campione di n individuiper i quali si hanno le osservazioni (xi, yi), il modello sar denito come

    yi = E(Y |xi) + ui (6.6)dove E(Y |xi) costituisce la componente deterministica del modello e ui lacomponente stocastica del modello che rende yi realizzazione anch'essa di unavariabile aleatoria. Assumendo la linearit rispetto a X il modello diventa:

    yi = 1 + 2xi + ui (6.7)

    La v.c. ui detta errore e rappresenta non solo tutte le variabili omesse dalmodello, ma anche un elemento di casualit fondamentale e non prevedibile

    del fenomeno stesso, oltre agli errori di misura che si sono potuti commettere

    all'atto della rilevazione dei dati. opportuno considerare alcune ipotesi,

    dette classiche, sulla distribuzione di probabilit di questa pertubazione e

    sul modello in generale:

    1. Il valore atteso di ciascuna v.c. errore uguale a zero:

    E(ui) = 0 E(yi) = E[E(Y |xi)] + E(ui) = 1 + 2xi (6.8)il ch signica che non c' errore sistematico. Questa ipotesi non re-

    strittiva in quanto un eventuale errore sistematico verrebbe incorporato

    nell'intercetta del modello;

    51

  • 2. La varianza dell'errore costante:

    var(ui) = 2 var(yi) = 2,i (6.9)

    per cui si dice che c' omoschedasticit degli errori. Questa ipotesi

    restrittiva per dati di tipo sezionale (cross-section) (n individui osser-vati al tempo t) ed pi realistica per le serie temporali (un individuoosservato n volte dal tempo t al tempo t + n). Infatti, se ad esempiosi considera la spesa per consumo in funzione del reddito lecito sup-

    porre che la variabilit della spesa sia crescente con il livello del reddito

    (eteroschedasticit);

    3. La covarianza degli errori uguale a zero:

    cov(ui, uj) = E(uiuj) E(ui)E(uj) = 0,i 6= j (6.10)

    per cui gli errori sono incorrelati, ma non necessariamente indipendenti

    (salvo nel caso di normalit delle variabili). Questa ipotesi scarsa-

    mente realistica per le serie temporali per le quali si osserva il fenomeno

    dell'autocorrelazione degli errori;

    4. La variabile esplicativa X non aleatoria, ovvero non correlata conl'errore:

    cov(xi, ui) = 0,i (6.11)

    per cui si intende che il campione sia stato estratto dalle distribuzioni

    condizionate di Y dati i livelli della variabile X;

    5. Il modello correttamente specicato. Questa un'ipotesi implicita del

    modello la cui plausibilit dipende fortemente dalle conoscenze a-priori

    del ricercatore. Se ad esempio si vuole stimare la relazione tra salario

    monetario e tasso di disoccupazione come illustrata dalla ben nota

    curva di Phillips, e si sceglie erroneamente la retta si determinereb-

    bero delle predizioni errate nel senso di sovrastimare in taluni casi e

    sottostimare in altri. Il problema che nella pratica non si conoscono,

    come per la curva di Phillips, le variabili esatte da includere nel mod-

    ello e la forma funzionale corretta che leghi tali variabili. Si formulano

    delle ipotesi sulla natura stocastica del modello e sulle variabili in esso

    incluse;

    52

  • 6. La varianza di X, supposta diversa da zero, non deve essere eccessiva-mente elevata, altrimenti un'analisi lineare condurrebbe a soluzioni non

    informative. Si immagini una rappresentazione cartesiana delle osser-

    vazioni per le quali il campo di variazione della X sia molto ampio:ci signica che la nube di punti si disperde rispetto la direzione del-

    l'asse delle ascisse e la retta di regressione avr presumibilmente una

    pendenza pressocch nulla.

    6.2.2 La stima dei parametri

    Il modello di regressione (6.7) dovr essere stimato al ne di pervenire ad

    una stima del valore atteso (6.4) indicata come:

    yi = 1 + 2xi (6.12)

    dove 1 e 2 saranno le stime dei parametri. In tal modo, il dato osservatopotr esprimersi come somma del modello stimato e del residuo del modello:

    yi = yi + ei = 1 + 2xi + ei (6.13)

    da cui si evince che il residuo ei = yi yi potr interpretarsi come stimadell'errore.

    La stima dei parametri ottenuta attraverso il metodo dei minimi quadrati:

    minQ(1, 2) =i

    (yi 1 2xi)2 (6.14)

    ossia minimizzando la somma dei quadrati degli errori. Ci si traduce nella

    risoluzione di un sistema di equazioni normali, eguagliando a zero le derivate

    prime della funzione Q() rispetto ai parametri:i

    yi = n1 + 2i

    xi (6.15)

    i

    xiyi = 1i

    xi + 2i

    xi2(6.16)

    e controllando le condizioni del secondo ordine. Le stime dei minimi quadrati

    saranno date dalle seguenti espressioni:

    1 = y 2x (6.17)

    2 =

    i xiyi nxyi xi

    2 nx2 =Cod(X,Y )Dev(X)

    =sxysx2(6.18)

    53

  • dove Cod(X,Y ) e Dev(X) sono rispettivamente la codevianza e la devianza,mentre sxy e sx

    2sono rispettivamente la covarianza campionaria tra X e Y

    e la varianza campionaria della X. Nel seguito, si utilizzer la notazione 1 e2 sia per le stime che per gli stimatori dei parametri 1 e 2, quali funzionidelle statistiche campionarie.

    Sostituendo le (6.17) e (6.18) nella (6.14) si ottiene il valore minimo della

    funzione da ottimizzare:

    Q(1, 2) =i

    ei2(6.19)

    da cui si evince che nel metodo dei minimi quadrati i residui maggiori, es-

    sendo i residui elevati al quadrato, contribuiscono in misura maggiore a de-

    terminare il valore minimo di questa funzione. Il metodo dei minimi quadrati

    gode delle seguenti propriet:

    1) La retta passa per il punto di coordinate (x, y), che si verica sostituendox nella (6.12) e tenendo conto della (6.17);

    2) E(yi) = E(yi), E(ei) = 0,

    i ei = 0, che si dimostra sostituendo le stime1 e 2 nella prima equazione (6.15) del sistema;

    3)

    i eixi = 0, che si deduce dopo aver sostituito le stime 1 e 2 nellaseconda equazione (6.16).

    Per valutare la precisione delle stime e in generale per l'inferenza sui parametri

    del modello occorre conoscere la varianza degli stimatori:

    var(1) = 2[1n+

    x2

    Dev(X)] (6.20)

    var(2) =2

    Dev(X)(6.21)

    la cui radice quadrata rappresenta l'errore standard della stima. Se la vari-

    anza dell'errore non nota allora la sua stima corretta data dalla seguente

    espressione:

    2 =

    i ei2

    n 2 (6.22)Per quanto riguarda le propriet degli stimatori dei minimi quadrati, si di-

    mostra, con il teorema di Gauss-Markov, che essi sono lineari, non distorti e

    a varianza minima (BLUE: Best, Linear, Unbiased Estimators).

    54

  • 6.2.3 La bont di adattamento lineare

    La bont di adattamento lineare del modello ai dati si potrebbe valutare

    osservando il valore minimo (6.19), in quanto tanto minore sar tale valore

    tanto migliore sar l'adattamento della retta ai dati osservati. Invero, poich

    tale minimo potr variare da caso a caso, dipendendo dall'unit di misura del

    fenomeno, occorre denire una misura relativa o quanto meno normalizzata

    per consentire anche eventuali confronti tra diversi esempi di applicazione del

    modello ai dati. In eetti, si osserva che il minimo della funzione di ottimo

    parte della seguente decomposizione della devianza totale di Y :

    Dev(Y ) = Dev(R) +Dev(E) (6.23)

    dove Dev(R) =

    i (yi y)2 detta devianza di regressione, ossia la parte didevianza totale spiegata dalla retta di regressione, mentre Dev(E) =

    i ei

    2

    detta devianza dei residui. Infatti, dalla (6.13) aggiungendo e sottraendo

    la media y,

    yi y = yi y + ei (6.24)elevando ambo i membri al quadrato e sommando per gli n individui:

    i

    (yi y)2 =i

    (yi y)2 +i

    ei2 + 2

    i

    (yi y)ei (6.25)

    si perviene alla (6.23) in quanto, utilizzando le (6.15) e (6.16), si dimostra

    che il doppio prodotto si annulla.

    Si potr denire l'indice di determinazione lineare per valutare la bont

    di adattamento del modello lineare ai dati osservati considerando quanta

    parte della devianza totale spiegata dalla retta di regressione:

    R2 =Dev(R)Dev(Y )

    = 1 Dev(E)Dev(Y )(6.26)

    che per costruzione, quale rapporto di composizione, varier da zero ad uno,

    esprimendo un buon grado di adattamento lineare qualora il suo valore

    prossimo ad uno.

    6.2.4 L'inferenza sui parametri

    A ni inferenziali, si assume che gli errori si distribuiscono normalmente:

    ui N(0, 2) (6.27)

    55

  • Si dimostra che questa assunzione implica che gli stimatori 1 e 2 si dis-tribuiscono normalmente:

    1 N(1, var(1)) (6.28)

    2 N(2, var(2)) (6.29)e pertanto si potr far riferimento alla normale standardizzata per la costruzione

    degli intervalli di condenza e per la verica delle ipotesi.

    Si osservi che poich la varianza degli stimatori (6.20) e (6.21) dipende

    dalla varianza degli errori (6.22), questa non usualmente nota e occorre sti-

    marla con la (6.22) pervenendo a stime corrette della varianza degli stimatori.

    In tal caso, si dimostra che le statistiche campionarie

    T1 =1 11(6.30)

    T2 =2 22(6.31)

    si distribuiscono come una t-Student con (n 2) gradi di libert.Inoltre, lo stimatore corretto della varianza dell'errore legato alla dis-

    tribuzione chi-quadrato con (n 2) gradi di libert:

    X2 = (n 2) 2

    2 n22 (6.32)

    che potr essere impiegata per l'inferenza su 2.

    6.2.5 La previsione

    Il problema che viene arontato in questo paragrafo quello della previ-

    sione di Y dato un nuovo livello x0 della X. La previsione viene condottaconsiderando la retta stimata (6.12) e distinguendo il caso della previsione

    media, ossia stima del valore atteso data da y0, dal caso della previsionepuntuale, stima del valore osservato y0. In entrambi i casi, si utilizzer qualestima BLUE l'espressione 1 + 2x0. Per avere un'idea dell'errore di previ-sione si dovr considerare che la previsione si distribuir normalmente con

    media 1 + 2X e varianza, nel primo caso, pari a:

    var(y0) = 2[1n+

    (x0 x)2i xi

    2] (6.33)

    56

  • mentre, nel secondo caso, la varianza sar maggiore essendo:

    var(y0) = 2[1 +1n+

    (x0 x)2i xi

    2] (6.34)

    Se si sostituisce la stima corretta alla varianza dell'errore si utilizzer la sta-

    tistica t-Student con (n2) gradi di libert per la costruzione degli intervallidi condenza della previsione. In generale, nel graco che illustra la retta

    di regressione stimata, si illustra l'errore di previsione attraverso le cosid-

    dette bande di condenza della previsione media e della previsione puntuale

    per avere un'idea sull'accuratezza del modello: questa sar tanto maggiore

    quanto pi si nei prossimi del punto medio di coordinate (x, y), mentre lebande si ampliano quando ci si allonta da tale valore cos che si incrementa

    l'errore di previsione.

    6.2.6 La valutazione dei risultati dell'analisi di regressione

    L'analisi della regressione viene condotta distinguendo la variabile dipen-

    dente da quella esplicativa sulla base della teoria che si vuole vericare em-

    piricamente. Successivamente, si stima la retta di regressione e occorrer

    prestare particolare attenzione alla coerenza dei segni delle stime ottenute

    per l'intercetta e per il coeciente di regressione rispetto alla teoria e alle

    ipotesi formulate. Si proceder poi ad analizzare i risultati del test e degli in-

    tervalli di condenza delle stime per comprendere la signicativit delle stime

    ottenute rispetto alle ipotesi nulle che rispettivamente ciascun parametro sia

    par