1. rész c Barczy Mátyás és Ispány Márton 2010 Mi a statisztika? A statisztika eredete A statisztikai munka felépítése A statisztika módszerei Számítógépes statisztika Statisztika és infor- mációtechnológia Irodalomjegyzék Összefoglalás 1 1. rész Statisztika és informatika Mi a statisztika és miért fontos egy informatikusnak? Komputerstatisztika kurzus Barczy Mátyás és Ispány Márton 2010 Informatikai Kar Debreceni Egyetem
27
Embed
Statisztika és informatika - Mi a statisztika és miért ...barczy/KompStatElo1_BM_IM.pdf · A statisztika helye A statisztika hidat alkot az elméleti matematika és más (természet-,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Példa (Támogatja–e a halálbüntetés visszaállítását?)
A lakosság véleményére vagyunk kíváncsiak ahalálbüntetés támogatása illetve ellenzése kérdésében.A megbízható eredményhez a statisztika tudománya általmegalapozott módszereket kell alkalmazni.A felmérést közvéleménykutató céggel végeztethetjük el.Az eredmény egy statisztikai mutatószám: a lakossághány százaléka ellenzi a halálbüntetést.
• Sumérok, i.e. 3000: a lakosság összeírása ékírásostáblákon.
• Egyiptom, II. Amasis (Ahmose II) fáraó, 26. dinasz-tia, i.e. 570–526: Egyiptom utolsó nagy fáraója, akiintézményesítette a népesség összeírását (a halá-lozás követése).
• Kína, Yao császár, i.e. 2358–2258: legendás kínaicsászár, a népsuruség számolása.
• India, Arthashastra, i.e. 4. század: értekezés azállamigazgatásról, a gazdaságról és a hadtudomá-nyokról. (Csandragupta király (i.e. 313–289) Kautilyanevu miniszterét tartják fo szerzojének.)
Közgazdász és filozófus, a Royal Society tagja. Cromwellalatt az elfoglalt Írországot mérte fel, számos közgazda-sági fogalmat vezetett be, a népszámlálás (cenzus) fon-tosságának hangsúlyozója. Egyik fo muve:
A Treatise of Taxes and Contributions (1662)
Szisztematikusan használta az átlagolás muveletét, beve-zette a becslés fogalmát. Megbecsülte London lakossá-gát az export és a halálozás alapján. 30%–os növekedésaz exportban ugyanannyi növekedést jelent a lakosság-ban (regresszió). A halálozások számát 30–cal szorozvahatározta meg a lakosság számát.
Ebben a fázisban hozzuk létre a statisztikai adatmezot,gyakran egyszeruen mintavételrol, adatgyujtésrol beszé-lünk.Nagy mértékben kihat arra, hogy késobb milyen elemzé-seket végezhetünk. A rosszul kialakított adatmezomegköti az elemzo kezét, lehet, hogy éppen a vizsgálatáltal megcélzott kérdésekre nem tudunk majd válaszolni.Adatminoség, adattisztítás.Hasznos, ha az elemzo már az adatmezo kialakításábanis részt vesz, már ekkor átgondolva azt, hogy a feldolgo-zás során milyen módszereket lehet és érdemes alkal-mazni.
Szabályosságok, összefüggések, mintázatok kereséseaz adatállományban.Ebben a fázisban szokás módosítani, esetleg átkódolniaz adatokat. Itt merülhet fel a hiányzó és a kilógó adatokproblémája (missing values és outliers).Az itt alkalmazott módszerek általában az exploratív(feltáró jellegu) adatelemzés körébe tartoznak. Például,leíró statisztikák, grafikus megjelenítések, többdimenziósskálázás.
Az elemzési fázisban talált szabályosságok, összefüggé-sek, mintázatok matematikai statisztikai modellekkel valóleírása.Eloször magát a modellt alakítjuk ki, majd ellenorizzükalapfeltevéseit és megbecsüljük paramétereit.Itt ellenorizzük azt is, hogy a választott modell mennyirejól illeszkedik az adatokra, esetleg több illesztett modellközül választjuk ki a legjobbat.Ezen fázisbeli módszerek legtöbbje a konfirmatív (igazolójellegu) adatelemzés körébe tartozik.
A megalkotott modell alapján elorejelzés, becsléskészítése. Ezt sokszor sztochasztikus szimulációvalhajtjuk végre. (Monte Carlo módszerek)A szimulációs eredményeket új megfigyelésekkel szem-besítve a modell érvényességének korlátai vizsgálhatóak.
• Egy kis, reprezentatív részt kiválasztva mintátveszünk.
• A minta vizsgálatával (pl. grafikus módszerekkel)próbáljuk megsejteni, hogy a vizsgált jellemzo milyeneloszlást követhet.
• Tegyük fel, hogy a vizsgálatok (pl. a minta hiszto-gramja) normális eloszlásra utalnak. Ezen eloszlás-nak két ún. paramétere van: az átlag (várható érték)és a szórás. Ezzel ún. paraméteres feladattá tudjukredukálni a problémát.
• Valamilyen módszerrel (pl. maximum likelihood)elvégezzük a paraméterek becslését a minta alapján.
• Elorejelzésként ún. konfidencia intervallumotszerkesztünk, amely a népesség 95%–áttartalmazza. Ezt aztán új adatokon ellenorizzük.Nagy hiba esetén kezdjük újra az eljárást.
A statisztika hidat alkot az elméleti matematika és más(természet-, illetve társadalom-) tudományok között. Ezeka tudományok a legtöbb matematikai módszert ugyanis astatisztikán keresztül alkalmazzák. A gyakorlati, alkalma-zott statisztika elméleti hátterét a matematikai statisztikaadja, amely felépítésében a szokásos matematikai gon-dolkodást követi, azaz definíció, tétel és bizonyítás, és akalkulus illetve foként a valószínuségszámítás módsze-reire támaszkodik.
A modern információtechnológia (IT) számos statisztikaimódszert, eljárást használ, illetve az IT szoftverekmögötti elméleti hátteret sokszor a statisztika nyújtja.
Információtechnológia
Az információk (adatok) számítástechnikai eszközökkeltörténo összegyujtésének, tárolásának, feldolgozásánakés megjelenítésének a módszertana.