This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Gegevensverwerving en verwerking
Staalname Bibliotheek
- aantal stalen/replicaten- grootte staal- apparatuur
Voorstellen van data in datamatrix: rijen en kolommen
1e exploratie datamatrix
Gemeenschappelijke (meestal ongewenste) kenmerken van dataset :
- ruis : variatie tgv meetfouten- overlap of redundantie :
2 of meer variabelen geven zelfde informatie- uitbijters : sterk afwijkende data
Variatie :- meetfouten- genetische variatie tussen organismen- invloed omgevingsfactoren
Measures for central tendency + measures of dispersion ? Parameters die gemeenschap beschrijven of karakteriseren? schatting of statistiek
Griekse letters Latijnse letters
Grafische voorstelling van data
Samenvatting van data in frequentie tabellen
Aantal keren dat een bepaalde meting of telling wordt waargenomen binnen een staal waarbij al dan niet wordt gebruik gemaakt van grootte klassen of intervallen (continue of discrete distributie)
100
500
2000
Normaal verdeling
= gekoppeld aan wet van “centrale tendens” :tendens dat meeste observaties symmetrisch rond het gemiddelde liggen
De frequentiedistributie van een grote biologische dataset ziet er meestal*uit als een normale verdeling
•niet algemeen zoals oorspronkelijk aangenomen maar toch erg frequent •vooral bruikbaar in statistiek
Normale verdeling kan beschreven worden aan de hand van gemiddelde µ en standaard deviatie
Het populatiegemiddelde is top van de distributie ? xiµ= ___N
De breedte van de distributie wordt weergegeven door de standaard deviatie = afstand van top waar kurve overgaat van convex naar concaaf
=> geeft weer hoeveel metingen gemiddeld verschillen van het gemiddelde µ.De standaarddeviatie is de vierkantswortel van variantie
? (xi- µ)2= ___________N
?
?
? (xi- µ)2² = _______
N
Variantie is som van kwadraat * van alle afwijkingen van het gemiddelde,gedeeld door aantal waarnemingen* kwadraat anders zou som 0 zijn
SD heeft zelfde eenheid als gemiddelde
In geval van een normaal verdeling vallen 95 % van alle waarnemingen binnen 1.96 maal de standaard deviatie.
? 95 % betrouwbaarheidsintervallen
99 % valt binnen 3.29 x SD
?
Schatting van standaarddeviatie
? (xi- µ)2s = _______
N-1
Delen door N-1 ipv door N
Delen door N zou een onderschatting betekenen, vooral wanneer N klein is
N-1 is aantal vrijheidsgraden df van een staal of aantal onafhankelijkeeenheden om tot gemiddelde µ te komen.
? (xi- µ)2s² = _________
N-1
Hoe ver is gemiddelde een betrouwbare schatting ?
Stel we nemen een oneindig aantal stalen voor een populatie Voor elk staal wordt een gemiddelde berekend
Deze gemiddelde waarden gaan op hun beurt opnieuw een normaal verdeling vertonen “central limit theorem”
De standaard fout of standard error (SE)is maat voor hoeveel gemiddelden gaan verschillen van werkelijk populatiegemiddelde
SE = ______N
S
Deze normaal verdeling is wel smaller aangezien hoge en lage waarden teniet worden gedaan bij
berekening van gemiddelde.
De schatting van gemiddelde waarden heeft echter eerder t distributie dan normaal distributie
Vorm van t distributie is gerelateerd aan aantal vrijheidsgraden.Hoe meer df hoe meer t distributie => normaal distributie
SE is net zoals SD buigpunt van de curve. Opnieuw kunnen betrouwbaarheidsintervallen berekend worden .
95 % van gemiddelden vallen binnen 1.96 x SE
SE = ______Ns
Betrouwbaarheidsintervallen voor populatiegemiddeldedaarom berekend aan de hand van getabelleerde kritische waarde voor t distributie
95 % CI = µ ± tN-1, 5 % x SE
Hoe groter de staalgrootte, hoe kleiner betrouwbaarheidsintervallen.
Immers hoe groter N , hoe kleiner SE en hoe kleiner t
Overige maten voor centrale tendens
Mediaan : middelste waarneming in een geordende dataset (50 % punt)
Mode : meest voorkomende waarde in een dataset
Geometrisch gemiddelde:
nx1x2x3 …..xn Antilog 1/n ? log xi
Het geometrisch gemiddelde is steeds kleiner dan het aritmetisch gemiddelde, tenzij alle data dezelfde waarde hebben.
Arc sinus (vierkantswortel)transformatie=> spreidt grote en kleine waarden meer uit => drukt middelste waarden samen
%
Deze transformatie wordt aanbevolen voor procentuele dataData moeten varieren tussen 0 en 1
The arc sinus (vierkantswortel) wordt vermenigvuldigd met 2/?? Om de resultaten van de arcsinus (x) uit te drukken in radialen van 0 tot 1
Standardisatie van variabelen uitgedrukt in verschillende eenhedenVb een verschil van 1 eenheid in pH is duidelijk verschillend van een verschil van 1 microgram fosfaat
?Vervang metingen door een rank nummer
? Vervang elke meting door de afwijking tov de gemiddelde waarde berekend over alle metingen (= centring)
?Standardiseer naar een gemiddelde van 0 en variantie 1