Matematická statistika 1/ 25 mmfch5 Náhodná/stochastická promˇ enná pˇ riˇ razuje pravdˇ epodobnost/hustotu pravdˇ epo- dobnosti moˇ znému diskrétnímu/spojitému jevu z diskrétní/spojité mnoˇ ziny jev˚ u. diskrétní pˇ ríklad: hod kostkou: p = 1/ 6 pro ∈ { , , , , , } spojitý pˇ ríklad: ˇ cas rozpadu jádra: p( t )= k e - kt Spojitou náhodnou veliˇ cinu v 1D (tj. ∈ R) popisuje distribuˇ cní funkce (hustota pravdˇ epodobnosti, rozdˇ elení/rozloˇ zení pravdˇ epodobnosti) p( ): p( ) dje pravdˇ epodobnost, ˇ ze nastane jev ∈ [ , + d) Ve dvou dimenzích definujeme hustotu pravdˇ epodobnosti p( , y ) tak, ˇ ze jev ∈ [ + d) a zároveˇ n y ∈ [ y + dy ) nastane s pravdˇ epodobností p( , y ) ddy. Normalizace: X p = 1 nebo Z ∞ - ∞ p( ) d= 1 Kumulativní (integrální) distribuˇ cní funkce = pravdˇ epodobnost, ˇ ze padne náhodná hodnota ≤ : P( )= Z - ∞ p( 0 ) d0
25
Embed
Matematická statistika mmfch5Rozdelení pravdˇ epodobnostiˇ 2/25 mmfch5 Varování. Ve fyzice a technice nepˇresne a volnˇ e zamˇ eˇnujeme symbolˇ ‚‚‚pro náhod-nou veliˇcinu
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Funkce náhodné veliciny: strední hodnota 5/25mmfch5
Strední hodnota veliciny ƒƒƒ :
⟨ƒ ⟩ =∫
ƒ ()p()d (1)
nebo z nové náhodné promenné ƒƒƒ = ƒ ():
⟨ƒ ⟩ =∫
ypƒ (y)dy (2)
Obe strední hodnoty jsou stejné:
⟨ƒ ⟩ =∫
ƒ ()p()dsubst. y=ƒ ()
=∫
yp()
ƒ ′()dy =
∫
ypƒ (y)dy
kde v 2. integrálu = resení rovnice ƒ () = y, které zde pro jednoduchost uvazujemejen jedno a také predpokládáme, ze funkce ƒ je rostoucí.
Pozn. Jednotný a obecnejsí popis dostaneme zavedením pravdepodobnostní míryμ na jistém prostoru – zatím jsme uvazovali R, R2 a diskrétní prostor. Místo (1) a (2)pak píseme napr. ⟨ƒ ⟩μ =
∫
ƒ ()dμ().
Kovariance 6/25mmfch5
Kovariance a y dvojrozmerného rozdelení p(, y)
Cov (, yyy) = ⟨ΔΔy⟩ =∫
ΔΔyp(, y)ddy
Kovariance dvou velicin ƒ () a g() (obdobne u diskrétného ci vícerozmernéhorozdelení):
Cov (ƒ , g) = ⟨ΔƒΔg⟩ =∫
ΔƒΔgp()d
Nezávislé náhodné veliciny
Náhodné veliciny (s rozdelením p1()) a yyy (s rozdelením p2(y)):
p(, y) = p1()p2(y) (3)
V diskrétním prípade (napr. dva hody kostkou, pj = 1/36):
pj = p1,p2,j
Kovariance nezávislých náhodných velicin je nula:
Cov (, yyy) = ⟨ΔΔy⟩+yyy =∫
d∫
dyΔp1()Δyp2(y) = ⟨Δ⟩⟨Δy⟩yyy = 0
Korelacní koeficient[plot/matnum2r.sh] 7/25
mmfch5
r(, y) =Cov (, y)
p
Var ()Var (y)
Príklad. Necht’ 1 a 2 jsou dve nezávislá rovnomerný rozdelení v [0,1]. Vypoctete:a) r(1,−1)b) r(21,
21)
c) r(1, 2 + 1) (viz Maple) a)−1,b)1,c)1/p2
tab 1 100000 | tabproc "rnd(0)" "rnd(0)" | tabproc A A+B | lr
Strední hodnota i variance souctu nezávislých náhodných velicin jsou aditivní.Prímo z (3):
E ( + yyy) =∫
p1()p2(y)( + y)ddy
=∫
p1()p2(y)ddy+∫
p1()p2(y)yddy =∫
p1()d+∫
p2(y)ydy = E ()+E (yyy)
Pomocí konvoluce distribucí:
E ( + yyy) =∫
zp+yyy(z)dz =∫
zp1()p2(z − )ddz
y:=z−z=
∫
( + y)p1()p2(y)ddy = ⟨⟩1 + ⟨y⟩2 = E () + E (yyy)
A variance:
Var ( + yyy) = ⟨(Δ + Δy)2⟩+yyy
= ⟨(Δ)2⟩+yyy + 2⟨ΔΔy⟩+yyy + ⟨(Δy)2⟩+yyy = Var () + Var (yyy)
Centrální limitní veta[show/galton.sh] 10/25
mmfch5
Soucet n stejných nezávislých rozdelení s konecnou strední hodnotou a konecnouvariancí je pro velké n rovno Gaussove rozdelení se strední hodnotou n⟨⟩ a variancínVar.
Dukaz. Definujme (jako v C/C++): ( ≤ 1) = 1 pro ≤ 1 a ( ≤ 1) = 0 jindy.
prob�
| − ⟨⟩| ≥ tσ()�
=¬
| − ⟨⟩| ≥ tσ()¶
=
*
�
− ⟨⟩
tσ()
�2
≥ 1
+
≤
*
�
− ⟨⟩
tσ()
�2+
=1
t2
rovnost pro: X =
−1, p = 12t2
0, p = 1 − 1t2
+1, p = 12t2
Matematická statistika a metrologie 12/25mmfch5
Názvosloví kolísá podle oboru...
Statistika, odhad, „statistický algoritmus“, (úzeji) „statistický funkcionál, (v met-rologii „mericí funkce“, measurement function) je vzorec/algoritmus, podle kteréhopocítáme výsledek z (vzorku) náhodných velicin (v metrologii z dat). Statistika jetaké náhodnou velicinou.
Príklady: aritmetický prumer, parametry modelu pri fitování metodou nejmensíchctvercu.
Standardní chyba statistiky = smerodatná (standardní) odchylka (odmocnina va-riance) rozdelení (rozdelovací funkce) této statistiky.
Nejistota (uncertainty) v metrologii zahrnuje kritické posouzení systematických,náhodných, diskretizacních aj. chyb. Obdobne „standardní nejistota“.
In English:
statistic = estimator
statistics = field of mathematics
Aritmetický prumer jako príklad statistiky 13/25mmfch5
Toto je nestranný (nevychýlený, unbiased) odhad ⟨⟩, protoze
pro jednoduchostpísi ⟨⟩ místo ⟨⟩
⟨n⟩ = ⟨⟩
Spocteme varianci veliciny n:σ() ≡
pVar
Var (n) = ⟨(n − ⟨⟩)2⟩ =
*
1
n
n∑
=1Δ
!2+
=Var
n≡σ()2
n, Δ = − ⟨⟩
kde jsme predpokládali, ze ’s jsou nezávislé, ⟨ΔΔj⟩ = 0 pro 6= j.
Smerodatná (standardní) odchylka jako príklad statistiky 14/25mmfch5
Jak odhadnout rozptyl σ()2? Neznáme strední hodnotu ⟨⟩, ale jen její odhad, n.
σ2() = ⟨⟨⟨( − ⟨⟨⟨⟩⟩⟩)2⟩⟩⟩ ≈1
n
n∑
=1
�
− n�2 =
1
n
n∑
=1
−1
n
n∑
j=1j
2
=1
nn�
(1 −1
n)1 −
1
n2 + · · ·
�2=n− 1
nσ()2
Výberový rozptyl (corrected sample variance):
1
n− 1
n∑
=1( − n)2
kde 1 = pocet stupnu volnosti. Protoze platí*
1
n− 1
n∑
=1( − n)2
+
= σ2() = Var
je to nestranný (nevychýlený) odhad rozptylu.Ale odmocnina výberového rozptylu (výberovásmerodatná odchylka) je vychýlený odhad σ().
Výberový rozptyl aritmetic-kého prumeru:
1
n(n− 1)
n∑
=1( − n)2
jeho odmocnina je odhademstandardní chyby aritm. prum.“Korekci” −1 zavedl FriedrichWilhelm Bessel, bez korekcemáme (uncorrected) sample va-riance, ceský termín neznám.
Souhrn 15/25mmfch5
Pro zpracování nekorelovaných dat metodou aritmetického prumeru, se stejnýmivahami dat:
Smerodatná (standardní) odchylka náhodné promenné = standardní chyba jed-noho merení
σ() =Ç
⟨( − ⟨⟩)2⟩
je aproximována vzorcem
sn() =
√
√
√
√
1
n − 1
n∑
=1( − n)2
Smerodatná (standardní) chyba aritmetického prumeru n merení náhodné pro-menné = standardní chyba (nejistota), se kterou n approximuje ⟨⟩ je
(odhadnutá) chyba†, smerodatná (standardní) odchylka (rozumí se aritmetickéhoprumeru ci jiné statistiky)
Obvyklá notace: 123.4 ± 0.5 ≡ 123.4(5) ≡ 123.45V prípade Gaussova rozdelení máme sanci 68 %, ze jsme se trefili do udaného inter-valu.
Biologie, ekonomie, inzenýrství: Zpravidla se pouzívá hladina významnosti (con-fidence level) 95 % (data jsou s pravdepodobností 95 % uvnitr mezí); v poslednídobe se kritizuje jako nedostatecná. V prípade Gaussova rozdelení:
odhad chyby† = 2 × (standardní chyba)
Chemie: casto ignorováno; pokud udáno, tak nikdo neví, zda σ ci 2σ...
vzdy nutno udat typ chyby
†nebo nejistoty
Príklad 17/25mmfch5
V pruzkumu volebních preferencí bylo dotázáno 1080 lidí. Ve výsledcích jsou udányintervaly spolehlivosti, neznáme vsak pouzitou hladinu spolehlivosti (tj. s jakou prav-depodobností je skutecná hodnota uvnitr intervalu). Odvod’te tuto hladinu z dat.
Rada: vypoctete nejprve varianci náhodné promenné , která je 1 s pravdepodob-ností p a 0 s pravdepodobností 1 − p. p(1−p);95%
Testování hypotéz 18/25mmfch5
Nulová hypotéza: Hypotéza, ze vlastnost (urcitá hodnota veliciny, rozdíl. aj.) od-vozená ze vzorku dat je vysvetlitelná chybou vzorkování nebo experimentálnímichybami a není signifikantní.
Príklad: Studentky si merí tep (pulse rate, tep). Je strední hodnota tepu studentekrovna 72, coz je udávaná hodnota pro zeny tohoto veku?
Nulová hypotéza: ⟨PR⟩ = 72
Alternativní hypotéza: ⟨PR⟩ 6= 72
Ze n = 300 merení jsme dostali: PRn = 73.23(55); tj. sn(PRn) = 0.55
Pro n = 300 muzeme predpokládat, ze rozdelení PRn je normální a sn(PRn) je dosta-tecne presné.
t =PRn − ⟨PR⟩null
sn(PRn)=73.23 − 72
0.55= 2.24 (“2.24σ”)
p = 2∫ ∞
t
e−2/2
p2π
= erfc(k/p
2) = 0.025 < α = 0.05
Na hladine významnosti 95 % hypotézu zamítneme.
Viz mmpc5.mw “Normal distribution example”
Studentovo t-rozdelení[plot/student.sh 1] 19/25
mmfch5
Ukázali jsme, ze náhodná promenná n má Gaussovo rozdelení se strední hodnotou⟨n⟩ = ⟨⟩ a smerodatnou odchylkou σ(n) =
p
Var/n. Ale známe jen jejich odhady,takze nemuzeme tvrdit, ze n je v mezích ± odhadnutého σ(n) s pravdepodobností68 %.
Definujme Studentovo rozdelení t s parametrem ν (pocet stupnu volnosti) jako roz-delení následující náhodné promenné:
ν+1 − ⟨⟩
σ(ν+1)
Distribucní funkce je
() =∫∞0 n+1e−d,
(n) = (n − 1)!,(n+12) =
pπ·12 ·
32 · · · (n−
12)
tν() =�
ν+12
�
pνπ
�ν2
�
1 +2
ν
!−ν+12
Limita pro velké vzorky je normalizované normální rozdelení
limν→∞
tν() =1p2πe−
2/2
Bacha, t1() má nekonecný rozptyl a (striktne) nedefinovanou strední hodnotu.
Opet tep 20/25mmfch5
Namerili jsme jen 10 osob: PR = [69,84,67,82,71,81,73,71,76,86], PRn = 76
Nemáme dostatecný duvod k prijetí hypotézy, ⟨PR⟩ = 72 je celkem pravdepodobné.
Muzeme se mýlit: toto je „chyba II. druhu“ neboli „falesne negativní“ výsledek,protoze jsme neprávem odmítli „nasi“ alternativní hypotézu.
Porovnání dvou výberu 21/25mmfch5
Porovnáváme 2 výbery (n a m dat) ze stejného souboru.
Tvrzení. Náhodná velicina
t =n − m
sp
1/n + 1/m, where s2 =
(n − 1)[sn()]2 + (m − 1)[sm(y)]2
n +m − 2
má Studentovo rozdelení.
sn je výberová smerodatná odchylka (tj. s Besselovou korekcí)
Typická úloha: Máme dve sady merení takové, ze muzeme predpokládat, ze oce-kávané rozptyly v obou sadách jsou stejné.Nulová hypotéza: Rovnají se strední hodnoty?
Firma vyrábí podpery pro prílis dlouhé jezevcíky. Zadala dvema agenturám mereníspodní výsky jezevcíka.Firma SmileyDog: = [12.1,20,15.1,20.8,19.7] cmFirma HappyDog: y = [18.9,10.1,12.1,9.2,12.4,16.7,12.7] cm
a) Jsou oba výsledky v souladu (na hladine významnosti 95 %)?b) Jaký je nejlepsí odhad výsky podpery?