Taak Statistische Dataverwerking

Sam Hox, Sarah Bostoen en Tho DemeesterDataset tomaat15

Taak Statistische Dataverwerking - blutsschade bij tomaten1. InleidingTomaten worden snel beschadigd door blutsten tijdens het transport, wat zo snel mogelijk moet gebeuren en regelmatig over grote afstanden. De schade die een tomaat kan oplopen moet geminimaliseerd worden. In deze taak wordt bijgevolg getest of er een correlatie bestaat in verschil in rijpheid en impactenergie van het voorwerp op de blutsschade. Er werd onderzoek gedaan naar tomaten in 3 verschillende stadia van rijpheid. Groene tomaten met ongeveer 30% kleuring, oranje tomaten en rode tomaten. Deze tomaten worden gecontroleerd geblutst met behulp van een slinger.Dataset tomaten 15 bestaat uit een experiment bij 24 at random geselecteerde tomaten, 8 uit elke rijpheidsklasse. De impactenergie van de slinger werd telkens gemeten evenals het percentage beschadiging bij elke tomaat.Een dataset bestaat uit kwantitatieve respons- en verklarende variabele (Y en X). De Y variabele is percentage beschadiging en de X variabele is de impactenergie. Daar bovenop is er nog een kwalitatieve variabele rijpheid. In deze taak worden met behulp van het programma Jump (JMP) regressierechten voor verschillende niveaus van een kwalitatieve verklarende variabelen met elkaar vergeleken. Zo wil men testen welke stadia van rijpheid bij tomaten het gevoeligst is voor blutsen.

Aangezien de kwalitatieve variabele 3 niveaus heeft, hebben we 2 dummy variabelen nodig. Om deze dummys te coderen in JMP hebben we gebruik gemaakt van Effects-type codering. Kleurd1d2

Groen+10

Oranje0+1

Rood-1-1

Dit heeft als full model :

Hierin is 0 het intercept, of de verwachte beschadiging bij gemiddelde rijpheid indien de impactenergie (of x) = 0. is het verschil in percentage beschadiging van de gemiddelde rijpheid met rijpheid groen indien de impactenergie (of x) = 0. is het verschil in percentage beschadiging van de gemiddelde rijpheid met rijpheid oranje indien de impactenergie (of x) = 0. is het verschil tussen de gemiddelde rijpheid en rijpheid rood indien impactenergie (of x) = 0. is het effect (of de helling) van de impactenergie bij een tomaat met gemiddelde rijpheid. is het verschil in het effect van de impactenergie op rijpheid groen en de gemiddelde rijpheid. is het verschil in het effect van de impactenergie op rijpheid oranje en de gemiddelde rijpheid. is het verschil in het effect van de impactenergie op rijpheid rood en de gemiddelde rijpheid.Effect van impactenergie : Bij groen : ; Bij oranje : ; Bij rood :

2. Analyse2.1 Grafische visualisatieWe beginnen onze analyse met een grafische visualisatie van het full model. Een eerste stap is het opstellen van een regressieplot van het effect van de impactenergie per level van rijpheid op de percentage van beschadiging.

In de plot is de kleur van de lijnen overeenstemmend met de rijpheid van dezelfde kleur.

Deze plot lijkt uit te schijnen dat elke rijpheid een verschillende helling heeft, wat een verschillend effect van impactenergie per rijpheid betekent. Ook is het percentage beschadiging bij rijpheid groen lager dan bij oranje en rood. Rood lijkt de meeste beschadiging te vertonen.

Vervolgens gaan we een prediction profiler opstellen voor elke rijpheid.

Uit deze grafieken kunnen we duidelijk zien dat er een verschil is in schade bij groene tomaten vergeleken met oranje en rode tomaten. Tussen deze laatste twee is er geen overduidelijk verschil zichtbaar. Uit de voorgaande plots (regressie en prediction profiler) kunnen we de volgende testen voorstellen : Groen verschilt significant van oranje en rood. Oranje en rood verschillen niet significant van elkaar.Omdat we uit onze regressieplot dachten te kunnen afleiden dat de hellingen verschillen per level van rijpheid, vermoeden we dat er in het uiteindelijke model interactietermen kunnen zitten.

2.2 Schatten van het beste modelNa deze grafische visualisatie gaan we over op het schatten van het beste model op basis van het effect-type coding. We beginnen met het beschouwen van de parameter estimates van het full model. Aangezien het model een kwalitatieve variabele bevat met meer dan 2 levels, mogen we enkel naar de F-test kijken om uitspraken te doen over de significantie van de parameterschattingen. We bekijken de P-waardes van de F-testen om te weten of we al parameters kunnen weglaten en ons model kunnen reduceren.Onze hypotheses zijn :In bijgaande testen zien we dat zowel de impactenergie als de interactie-effecten geen significante invloed hebben aangezien de P-waarde groter is dan het significante niveau van 0,05, waardoor we aanvaarden. We vermoeden dus dat er een beter, gereduceerd model gevonden kan worden.

Om tot een beter model te komen, laten we eerst de interactie-effecten weg, aangezien zij de grootste P-waarden hebben. Daarna bekijken we de parameter estimates opnieuw en ook de P-waarden van de F-test. Onze hypotheses zijn :In bijgaande testen zien we nu dat de impactenergie wel een significante invloed heeft en bijgevolg houden we deze in het model.

Dan bekomen we het gereduceerde model .

Vervolgens kijken we naar de R adj. en de MSE om te oordelen of het gereduceerde model beter is dan het full model. In onderstaande figuren kunnen we zien dat de Rsquare adj. gestegen is en dat de MSE kleiner is geworden. Het gereduceerde model is dus beter als het full model.

Nieuw model Oud model

De geschatte parameters van het nieuwe (gereduceerde) model zijn dan : Uit het full model hadden we een interactieterm verwacht aangezien de helling van groen zichtbaar verschillend was van die van oranje en rood. Maar in het nieuwe model hebben we de interactietermen weggelaten, waardoor de helling voor alle 3 levels van rijpheid gelijk zijn. We moeten dus niet meer testen op een verschil in en .

Wat we nu doen is het analyseren van de normaliteit van de residuals. Dit doen we door het weergeven van de waarnemingen ten opzichte van het gefitte model en het plotten in een histogram en een boxplot.

Ten laatste analyseren we die normaliteit in een shapiro-wilk test.Onze hypothese : de residuals zijn normaal verdeeld de residuals zijn niet normaal verdeeld.

De P-waarden zijn kleiner dan 0,05, dus verwerpen we , wat betekent dat de residuals niet normaal verdeeld zijn.

Uit de boxplot en de Shapiro-wilk test kunnen we besluiten dat het model niet perfect is. Maar de Radj en de MSE-waarden van het nieuwe model geven toch aan dat het model te gebruiken is en nog steeds beter is dan het full model.

2.2 Vergelijken van de regressierechten van de 3 levels van rijpheid onderling. We beginnen met een visualisatie van de regressierechten per level van rijpheid.

Omdat de interactietermen zijn weggelaten in het nieuwe model zijn de hellingen alle drie evenwijdig. Ook zien we dat rood de hoogste beschadiging heeft, gevolgd door oranje, met weinig verschil. Ook zien we dat groen altijd de laagste beschadiging vertoont en ver van de andere twee regressierechten ligt.

Op bijgaande prediction profiler hebben we een negatieve desirability ingesteld, wat inhoudt dat de laagste beschadiging de grootste desirability heeft. De figuur geeft weer dat groen de hoogste desirability heeft, gevolgd door oranje en rood. Daarnaast heeft een lage impactenergie een hoge desirability en een hoge impactenergie een lage desirability.

We vermoeden dus dat er geen verschil is tussen rood en oranje. Ook vermoeden we dat de beschadiging van groen wel verschilt met die van oranje en rood. Dit gaan we nu testen.We beginnen met het vergelijken van de beschadiging van rood en oranje. Hypotheses : : of nog (met ) : of nog

Uitleg voor de dummys : dus oranje rood . De cofficinten bij zijn dus 1 en 2 voor deze test.

In de test zien we dat de P-waarde van de F-test groter is dan 0,05. Hieruit besluiten we dat we niet verwerpen met significantieniveau 0,05. Met andere woorden, beschadiging van oranje en rood verschillen niet significant van elkaar, wat overeenkomt met onze vermoedens.

Nu vergelijken we de beschadiging tussen groen en rood.Hypotheses : : of nog (met ) : of nog

Uitleg voor de dummys : dus groen rood . De cofficinten bij zijn dus 2 en 1 voor deze test.

In de test zien we dat de P-waarde van de F-test veel kleiner is dan 0,05. Hieruit besluiten we dat we mogen verwerpen met significantieniveau 0,05. Met andere woorden, beschadiging van groen en rood verschillen significant van elkaar, wat ook overeenkomt met onze vermoedens. 2.3 Vergelijken van de parameterschatting bekomen bij effects-type coding en 0/1 coding.We beginnen met het verklaren van de parameters bij 0/1 coding. Het full model is ook hier

0 is het intercept, of de verwachte beschadiging bij rood indien de impactenergie (of x) = 0. is het verschil in percentage beschadiging van rood en groen indien de impactenergie (of x) = 0. is het verschil in percentage beschadiging van rood en oranje indien de impactenergie (of x) = 0. is het verschil in het effect van de impactenergie op groen en rood. is het verschil in het effect van de impactenergie op oranje en rood.Effect van impactenergie :Bij groen : ; Bij oranje : ; Bij rood :

Vervolgens bekijken we de parameter estimates van het reduced model op basis van de 0/1 coding. Onze hypotheses zijn : : effect parameter = effect bij rood. : effect parameter effect bij rood.

Aangezien de P-waarde van oranje groter is dan het significantieniveau 0,05, aanvaarden we bij oranje. Er is dus geen significant verschil tussen het effect van oranje en rood. Dit komt overeen met de uitkomst van de eerder uitgevoerde custom test oranje-rood. De andere P-waarden zijn kleiner dan en hier verwerpen we dus telkens.

Bij effects type coding wordt het effect van elke rijpheid vergeleken met een gemiddelde rijpheid. Groen (-39) doet het veel beter dan het gemiddelde, maar oranje en rood doen het slechter dan het gemiddelde (rood het slechtste).In de coding 0/1 zijn de parameter schattingen telkens vergelijkingen van de eerste 2 rijpheden met de laatste, in dit geval rood. We zien hier dan zowel groen als oranje een negatieve parameter hebben en ze dus beter zijn dan rood (minder beschadiging hebben). Dit komt overeen met het vorige besluit uit effect type coding. Hier is ook groen het beste en loopt het minste schade op.

3. ConclusieHet beste model is . Aan de hand van de normaliteits en ouliersanalyse zien we dat dit model niet perfect is. De Radj en MSE-waardes zijn echter acceptabel.

Aan de hand van de analyses op het reduced model (grafische interpretaties, interpretaties van de parameterschattingen en de custom-tests) was het zowel bij effect-type coding als bij 0/1 coding duidelijk dat rijpheid groen de laagste beschadigingsgraad heeft. Daarnaast zagen we dat ook een zo laag mogelijke impactenergie zorgt voor een lage beschadiging.

Groen is duidelijk de beste rijpheid. Hier moeten we echter ook rekening houden met wat de consument wilt; namelijk geen groene tomaten. De tomaten zullen daarna in rijpingsserres verder moeten rijpen.

5

Taak Statistische Dataverwerking

Documents