Sam Hox, Sarah Bostoen en Tho DemeesterDataset tomaat15
Taak Statistische Dataverwerking - blutsschade bij tomaten1.
InleidingTomaten worden snel beschadigd door blutsten tijdens het
transport, wat zo snel mogelijk moet gebeuren en regelmatig over
grote afstanden. De schade die een tomaat kan oplopen moet
geminimaliseerd worden. In deze taak wordt bijgevolg getest of er
een correlatie bestaat in verschil in rijpheid en impactenergie van
het voorwerp op de blutsschade. Er werd onderzoek gedaan naar
tomaten in 3 verschillende stadia van rijpheid. Groene tomaten met
ongeveer 30% kleuring, oranje tomaten en rode tomaten. Deze tomaten
worden gecontroleerd geblutst met behulp van een slinger.Dataset
tomaten 15 bestaat uit een experiment bij 24 at random
geselecteerde tomaten, 8 uit elke rijpheidsklasse. De impactenergie
van de slinger werd telkens gemeten evenals het percentage
beschadiging bij elke tomaat.Een dataset bestaat uit kwantitatieve
respons- en verklarende variabele (Y en X). De Y variabele is
percentage beschadiging en de X variabele is de impactenergie. Daar
bovenop is er nog een kwalitatieve variabele rijpheid. In deze taak
worden met behulp van het programma Jump (JMP) regressierechten
voor verschillende niveaus van een kwalitatieve verklarende
variabelen met elkaar vergeleken. Zo wil men testen welke stadia
van rijpheid bij tomaten het gevoeligst is voor blutsen.
Aangezien de kwalitatieve variabele 3 niveaus heeft, hebben we 2
dummy variabelen nodig. Om deze dummys te coderen in JMP hebben we
gebruik gemaakt van Effects-type codering. Kleurd1d2
Groen+10
Oranje0+1
Rood-1-1
Dit heeft als full model :
Hierin is 0 het intercept, of de verwachte beschadiging bij
gemiddelde rijpheid indien de impactenergie (of x) = 0. is het
verschil in percentage beschadiging van de gemiddelde rijpheid met
rijpheid groen indien de impactenergie (of x) = 0. is het verschil
in percentage beschadiging van de gemiddelde rijpheid met rijpheid
oranje indien de impactenergie (of x) = 0. is het verschil tussen
de gemiddelde rijpheid en rijpheid rood indien impactenergie (of x)
= 0. is het effect (of de helling) van de impactenergie bij een
tomaat met gemiddelde rijpheid. is het verschil in het effect van
de impactenergie op rijpheid groen en de gemiddelde rijpheid. is
het verschil in het effect van de impactenergie op rijpheid oranje
en de gemiddelde rijpheid. is het verschil in het effect van de
impactenergie op rijpheid rood en de gemiddelde rijpheid.Effect van
impactenergie : Bij groen : ; Bij oranje : ; Bij rood :
2. Analyse2.1 Grafische visualisatieWe beginnen onze analyse met
een grafische visualisatie van het full model. Een eerste stap is
het opstellen van een regressieplot van het effect van de
impactenergie per level van rijpheid op de percentage van
beschadiging.
In de plot is de kleur van de lijnen overeenstemmend met de
rijpheid van dezelfde kleur.
Deze plot lijkt uit te schijnen dat elke rijpheid een
verschillende helling heeft, wat een verschillend effect van
impactenergie per rijpheid betekent. Ook is het percentage
beschadiging bij rijpheid groen lager dan bij oranje en rood. Rood
lijkt de meeste beschadiging te vertonen.
Vervolgens gaan we een prediction profiler opstellen voor elke
rijpheid.
Uit deze grafieken kunnen we duidelijk zien dat er een verschil
is in schade bij groene tomaten vergeleken met oranje en rode
tomaten. Tussen deze laatste twee is er geen overduidelijk verschil
zichtbaar. Uit de voorgaande plots (regressie en prediction
profiler) kunnen we de volgende testen voorstellen : Groen
verschilt significant van oranje en rood. Oranje en rood
verschillen niet significant van elkaar.Omdat we uit onze
regressieplot dachten te kunnen afleiden dat de hellingen
verschillen per level van rijpheid, vermoeden we dat er in het
uiteindelijke model interactietermen kunnen zitten.
2.2 Schatten van het beste modelNa deze grafische visualisatie
gaan we over op het schatten van het beste model op basis van het
effect-type coding. We beginnen met het beschouwen van de parameter
estimates van het full model. Aangezien het model een kwalitatieve
variabele bevat met meer dan 2 levels, mogen we enkel naar de
F-test kijken om uitspraken te doen over de significantie van de
parameterschattingen. We bekijken de P-waardes van de F-testen om
te weten of we al parameters kunnen weglaten en ons model kunnen
reduceren.Onze hypotheses zijn :In bijgaande testen zien we dat
zowel de impactenergie als de interactie-effecten geen significante
invloed hebben aangezien de P-waarde groter is dan het significante
niveau van 0,05, waardoor we aanvaarden. We vermoeden dus dat er
een beter, gereduceerd model gevonden kan worden.
Om tot een beter model te komen, laten we eerst de
interactie-effecten weg, aangezien zij de grootste P-waarden
hebben. Daarna bekijken we de parameter estimates opnieuw en ook de
P-waarden van de F-test. Onze hypotheses zijn :In bijgaande testen
zien we nu dat de impactenergie wel een significante invloed heeft
en bijgevolg houden we deze in het model.
Dan bekomen we het gereduceerde model .
Vervolgens kijken we naar de R adj. en de MSE om te oordelen of
het gereduceerde model beter is dan het full model. In onderstaande
figuren kunnen we zien dat de Rsquare adj. gestegen is en dat de
MSE kleiner is geworden. Het gereduceerde model is dus beter als
het full model.
Nieuw model Oud model
De geschatte parameters van het nieuwe (gereduceerde) model zijn
dan : Uit het full model hadden we een interactieterm verwacht
aangezien de helling van groen zichtbaar verschillend was van die
van oranje en rood. Maar in het nieuwe model hebben we de
interactietermen weggelaten, waardoor de helling voor alle 3 levels
van rijpheid gelijk zijn. We moeten dus niet meer testen op een
verschil in en .
Wat we nu doen is het analyseren van de normaliteit van de
residuals. Dit doen we door het weergeven van de waarnemingen ten
opzichte van het gefitte model en het plotten in een histogram en
een boxplot.
Ten laatste analyseren we die normaliteit in een shapiro-wilk
test.Onze hypothese : de residuals zijn normaal verdeeld de
residuals zijn niet normaal verdeeld.
De P-waarden zijn kleiner dan 0,05, dus verwerpen we , wat
betekent dat de residuals niet normaal verdeeld zijn.
Uit de boxplot en de Shapiro-wilk test kunnen we besluiten dat
het model niet perfect is. Maar de Radj en de MSE-waarden van het
nieuwe model geven toch aan dat het model te gebruiken is en nog
steeds beter is dan het full model.
2.2 Vergelijken van de regressierechten van de 3 levels van
rijpheid onderling. We beginnen met een visualisatie van de
regressierechten per level van rijpheid.
Omdat de interactietermen zijn weggelaten in het nieuwe model
zijn de hellingen alle drie evenwijdig. Ook zien we dat rood de
hoogste beschadiging heeft, gevolgd door oranje, met weinig
verschil. Ook zien we dat groen altijd de laagste beschadiging
vertoont en ver van de andere twee regressierechten ligt.
Op bijgaande prediction profiler hebben we een negatieve
desirability ingesteld, wat inhoudt dat de laagste beschadiging de
grootste desirability heeft. De figuur geeft weer dat groen de
hoogste desirability heeft, gevolgd door oranje en rood. Daarnaast
heeft een lage impactenergie een hoge desirability en een hoge
impactenergie een lage desirability.
We vermoeden dus dat er geen verschil is tussen rood en oranje.
Ook vermoeden we dat de beschadiging van groen wel verschilt met
die van oranje en rood. Dit gaan we nu testen.We beginnen met het
vergelijken van de beschadiging van rood en oranje. Hypotheses : :
of nog (met ) : of nog
Uitleg voor de dummys : dus oranje rood . De cofficinten bij
zijn dus 1 en 2 voor deze test.
In de test zien we dat de P-waarde van de F-test groter is dan
0,05. Hieruit besluiten we dat we niet verwerpen met
significantieniveau 0,05. Met andere woorden, beschadiging van
oranje en rood verschillen niet significant van elkaar, wat
overeenkomt met onze vermoedens.
Nu vergelijken we de beschadiging tussen groen en
rood.Hypotheses : : of nog (met ) : of nog
Uitleg voor de dummys : dus groen rood . De cofficinten bij zijn
dus 2 en 1 voor deze test.
In de test zien we dat de P-waarde van de F-test veel kleiner is
dan 0,05. Hieruit besluiten we dat we mogen verwerpen met
significantieniveau 0,05. Met andere woorden, beschadiging van
groen en rood verschillen significant van elkaar, wat ook
overeenkomt met onze vermoedens. 2.3 Vergelijken van de
parameterschatting bekomen bij effects-type coding en 0/1 coding.We
beginnen met het verklaren van de parameters bij 0/1 coding. Het
full model is ook hier
0 is het intercept, of de verwachte beschadiging bij rood indien
de impactenergie (of x) = 0. is het verschil in percentage
beschadiging van rood en groen indien de impactenergie (of x) = 0.
is het verschil in percentage beschadiging van rood en oranje
indien de impactenergie (of x) = 0. is het verschil in het effect
van de impactenergie op groen en rood. is het verschil in het
effect van de impactenergie op oranje en rood.Effect van
impactenergie :Bij groen : ; Bij oranje : ; Bij rood :
Vervolgens bekijken we de parameter estimates van het reduced
model op basis van de 0/1 coding. Onze hypotheses zijn : : effect
parameter = effect bij rood. : effect parameter effect bij
rood.
Aangezien de P-waarde van oranje groter is dan het
significantieniveau 0,05, aanvaarden we bij oranje. Er is dus geen
significant verschil tussen het effect van oranje en rood. Dit komt
overeen met de uitkomst van de eerder uitgevoerde custom test
oranje-rood. De andere P-waarden zijn kleiner dan en hier verwerpen
we dus telkens.
Bij effects type coding wordt het effect van elke rijpheid
vergeleken met een gemiddelde rijpheid. Groen (-39) doet het veel
beter dan het gemiddelde, maar oranje en rood doen het slechter dan
het gemiddelde (rood het slechtste).In de coding 0/1 zijn de
parameter schattingen telkens vergelijkingen van de eerste 2
rijpheden met de laatste, in dit geval rood. We zien hier dan zowel
groen als oranje een negatieve parameter hebben en ze dus beter
zijn dan rood (minder beschadiging hebben). Dit komt overeen met
het vorige besluit uit effect type coding. Hier is ook groen het
beste en loopt het minste schade op.
3. ConclusieHet beste model is . Aan de hand van de normaliteits
en ouliersanalyse zien we dat dit model niet perfect is. De Radj en
MSE-waardes zijn echter acceptabel.
Aan de hand van de analyses op het reduced model (grafische
interpretaties, interpretaties van de parameterschattingen en de
custom-tests) was het zowel bij effect-type coding als bij 0/1
coding duidelijk dat rijpheid groen de laagste beschadigingsgraad
heeft. Daarnaast zagen we dat ook een zo laag mogelijke
impactenergie zorgt voor een lage beschadiging.
Groen is duidelijk de beste rijpheid. Hier moeten we echter ook
rekening houden met wat de consument wilt; namelijk geen groene
tomaten. De tomaten zullen daarna in rijpingsserres verder moeten
rijpen.
5