Análisis estadístico de datos de cultivos in-vitro usando R Juan Pablo Angamarca G. Becario Escuela de Ciencias de la Computación [email protected]Mat. Pablo Ramón C. Docente Investigador Docente Investigador – LFV – UTPL [email protected]Unidad de Fisiología y Ecología Vegetal
Algunos comandos básicos para hecer Análisis de Varianza utilizando lenguaje R
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Análisis estadístico de datos de cultivos in-vitro usando R
Juan Pablo Angamarca G.Becario Escuela de Ciencias de la Computación
• Realizar el análisis estadístico de los datos de cultivos in-vitro usando el lenguaje estadístico R como una mejor alternativa entre el software estadístico clásico.
• Incorporar nuevos procedimientos al análisis estadístico mediante el lenguaje R, concretamente representaciones gráficas, con la finalidad de optimizar la interpretación biológico-estadística.
• Aprovechar la flexibilidad que ofrece este lenguaje estadístico en dicho análisis.
Metodología• Fase 1: Entender el funcionamiento del
lenguaje R mediante la lectura de artículos y tutoriales.
• Fase 2: Realizar aplicaciones sencillas de análisis de datos en el lenguaje.
• Fase 3: Utilizar los datos de las investigaciones realizadas en el laboratorio de Fisiología Vegetal para un análisis estadístico adecuado.
• Fase 4: Extender la fase 3 utilizando las características de programación del lenguaje.
Análisis de Varianza
• Identificar el origen de la variabilidad de una o más fuentes potenciales, llamadas “tratamientos” o “factores”.
• Variando los factores o niveles en un diseño predeterminado y analizando los resultados.
Análisis de Varianza• Comparar promedios de
tratamientos.• Identificar si la variabilidad depende
de los diferentes tratamientos o de un error aleatorio.
• Hipótesis:H0: μ1 = μ2 = … = μα
Donde μi representa la media de cada nivel (one-way) o tratamiento (two-way).
Condiciones de ANOVA• Test de Bartlett (variabilidad)
El test de Bartlett (Snedecor y Cochran, 1983) tiene como utilidad el determinar si k muestras tienen varianzas iguales (homogeneidad de varianzas).
• Test Kolmogorov-SmirnovEs un test de ajuste a una ley continua (normal).
• Test Shapiro-Wilk (Normalidad de los residuos)El test Shapiro-Wilk es un análisis de varianza (semi/no) paramétrico que nos dota de evidencia para afirmar que existen ciertos tipos de normalidad, mas no garantiza “normalidad”.
Condiciones del ANOVA
• Test de Bartlett (variabilidad)El test de Bartlett (Snedecor y Cochran, 1983) tiene como utilidad el determinar si k muestras tienen varianzas iguales (homogeneidad de varianzas).
• Test Kolmogorov-SmirnovEs un test de ajuste a una ley continua (normal).
• Test Shapiro-Wilk (Normalidad de los residuos)El test Shapiro-Wilk es un análisis de varianza (semi/no) paramétrico que nos dota de evidencia para afirmar que existen ciertos tipos de normalidad, mas no garantiza “normalidad”.
Análisis de Varianza
• Luego de realizar el test ANOVA, se realiza una prueba post-hoc, ejm: test Tukey
• Test post-hoc = test comparaciones múltiples
Lenguaje y Entorno R
• R lenguaje y entorno para computación estadística y gráficos
• Es un proyecto GNU (software libre)• Posibilidad de crear gráficos, incluir
símbolos y fórmulas matemáticas donde se necesiten.
• R es una suite integrada de utilitarios de software
• Un bien logrado, simple y efectivo lenguaje de programación que incluye sentencias condicionales, bucles, funciones definidas por usuario y facilidades para ingreso y presentación de datos
Lectura de datos con R• R puede obtener datos desde varias fuentes• Ejm: datos en Excel, así que, para facilitarnos
la importación de datos, podemos exportar una hoja de Excel como un archivo de texto.
• Luego importarlo con la función read.table de R, que al leer el archivo, creará un objeto de datos llamado “Data frame”, que contendrá los datos del archivo.
• Asignación a un objeto brotacionCinchona los datos del archivo:
Bartlett test for homogeneity of variancesdata: brotacionCinchona$Brotacion and brotacionCinchona$Tratamientos Bartlett's K-squared = 6.6692, df = 11, p-value = 0.8252
• Conclusión: Puesto que p-value es mayor que 0.05, no se rechaza la hipótesis de homogeneidad de varianzas.
Test ANOVA
H0 = No existe diferencia significativa en la brotación media de cada tratamiento.
> aov.brotacionCinchona <- aov(brotacionCinchona$Brotacion ~ brotacionCinchona$Tratamientos)> aov.brotacionCinchonaCall: aov(formula = brotacionCinchona$Brotacion ~ brotacionCinchona$Tratamientos)Terms: brotacionCinchona$Tratamientos ResidualsSum of Squares 45 230Deg. of Freedom 11 24Residual standard error: 3.095696 Estimated effects may be unbalanced> summary(aov.brotacionCinchona) Df Sum Sq Mean Sq F value Pr(>F)brotacionCinchona$Tratamientos 11 45.000 4.091 0.4269 0.9287Residuals 24 230.000 9.583
Puesto que Pr > 0.05, no se rechaza la hipótesis de igualdad de promedios entre cada tratamiento.
Gráficas de ANOVA
Test TUKEY HSD
OBJETIVO: Determinar tratamientos significativamente diferentes
> resultados.tukey <- TukeyHSD(aov.cinchona)> resultados.tukey Tukey multiple comparisons of means 95% family-wise confidence levelFit: aov(formula = Brotación ~ Tratamientos)