M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
1
Pgina 1
1.1 La estadstica
La Estadstica es una herramienta que tiene como fundamento el recolectar, organizar, describir e inferir informacin para aportar al desarrollo de las dems ciencias.
La estadstica descriptiva es aquella cuyo principal objetivo es dar un relato del conjunto de datos organizados, sin necesidad de realizar inferencias.
Se limita a describir los datos que se analizan, sin hacer inferencias en cuanto a los no incluidos en la muestra .
Por el contrario la estadstica inferencial tiene como finalidad obtener conclusiones de una poblacin basndose en datos muestrales, por lo tanto realiza estimaciones y pruebas de hiptesis.
1.2 Bioestadstica
El mtodo estadstico consiste en una secuencia de procedimientos para el manejo de los datos
en una investigacin, dicho manejo tiene entre otros, el propsito de buscar tcnicas
apropiadas que permitan mostrar la validez de una o ms hiptesis de investigacin.
Es vlido comentar que en la literatura se pueden encontrar distintos nombres a los procesos
del mtodo estadstico, lo importante es establecer una adecuada jerarquizacin para cada uno
de ellos y llevarlos a cabo de la mejor manera; para el apoyo de los procesos de investigacin.
Estos elementos juegan un papel fundamental en los procesos investigativos llevados en las
ciencias de la salud, ya que robustecen los resultados que se obtienen, brindando universalidad
y confianza a la comunidad cientfica.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
2
Pgina 2
Etapa Administrativa
Recursos econmicos
Recursos humanos
Recursos tecnolgicos
Etapa terica
Antecentes y planteamiento
del problema.
Hiptesis
Objetivos
Justificacin
Marco referencial
Etapa MetodolgicaDiseo metodolgico
Tipo de Investigacin
Poblacin
Definicin de variables
Aspectos ticos
Tcnicas e instrumentos
Anlisis de resultados
Aspectos administrativos
Entre las etapas de los procesos de investigacin se encuentran:
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
3
Pgina 3
1.3 Hiptesis
Definicin 1.1.1 Una hiptesis estadstica es una afirmacin o conjetura acerca de una o ms
poblaciones o, lo que es ms frecuente, un conjunto de afirmaciones sobre uno o ms
parmetros de una o ms poblaciones.
ser
No estadsticas
Las hiptesis pueden
Estadsticas
Es importante tener en cuenta que las hiptesis deben plantearse en trminos de los
parmetros, que son las caractersticas medibles de la poblacin y que generalmente no las
conocemos, a menos que se realicen estudios de cobertura completo, por ejemplo el censo.
1.3.1 Las hiptesis nula y del investigador
: oH hiptesis nula , bsicamente es negar toda diferencia entre:
a. Dos poblaciones
b. Entre dos parmetros poblacionales
c. Entre el valor verdadero de algn parmetro y su valor hipottico
1 : H hiptesis del investigador , es usualmente el complemento de la hiptesis nula y
representa la conclusin cuando oH se rechaza y es bsicamente la pregunta a responder.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
4
Pgina 4
Ejemplo 1.1.2 Analizar las siguientes hiptesis:
. : Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan menor o
igual productividad respecto a los trabajadores de las empresas que no cuentan con dich
oa H
1
os programas.
: Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan mayor
productividad respecto a los trabajadores de las empresas que no cuentan c
H
on dichos programas.
. : Los trabajadores de las empresas que cuentan con programas de recreacin familiar no presentan diferencia respecto
a su productividad cuando se les compara con los trabajadores de las emp
ob H
1
resas que no cuentan con dichos programas.
: Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan diferencia respecto
a su productividad cuando se les
H
compara con los trabajadores de las empresas que no cuentan con dichos programas.
. : Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan mayor o igual reporte de
situaciones de conflicto respecto a los trabajadores de las empresas
oc H
1
que no cuentan con dichos programas.
: Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan menores reportes de
situaciones de conflicto respecto a
H
los trabajadores de las empresas que no cuentan con dichos programas.
Ejemplo 1.1.3 De acuerdo a las siguientes situaciones, derive las hiptesis nula y del
investigador.
El jefe de personal de una empresa se pregunta si el peso medio de sus trabajadores es
mayor de 98,5 kilos de peso.
Un siclogo piensa que al impartir charlas motivacionales a la fuerza de venta de una
empresa genera diferencia positiva en su rendimiento laboral.
Un investigador interesado en el impacto sonoro al que estn expuesto los trabajadores,
considera que hay diferencias por tipo de ruido y problemas auditivos (ruido continuo,
intermitente y de impacto)
Un ingeniero Industrial encargado del rea de bienestar en una empresa le interesa
saber si el tipo de contratacin que se realiza a los nuevos trabajadores influye en su
rendimiento laboral
Un Mdico deportlogo considera que las personas que realizan ejercicio semanalmente
poseen mejor rendimiento y disposicin en sus actividades laborales en comparacin
con aquellos que no practican ejercicio semanalmente.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
5
Pgina 5
Adems, es importante tener en cuenta que si k y es un parmetro poblacional,
entonces:
a. 1 :H k , se denomina alternativa bilateral
b. 1 1: y :H k H k , se denominan alternativas unilaterales.
Ahora bien, al establecer las hiptesis estadsticas se debe tener presente que:
a. La hiptesis nula siempre se refiere a un valor especfico del parmetro de la poblacin, no al estadstico.
b. La expresin de la hiptesis nula siempre contiene un signo igual respecto al valor especfico del parmetro de la poblacin.
c. La expresin de la hiptesis alternativa nunca contiene un signo igual respecto al valor especfico del parmetro de la poblacin.
En la medida que se vaya tomando prctica en la formulacin de las hiptesis lograr
identificar que las conclusiones se realizarn teniendo en cuenta que:
Rechace oH , a favor de 1H al existir suficiente evidencia en la informacin muestral.
No rechace oH , al no existir suficiente evidencia en la informacin muestral.
Acepta o No rechazar la Hiptesis Nula?
Las aplicaciones de las pruebas de hiptesis son bastante amplias, pero se tomar un el ejemplo
del veredicto de un jurado para sacar algunas conclusiones respecto a las hiptesis nula y
alternativa.
Por ejemplo, sean:
0 : H el acusado es inocente
1 : H el acusado es culpable
Es importante comprender que el rechazo de una hiptesis simplemente implica que la
evidencia de la muestra la refuta
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
6
Pgina 6
Ejemplo 1.1.4 Se quiere analizar el impacto de la aplicacin de un programa para prevenir
desrdenes con movimientos repetitivos de msculos superiores (sndrome de tnel carpiano,
epicondilitis y enfermedad de De Quervain) en una empresa de la ciudad. Para tal motivo se
toman dos grupos, uno al que se le aplic el programa Msculo Esqueltico y al otro no, para
lo cual el equipo investigador se plantea las hiptesis:
1
2
Sea : proporcin de trabajadores a los que se les aplica el programa M.E.
: proporcin de trabajadores a los que no se aplica el programa M.E.
p
p
0 1 2: tienen mayor o igual dificultades con movimientos repetitivos quea la H p p
1 1 2: tienen menos dificultades con movimientos repetitivos que H p p
Errores tipo I y tipo II
Las decisiones que se discuten, sobre la hiptesis nula, as:
No rechazar la hiptesis nula (o rechazar la alternativa)
Rechazar la hiptesis nula (o aceptar la alternativa)
Aceptar Decisin correcta Decisin incorrecta
Rechazar Decisin incorrecta Decisin correcta
Decisin sobre es verdadera es falsaoH oH oH
oH
oH
De acuerdo a la tabla anterior, se generan dos tipos de errores y por tanto es de inters saber la
probabilidad de cometer esos errores, de esta manera se tiene que:
0 0 / P error tipo I P rechazar H H verdadera
0 0 / P error tipo II P aceptar H H es falsa
Donde se llama nivel de significancia, siendo 1 el llamado GRADO DE CONFIANZA y la
probabilidad 1 se llama potencia de la prueba.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
7
Pgina 7
1.4 Medicin
Esta parte del proceso del mtodo estadstico exige un manejo claro del investigador acerca del
trabajo como tal; ya que implica tomar mediciones de acuerdo a qu se va a medir, definir
operacionalmente las variables, construccin y aplicacin del instrumento para luego realizar
la aplicacin y recoleccin de datos previa prueba piloto.
Pero qu es medir?
Es el proceso mediante el cual se compara una unidad patrn seleccionada con el objeto o
fenmeno que se desea medir
el proceso de vincular conceptos abstractos con indicadores empricos proceso que se realiza mediante un plan explcito y organizado para clasificar (y frecuentemente cuantificar) los datos disponibles los indicadores en trminos del concepto que el investigador tiene en mente (Carmines y Zeller, 1979, p. 10)
Un instrumento de medicin adecuado es aquel que registra datos observables que representan verdaderamente a los conceptos o variables que el investigador tiene en mente (Sampieri, 1997)
Objeto
Medicin
Valor verdadero
Error de medida
Parte Sistemtica E.A.M.
Parte Aleatoria E. M
Medicin
Precisin, la cual evidencia la proximidad entre varias
medidas obtenidas de igual manera.
Exactitud, indica la proximidad de una medida a
su valor verdadero.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
8
Pgina 8
Se ha definido que una escala es un continuo de valores ordenados correlativamente que tengan un punto inicial y otro final asignado por los investigadores. Por ejemplo, si se evala el rendimiento de los trabajadores en cuando a un proceso productivo se puede asignar el valor 0 al mnimo rendimiento esperado bajas ciertas condiciones y preparacin del trabajador y al mayor rendimiento 100; teniendo en cuenta que se pueden determinar valores intermedios.
Algunas generalidades para los instrumentos:
a. Seleccin del mejor instrumento
b. Traduccin al espaol y traduccin en sentido inverso
c. Prueba piloto (en relacin a la evaluacin, a la utilidad de la escala y al formato utilizado)
Es importante al momento de la realizacin de un estudio tener claridad sobre la poblacin que
se va a trabajar y si se va a realizar un muestreo o no. Adems, identificar plenamente en la
pregunta problema cul es la unidad de anlisis y la unidad de observacin.
Requisitos de un instrumento de medicin
Confiabilidad, la cual hace referencia a obtener los mismo
resultados en aplicaciones reiteradas del instrumento
(Consistencia Interna)
Validez, la cual hace referencia al grado con que el
instrumento mide lo que la variable realmente quiere
medir
De Contenido, asociado al "manejo" puntual del
contenido que se pretende medir. (Dominio de Inters -
Especificidad terica)
De Criterio, se establece al comparar el instrumento con
otro que mida la misma variable
De Constructo, da cuenta de la evidencia emprica de la
medicin de las variables con otras mediciones de conceptos
relacionados.
De expertos, es el grado en que un instrumento mide la
variable de inters a juicio de un grupo de expertos en el
tema.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
9
Pgina 9
Ejemplo 1.1.5
a. Identificar en cada una de las siguientes situaciones el tipo de error:
Se realizan las mediciones, con una balanza no calibrada, del peso de 25 trabajadores en
una empresa de la ciudad.
Se aplica un cuestionario a los trabajadores, en donde deben escribir el nombre, en el
cual se indague sobre la satisfaccin del clima laboral.
Se realiz una inadecuada interpretacin de los resultados obtenidos en unas pruebas de
un grupo de trabajadores en una empresa de la ciudad.
Se realiz un estudio sobre mobbing laboral en el cual no se dise un marco
muestral.
Se realiza una medicin sobre fatiga de trabajadores utilizndose un instrumento
internacional y no se realiza validacin cultural.
b. Analizar la siguiente escala Likert
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
10
Pgina 10
d. Escala dicotmica
Por favor, lea cuidadosamente estas instrucciones antes de empezar. Luego marque todas sus
contestaciones en la Hoja de respuestas. Este cuestionario contiene una lista de frases. Lea cada frase
con atencin y piense si lo que dice describe o no su forma de ser. Si usted est de acuerdo con ella,
marque Su respuesta en V (verdadero). Si usted est en desacuerdo, piensa que no describe su forma de
ser, marque F (falso) en la Hoja de respuestas.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
11
Pgina 11
e. Versin Colombiana de un test Espaol Tipo escala Likert
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
12
Pgina 12
Definicin 1.1.6 La unidad de anlisis es aquella entidad representativa que va a ser objeto de
estudio. Algunos ejemplos de unidades de anlisis son:
Calidad de vida
Engagement ,enamoramiento hacia el trabajo
Burnout ,sndrome del quemado
Niveles de exposicin a una sustancia txica
Percepcin en riesgo
Definicin 1.1.7 La unidad de observacin corresponde a la entidad que suministra la
informacin respecto a las unidades de anlisis
Si la unidad de anlisis es el Engagement las unidades de observacin es el trabajador, en el cual
se podran analizar:
El nmero de tareas realizadas, no asignadas, relevantes para la empresa en el ltimo
mes.
El nmero de aportes para conseguir mejoras en la empresa.
Nmero de horas adicionales dedicadas a proyectos de la empresa, sin recibir
bonificacin econmica.
Percepcin de los compaeros respecto al grado de compromiso que tiene un
funcionario especfico.
Ejemplo 1.1.8 Supngase que se quiere realizar un estudio descriptivo que busca construir una
lnea base sobre las condiciones de salud y bienestar de los trabajadores que ingresan a la
empresa OMEGAXX. En relacin a esto se realiza la siguiente pregunta problema:
Cules son las condiciones de salud y bienestar de los trabajadores que ingresan a la empresa
OMEGAXX en el ao 2012
Cul es la unidad de anlisis y cul es la unidad de observacin?
Respecto a la unidad de observacin, qu variables se podran identificar?
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
13
Pgina 13
1.4.1 Variables Estadsticas
Definicin 1.1.9 Una variable estadstica es una funcin que asigna valores a las caractersticas de la poblacin analizada.
NATURALEZA ESCALA DE MEDICIN TIPO
Razn Intervalo Ordinal Nominal Discreta Continua
CUALITATIVA
CUANTITATIVA
De acuerdo a su naturaleza las variables se clasifican en:
a. Cualitativas: las variables cualitativas son aquellas que resultan de registrar la presencia
de un atributo.
b. Cuantitativas: las variables cuantitativas son aquellas que resultan al registrar un
nmero.
De acuerdo a su escala de medicin:
a. Nominal: es aquella donde las categoras en relacin a la variable no presentan
jerarquas.
b. Ordinal: es aquella en la que se establece una relacin de orden entre sus categoras.
c. Intervalo: es aquella en la cual el punto cero, si existe; es arbitrario. Adems las
categoras tienen un orden especfico y las distancias o intervalos entre stas son iguales.
d. Razn: es aquella donde se identifica un punto cero, que significa ausencia de la
caracterstica.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
14
Pgina 14
Las variables deben cumplir un par de condiciones importantes para el buen desarrollo de los
proyectos, las cuales son:
a. Exhaustividad: sta condicin busca que al clasificar la variable se contemplen todas las
posibilidades que de ella se pueda medir.
b. Mutua exclusin: busca que una unidad de anlisis o persona slo pueda ser asignada o
clasificada en un solo valor de la variable.
Indique la escala de medicin para cada una de las siguientes variables
Variable Escala de medicin
Nominal Ordinal Intervalo Razn
Nivel de escolaridad
Carreras ofrecidas por la Universidad X
Peso de los 20 primeros pacientes atendidos en la clnica Y
Puntuaciones de un test de lectura rpida
Estrato en el que viven los estudiantes de la Universidad X
Nmero de accidentes de trnsito en Diciembre en la ciudad Z
Temperatura medida, en grados centgrados, los primeros 6 meses del ao
Sexo de los estudiantes de la Universidad X
Salarios de los trabajadores de la empresa A
Estatura de los integrantes de un equipo de baloncesto
Nmero de accidentes semestrales de los trabajadores de la empresa A
Nmero de bacilos inoculados de Shigella en un grupo poblacional expuesto a factores contaminantes
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
15
Pgina 15
1.4.2 Operacionalizacin de variables estadsticas
Definicin 1.1.9 La Operacionalizacin de las variables son los consensos que muestra cmo se
va a medir la variable, pasando de un nivel abstracto a un nivel concreto a efectos de poder
observarla y medirla de manera confiable, con el propsito de contrastar hiptesis.
Macro variable VariablesDefinicin
OperacionalNaturaleza
Nivel de
medicin
Criterio de
clasificacin
20, 21,
22,23,24
Masculino
Femenino
Soltero
casado
viudo
unin libre
Razn
Nominal
Nominal
Caractersticas
demogrficas
#aos cumplidos por el
entrevistado a la fecha
de realizacin de la
encuesta e informados
por el mismo
Caracterstica
fenotpica que diferencia
al hombre de la mujer
Es la respuesta que de el
entrevista si
actualmente est
conviviendo con una
pareja
Cuantitativa -
Continua
Cualitativa
Cualitativa
Edad
Sexo
Convivencia
con pareja
Es importante tener en cuenta que existen mtodos cuantitativos y cualitativos y cada uno de
ellos tiene sus respectivas tcnicas de recoleccin de informacin
Hipertensin arterial,
dislipidemias, cardiopatia
isqumica, poli neuropata
perifrica , otros.
Fumar, Ingestin de bebidas
alcohlicas, otros
Siempre, algunas veces y
nunca.
Nominal
Nominal
Ordinal
Caractersticas
relacionadas con
patologas y
estilos de vida
Patologas diagosticadas por
profesionales de la salud al sujeto
de estudio
Hbitos nocivos seleccionadas por
los sujetos , de un l i s tado
suminis trados por los
investigadores .
Nivel de prctica de ejercicios
referidos por los sujetos de estudio.
Cualitativa
Cualitativa
Cualitativa
Enfermedades
Hbitos txicos
Ejercicio fsico
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
16
Pgina 16
2.1 lgebra de conjuntos
2.1.1 Operaciones entre eventos
Al ser los eventos un conjunto, entonces se puede aplicar operaciones entre stos tales
definindose as: la unin, diferencia, interseccin, complemento entre eventos. Tambin se
puede identificar aquellos eventos que se denominan excluyentes.
Definicin 2.1.1 Si A y B son dos eventos de un espacio muestral , entonces la interseccin
entre stos eventos simbolizada A B , es el conjunto de todos los resultados posibles que
pertenezcan a A y B .
Definicin 2.1.2 Dos eventos de un espacio muestral se denominan mutuamente
excluyentes si su interseccin es vaca, es decir, A B
Definicin 2.1.3 Si A y B son dos eventos de un espacio muestral , entonces la unin entre
stos eventos, notada A B , es el conjunto de resultados posibles de A o B o ambos.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
17
Pgina 17
Definicin 2.1.4 Si A y B son dos eventos de un espacio muestral , entonces la diferencia
entre stos eventos, notada A B es el conjunto de todos los elementos que estn en A y no
en B .
Definicin 2.1.5 Si A es un evento del espacio muestral , entonces, el complemento de A ,
notado 'A , es el conjunto de todos los elementos que no estn pero que se encuentran en .
Ejemplo 2.1.6 Se conoce que el nmero de estudiantes que aprobaron un test de conocimiento
sobre riesgo ergonmico fue de 20 , los que aprobaron otro sobre riesgo cardiovascular de 23y
los que aprobaron ambos de 9 . S 50 estudiantes presentaron stas pruebas: Completa cada
uno de los sectores y responde:
a. Cuntos estudiantes no aprobaron las pruebas mencionadas?
b. Cuntos estudiantes aprobaron slo el test sobre riesgo cardiovascular?
c. Cuntos estudiantes al menos uno de los test?
d. Cuntos estudiantes aprobaron slo un test?
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
18
Pgina 18
Ejemplo 2.1.7 Para cada uno de los siguientes problemas, realiza el diagrama de Venn e
identifica los valores correspondientes de cada sector para responder resolver la pregunta
propuesta.
a. Se eligieron al azar 30 trabajadores de la empresa OMEGA XX para realizarle mediciones
antropomtricas y otras medidas necesarias con el fin de tomar acciones preventivas para
disear un programa y evitar enfermedades cardiovasculares. Dentro de los resultados se
encontr por ejemplo que 4 trabajadores tienen altos niveles de colesterol y sobre peso, si
hay 12 trabajadores que slo tienen sobre peso y 6 que no tienen las caractersticas
mencionadas; cuntos trabajadores tienen los niveles de colesterol alto?
b. En un estudio realizado en el 2014 en una sede de una empresa productora de tornillos, se identificaron 130 accidentes laborales, de los cuales 68 ocurrieron en el rea de produccin; adems, 47 del total de los accidentes ocurrieron en la jornada nocturna. Si 21 de los accidentados pertenecen al rea de produccin de la jornada nocturna, cuntos empleados tuvieron un accidente laboral que no pertenecen al rea de produccin que no sean de la jornada nocturna?
c. De 60 personas que pertenecen al rea de recursos humanos de una Universidad de Barranquilla, se encontr, que 19 de stas realizan pausas activas durante su jornada laboral, 10 realizan pausas activas y mantienen buena postura ergonmica al realizar sus labores, y 15 no mantienen una buena postura ergonmica y no realizan pausas activas en la jornada laboral. Cuntas personas realizan pausas activas o mantienen buena postura ergonmica en su jornada laboral?
d. En un gimnasio se realizaron entrevistas a 520 personas durante una semana y se encontr que el 69% de los encuestados realizaba su entrenamiento bajo una rutina de TRX o de MMF, adems se identific que el 47% realiza entrenamiento de MMF. Si un 32% realizan las dos rutinas de entrenamiento. Aproximadamente cuntas personas entrenan TRX?
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
19
Pgina 19
2.1.2 Poblacin
Definicin 2.1.8 Poblacin diana o blanco es aquella que viene delimitada por ciertas
caractersticas, tales como: demogrficas, geogrficas, climatolgicas, biolgicas, ecolgicas,
sociales, proceso salud-enfermedad, condiciones de vida, modos de vida y estilos de vida. En
trminos de salud ocupacional las poblaciones blanco estaran dadas entre otras por tipo de
estructuras organizacionales, tipologas de composicin, y tipologas de organizaciones segn
riesgo.
Ejemplo 2.1.9 Los siguientes son ejemplos de poblacin diana:
Trabajadores en riesgo de sndrome metablico en el departamento del Atlntico.
Trabajadores en riesgo de enfermedades respiratorias ocupacionales en las minas de
carbn.
Definicin 2.1.10 La poblacin accesible es aquella que consta del conjunto de casos que
satisfacen criterios predeterminados pero que a la vez sean prcticos y accesibles para el
investigador.
Es importante para destacar en la poblacin accesible que se tenga existencia de registros, acuerdo de colaboracin, zonas de poco riesgo para la salud y vida
De acuerdo a lo anterior es importante tener de referencia la siguiente caracterizacin:
Poblacin diana
Pregunta deinvestigacin -Unidad de anlisis yunidad deobservacin
Poblacin accesible
Viabilidad y accesibilidad
Poblacin elegible
Criterios deinclusin yexclusin
Muestra
Calculo del tamaode muestra y tipode muestreo
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
20
Pgina 20
Definicin 2.1.11 La poblacin elegible es aquella que cumple los criterios de inclusin y exclusin.
Definicin 2.1.12 La muestra es un subconjunto de la poblacin elegible.
Ejemplo 2.1.13 Suponga que se va a realizar un programa para mejorar la salud fsica de los
trabajadores con apoyo de la secretara de salud en las empresa productoras de baldosas del
departamento del Atlntico. Para esto se requiere seleccionar un equipo de trabajadores que
lideren actividades de ejercicio fsico que tiene el programa; para lo cual se genera el siguiente
marco muestral:
Poblacin diana: todos los trabajadores de las empresas de la lnea de baldosas en el
departamento del Atlntico.
Poblacin accesible: todos los trabajadores de las empresas consultadas que respondieron que
queran participar en el programa.
Poblacin elegible: los trabajadores de las empresas que cumplan siguientes criterios definidos
por el equipo de investigacin:
Criterios de inclusin:
Trabajadores con contrato fijo
Que tengan ms de un ao de trabajo
Con experiencia como capacitadores en esta rea
Criterios de exclusin:
Trabajadores en proceso de recuperacin luego de un accidente
Trabajadores con alguna discapacidad en las extremidades
Luego de estos pasos se realiza el clculo de tamao de muestra utilizando como referencia la
poblacin elegible.
Ejemplo 2.1.14 Determinar la ocurrencia de accidentes de trabajo en obreros del sector
construccin con turnos mayores a 8 horas/da del Centro Norte Histrico de la ciudad de
Barranquilla en el ao 2013.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
21
Pgina 21
Poblacin diana: todos los obreros que laboran en el sector construccin del Centro Norte
Histrico de la ciudad de Barranquilla construccin con turnos mayores a 8 horas/da.
Poblacin accesible: todos los trabajadores del sector construccin con turnos mayores a 8
horas/da de las empresas consultadas del Centro Norte Histrico de la ciudad de Barranquilla
respondieron que queran participar en el estudio.
Poblacin elegible: los trabajadores de las empresas que cumplan siguientes criterios definidos
por el equipo de investigacin:
Criterios de inclusin:
Trabajadores con contrato fijo
Criterios de exclusin:
Trabajadores que tuvieron 4 o menos turnos en el semestres de estudio.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
22
Pgina 22
2.1.3 Muestreo
Cuando se va a realizar un estudio o investigacin es importante tener en cuenta, entre otras
cosas, el nmero de individuos o elementos que garanticen la validez de los resultados, para tal
fin se hace necesario realizar un adecuado clculo del tamao de la muestra ya que sta ofrece
una serie de ventajas entre las que se encuentran:
Permite la realizacin del estudio porque de lo contrario fuese casi que imposible
llevarlo a cabo.
Permite la realizacin en un menor tiempo del estudio.
La inversin econmica es menor.
Posibilita profundizar en el anlisis de las variables.
Pueden seleccionarse de tal manera que se pueda reducir la heterogeneidad en la
poblacin.
Tipo de muestreo
Probabilstico
Aleatorio simple
Sistemtico
Estratificado Conglomerado
No probabilstico
Conveniencia Juicio
Cuotas Bola de nieve
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
23
Pgina 23
2
:
: 1,96
: Pr
: Pr
:
:
n Tamao de muestra
Z Nivel de confianza
p obalidad de ocurrencia
q obabilidad de fracaso
N Tamao de la poblacin
e Error de muestreo
2
2
22
2
1
Z pqN
n
N e Z pq
:Donde
22
2
22 2
2
1
Z S N
n
N e Z S
2
2
:
: 1,96
: var
:
:
n Tamao de muestra
Z Nivel de confianza
S Estimacin de la ianza poblacional
N Tamao de la poblacin
e Error de muestreo
:Donde
Se analizar la frmula para el clculo de muestra cuando la variable de inters sea una
proporcin con poblacin finita, para esto se tiene que:
Ejemplo 2.2.15 Una empresa se encuentra interesada en conocer la proporcin de trabajadores
que pueden estar a riesgos relacionados con sustancias txicas en contra de la salud de su piel,
para lo cual se desea estimar el tamao de la muestra necesario para llevar a cabo este estudio.
Se calcula el tamao de muestra teniendo en cuenta que la poblacin elegible son 284
trabajadores y se desconoce informacin a nivel local en relacin a la prevalencia de productos
txicos que hacen dao a la piel.
Se analizar la frmula para el clculo de muestra cuando la variable de inters sea la
media con poblacin finita, para esto se tiene que:
Ejemplo 2.2.16 Se desea realizar un estudio sobre sndrome metablico en los trabajadores de
una empresa; en una primera etapa, se desea analizar los niveles de colesterol de aquellos
trabajadores entre los 20 y 30 aos, para lo cual se requiere calcular el tamao de la muestra. Se
conoce que la desviacin estndar es de 2,3 mg/ml, un tamao de poblacin de 3250
trabajadores y un error del 5%.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
24
Pgina 24
Edad (aos) % %
19,5 - 24,5 180
24,5 - 29,5 370
29,5 - 34,5 600
34,5 - 39,5 250
39,5 - 44,5 110
Total 1510 306
Universo Muestra
inN
Ejemplo 2.2.17 Supngase que se quiere realizar un estudio sobre la conformidad laboral en la
empresa OMEGAXX y se quiere controlar los resultados diseando estratas de acuerdo a la edad
de los trabajadores. A continuacin se presenta la tabla de edad de trabajadores. Asuma que
usted ya realiz el clculo del tamao muestral utilizando la frmula para variables cualitativas
cuyo resultado fue de 306 trabajadores. Complete la siguiente tabla:
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
25
Pgina 25
Nivel de
riesgofrecuencia %
Mnimo 3 14,29
Bajo 5 23,81
Medio 8 38,10
Alto 3 14,29
Mximo 2 9,52
Total 21 100
3.1 Presentacin de la informacin
La informacin recolectada luego que se puede presentar con tablas y grficos
Tablas univariada y su grfica
Ejemplo 3.1.1 Se realiz un estudio descriptivo en 48 empresas escogidas al azar para
clasificarla por tipo de riesgos. A continuacin se presenta un diagrama de barra simple.
:X Nivel de riesgo de 21 empresas escogidas al azar de la ciudad de barranquilla.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
26
Pgina 26
Tabla bivariada y su grfica
Ejemplo 3.1.2 Retomando el ejemplo anterior, pero ahora se clasificarn por rea urbana o
rural.
Diagrama de dispersin
Ejemplo 3.1.3 Se pide establecer una grfica que muestre la correlacin entre el peso y la
talla de 10 trabajadores escogidos al azar de la empresa OMEGA XX.
talla(cm) peso(kg)
178 79
160 65
139 45
173 72
190 89
165 75
192 93
170 65
172 70
200 96
Urbana Rural
Mnimo 3 2
Bajo 5 3
Medio 8 8
Alto 3 10
Mximo 2 11
Total 21 34
rea Nivel de
riesgo
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
27
Pgina 27
Histogramas
Ejemplo 3.1.4 Consideremos que se seleccion una muestra de 20 trabajadores de la empresa
OMEGAXX con el objetivo de conocer cmo se comporta la variable peso (Kg). Para tal fin se
construye un histograma de frecuencias absolutas.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
28
Pgina 28
Errores Preanalticos acumulado
Coagulada 344 42 42
Hemolizada 206 25 67
Volumen inadecuado 189 23 90
Mal marcada 30 4 94
Sin marcar 26 3 97
Recipiente inadecuado 16 2 99
Otros 7 1 100
Total 818 100
if iF % %
Diagrama de Pareto Pocos vitales, de los muchos triviales
Ejemplo 3.1.5 A continuacin se presenta la tabla de frecuencia de errores pre-analticos
encontrados en un hospital de tercer nivel.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
29
Pgina 29
4.1 Medidas de frecuencia
Definicin 4.1.1 Una medida de frecuencia es la relacin que se establece entre variables
cuantitativas o cualitativas que permiten identificar la situacin o la tendencia de cambio
generada en el objeto o fenmeno observado, en relacin con los objetivos diseados.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
30
Pgina 30
Respecto a los indicadores
Para analizar los:
a. Se entiende como indicador, aquella medida estadstica asociada a una situacin especfica,
de la cual se hace necesario conocer su realidad. De esta manera el indicador, es un
elemento empleado para medir, teniendo en cuenta que este, se genera al establecer una
relacin entre datos que permitan identificar acciones de acuerdo a lo resultados
encontrados.
b. Segn la organizacin Internacional del trabajo, los indicadores de seguridad y salud en el
trabajo constituyen el marco para evaluar hasta qu punto se protege a los trabajadores de
los peligros y riesgos relacionados con el trabajo.
c. Es imprescindible, ante todo, poder contar con un programa de vigilancia epidemiolgica
ambiental que contemple un sistema coherente y eficaz de indicadores de salud ambiental,
entendidos stos, de manera general, como aquellos capaces de resumir y expresar
adecuadamente nexos existentes entre datos ambientales y de salud y presentarse de forma
que se facilite la interpretacin para una toma de decisiones eficiente. (Ibarra, Gonzlez y
Linares, 2001, p. 53)
ObjetivosDefinicin de Indicadores necesarios
Tipos de Indicadores
Obtencin de la informacin
Fuente de la informacin
Datos necesarios
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
31
Pgina 31
Cules son las ventajas de los indicadores?
Los indicadores permiten tomar decisiones y de esta manera realizar ajustes.
Sirven para mirar tendencias.
Los indicadores sirven para retroalimentar procesos, monitorear avances o ejecucin de
proyectos estratgicos relacionados con distintas reas entre otras la salud ocupacional.
Sirven para medir a la empresa entre otras a las organizaciones de salud en diferentes
dimensiones.
Para la construccin de un buen indicador es importante tener en cuenta que ste de cumplir
los siguientes requisitos y caractersticas:
Simplicidad: describe en forma completa el fenmeno o efecto, refleja la magnitud del mismo y posibilidad de mostrar desviaciones.
Factibilidad: deben ser indicadores de fcil construccin que se tenga insumos para construirlos.
Validez en el tiempo: se refiere a la necesidad de la continuidad de los indicadores, as tendrn que ser reproducibles a travs de tiempo y en iguales condiciones.
Confiabilidad: las fuentes de donde se extraen deben ser confiables, por ejemplo, el rea de salud ocupacional de una empresa tiene informacin integral de los trabajadores.
Auditabilidad: debe verificar que los indicadores sean correctos y no sesgados.
Conocimiento de los indicadores por parte de los trabajadores y usuarios en general: plantea la importancia de la interaccin entre los usuarios y lo individuos en lo cual el personal debe estar involucrado.
Ejemplo 4.1.2 Identifique las caractersticas de los siguientes indicadores:
Razn de mujeres trabajadoras versus hombres trabajadores.
Razn trabajadores LGBTI vs Unidades de atencin en Salud Ocupacional a dicha
poblacin.
Proporcin de mujeres embarazadas menores de 20 aos de estrato 3 en barranquilla.
Porcentaje de mujeres embarazadas menores de 20 aos de estrato 3 en barranquilla.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
32
Pgina 32
Indicadores de
Resultado o Impacto
De frecuencia
# accidentes ocurridos en el perodo
#HHT en el mismo periodoATIF K
240000
100 trabajadores, 48h/s, 50 s/ao
K
Si hay 7 accidentes laborales en 350 trabajadores en un perodo de 6 meses, entonces:
7 7240000 = 240000 4,16
(350)(24)(6)(8) 403200AT ATIF IF
Por cada 100 trabajadores programados de tiempo completo en el perodo de 6 meses, hay 4,16 accidentes laborales
De severidad
# dias perdidos o cargados por accidentes en el perodo
#HHT en el mismo periodoIS K
240000
100 trabajadores, 48h/s, 50 s/ao
Das cargados: % de prdida capacidad
laboral - Norma ANSI
K
Si hay 12 das cargados, debido a 7 accidentes laborales, en 350 trabajadores en un perodo de 6 meses, entonces:
12240000 7,14
403200ATIS IF
Por cada 100 trabajadores programados de tiempo completo en el perodo de 6 meses, hay 7,14 das perdidos
De lesiones incapacitantes
#ndice de frecuencia ndice de severidad
1000ILI
Se interpreta como medida global: 1
No tiene unidades
Se comparan entre mismos sectores
4,16 7,140,029
1000ILI
Tasa de ausentismo
por enfermedad
general
#Das perdidos por EG 81000
#HHT
. :
EGTA
EG enfermedad general
Si hay 27 das perdidos por enfermedad general, en una empresa de 250 trabajadores en un perodo de 6 meses, entonces:
27 8 27 81000 1000 0,00075
(250)(24)(6)(8) 288000EG EGTA TA
Por cada 1000 horas de trabajo se perdi menos de una en el periodo estudiado
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
33
Pgina 33
# de total de casos existentes en el momento
Total de la poblacin estudiada en el momento
tp k
t
# de casos nuevos .
suma de todos los periodos en riesgo
durante el periodo definido en el estudio
tasa de densidad de incidencia K
tiempo persona
Ejemplo 4.1.3 Se realiz el registro de los trabajadores de una empresa de acuerdo a su edad, a continuacin se presenta la tabla
F M
21,5 - 26,5 10 30 40
26,5 - 31,5 20 41 61
31,5 - 36,5 45 28 73
36,5 - 41,5 25 35 60
41,5 - 46,5 32 32 64
Total 132 166 298
SEXOEdad Total
Es importante tener claro que:
# de casos nuevos de enfermedad
durante un periodo de tiempo
total de la poblacin en riesgo al inicio del periodo de estudiotasa de incidencia acumulada
Ejemplo 4.1.4 Se representan 13 sujetos en observacin, durante cinco aos. Al inicio del estudio todos
los sujetos se encuentran sanos y todos ellos tienen el riesgo (son susceptibles) de contraer la
enfermedad. Se debe convenir que en la figura la X representa el inicio de la enfermedad o evento,
que la lnea gruesa representa el tiempo durante el cual el sujeto est enfermo, o estado y el cuadro
representa el momento que el sujeto sale del estudio porque muere. Haga un corte al final del primer
ao y halle:
a. La prevalencia al final del primer ao.
b. Incidencia acumulada al final del primer ao.
c. La prevalencia al final del cuarto ao.
d. La incidencia acumulada al final del cuarto ao.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
34
Pgina 34
Ejemplo 4.1.5 En un estudio de enfermedades de la piel en personas con exposicin al cemento iniciado
en enero de 2011 en Cali con 1.000 hombres de 55 a 64 aos de edad y sin ninguna evidencia de
problemas de piel, los cuales fueron seguidos por 4 aos (hasta final de 2014). Al final de cada ao del
seguimiento cada participante fue examinado y testificado para piel con inicio de cambios tisulares.
El resultado del examen anual fue el siguiente:
Al final del primer ao fueron confirmados 10 casos de personas con inicios de cambios tisulares
en piel. Cuntos aos personas riesgos aportaron estas personas?
Al final del segundo ao se confirmaron 15 casos de personas con inicios de cambios tisulares en
piel. Cuntos aos han pasado antes de presentar el problema en la piel? Cuntos aos
personas riesgos aportaron estas personas?
Al final del tercer ao se confirmaron 20 casos de personas con inicios de cambios tisulares en
piel. Cuntos aos personas riesgos aportaron estas personas?
Al finalizar el cuarto ao se confirmaron 25 casos de personas con inicios de cambios tisulares en
piel. Cuntos aos personas riesgos aportaron estas personas?
Calcular la tasa de densidad de incidencia.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
35
Pgina 35
Algunos ejemplos adicionales de indicadores:
Tasa de mortalidad anual:
# de total de muertes durante un ao de enero 1 al 31 de diciembrePoblacin total en julio 1
k
Porcentaje:
# de programas de Salud Ocupacional ejecutados en una empresa100%
Total de programas de Salud Ocupacional en la empresa
Tasa de prevalencia de sordera profesional:
# de casos de sordera profesional calificados por la ARP durante un periodo
# total de trabajadores expuestos a niveles de ruido por encima de los permitidos en ese peridok
Tasa de incidencia acumulada de sordera profesional:
# de casos nuevos de sordera profesional calificados por la ARP durante un periodo
# total de trabajadores expuestos a niveles de ruido por encima de niveles permitidos en ese peridok
Tasa de densidad de incidencia de sordera profesional:
# de casos de sordera profesional calificados por la ARP durante un periodo
Aos persona riesgok
Tasa de letalidad:# de total de muertes por una enfermedad
Poblacin afectada por la enfermedad en un periodo determinado k
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
36
Pgina 36
5.1 Medidas de tendencia central y variabilidad
5.1.1 Medidas de tendencia central
Hasta el momento se ha estudiado la organizacin de datos y su representacin por medio de algunos tipos de grficos, pero es importante analizar de manera alternativa el comportamiento de stos de acuerdo a determinadas tendencias que se puedan calcular para luego realizar su respectivo anlisis; por sta razn se encuentran en estadstica las medidas de tendencia central, las cuales nos ayudan al estudio un poco ms profundo de un conjunto de datos para as tener elementos de juicio al momento de concluir y posteriormente poder tomar decisiones o ayudar a tomarlas de acuerdo al caso que sea.
Definicin 5.1.1 Dados un conjunto de datos 1 2, ,..., nx x x se tiene que el valor de la media es:
1
n
i
i
x
n
Para especificar a la media poblacional se utilizar (parmetro) y para la media muestral x
(estadstico)
Definicin 5.1.2 Para un conjunto de datos que estn medidos en al menos una escala de intervalo, la MEDIANA es el puntaje medio ordenado.
Definicin 5.1.3 LA MODA, cuando existe, es el dato con mayor frecuencia. Es importante tener en cuenta que un conjunto de datos puede ser: unimodal, bimodal y multimodal.
Definicin 5.1.4 El RANGO MEDIO de un conjunto de datos es el promedio de las medidas mayor y menor.
Definicin 5.1.5 LA MEDIA GEOMTRICA de un conjunto de datos 1 2, ,..., nx x x , todos positivos,
es: 1
1 2( , ,..., )n
nMG x x x
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
37
Pgina 37
Ejemplo 5.1.6 Se reportan el nmero de accidentes laborales en la empresa OMEGA XX de los ltimos cinco aos, al gerente le interesa, para efectos en los procesos de calidad saber si durante estos aos han tenido, en promedio, accidentes superiores al 10% para evaluar as sus estrategias de prevencin y seguridad.
Ao ndeaccidentes %decrecimiento
2010 50
2011 55
2012 66
2013 60
2014 78
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
38
Pgina 38
5.1.2 Medidas de variabilidad
La variabilidad es un concepto cotidiano, fcil de manejar, se encuentra fcilmente su aplicacin en distintas actividades del quehacer diario, por ejemplo: la variabilidad de la temperatura, el tiempo en que nos demoramos en hacer una compra en el supermercado, lo fro de una bebida, el tiempo de duracin de una persona en un cajero de banco, pagando una compran; en fin, estos son algunos de las situaciones que se pueden encontrar para ejemplificar este concepto.
Los datos que se representan en la tabla muestran el promedio de accidentes laborales en siete
reas diferentes de dos empresas carboneras en el ltimo semestre.
Al realizar un pequeo grfico de dispersin se puede notar que la distribucin de datos del
segundo conjunto est ms dispersa que la distribucin de datos del primer conjunto. Es as
como se puede decir, que una medida de centralizacin en la mayora de veces no es suficiente
para analizar las caractersticas de un conjunto de datos, por tal motivo se hacen necesarias las
medidas de dispersin o variacin de los datos para completar el anlisis de la distribucin de
datos.
Definicin 5.1.7 Se define El RANGO de un conjunto de datos numricos, como la diferencia
entre el dato ms alto y el dato ms bajo.
Definicin 5.1.8 Se define El RANGO INTERCUANTIL, como la diferencia entre el tercer cuartil y
primer cuartil simbolizado por R.I, es decir: 3 1.R I Q Q
Definicin 5.1.9 Se define LA DESVIACIN de un dato se define como la diferencia entre el dato
y la media del conjunto de datos. Es decir: i ila desviacin del dato x x x
Empresa A 3,45 3,11 3,25 3,6 3,41 3,38 3,25
Empresa B 3,4 2,75 3,19 3,97 3,59 3,38 3,17
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
39
Pgina 39
Teorema 5.1.10 La suma de las desviaciones de los valores para cualquier conjunto de nmeros
1,..., nx x es igual a cero.
Definicin 5.1.11 LA VARIANZA DE UNA POBLACIN de valores 1,..., nx x , se define como el
promedio de los cuadrados de las desviaciones de los valores, y se denota 2 , la cual est dada
por:
2 2 2
1 22... nx x x
n
La DESVIACIN ESTNDAR POBLACIONAL de un conjunto de datos, denotada por , se define
como la raz cuadrada de la varianza poblacional de datos.
Definicin 5.1.12 La VARIANZA DE UNA MUESTRA con valores 1,..., nx x se denota por 2s y se
define por:
2 2 2
1 22...
1
nx x x x x xs
n
La DESVIACIN ESTNDAR MUESTRAL de un conjunto de datos, denotada por s , se define
como la raz cuadrada de la varianza muestral de datos.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
40
Pgina 40
5.2 Medidas de posicin relativa
Definicin 5.2.1 UNA MEDIDA DE POSICIN RELATIVA en una distribucin de frecuencias es el valor para el cual una parte de la distribucin queda en o debajo de este.
Entre estas medidas se encuentran los percentiles, deciles, cuartiles y quintiles.
Definicin 5.2.2 EL P-SIMO PERCENTIL, es un valor para el cual p% de los datos tiene mximo dicho valor.
Pasos que se deben tener presente para calcular el p-simo percentil:
a. Ordenar los datos de manera ascendente
b. Se calcula el ndice 100
npi siendo p el percentil de inters y n la cantidad de datos
c. Se dice que:
Si el ndice es no es entero se redondea al siguiente entero.
Si el ndice es entero se promedian los valores de las posiciones , 1i i
Definicin 5.2.3 LOS DECILES son una medida de posicin relativa que corresponde a un conjunto de datos ordenados, ascendentemente, divididos en diez partes iguales.
Definicin 5.2.4 LOS CUARTILES son una medida de posicin relativa que corresponde a un conjunto de datos ordenados, ascendentemente, divididos en cuatro partes iguales.
Ejemplo 5.2.5 Para el siguiente conjunto de datos:
2,45 2,25 2,36 2,56 2,48 2,67 2,54 2,78 2,98 2,72 2,32 2,78
Calcular e interpretar:
a. Percentil 25. b. Segundo cuartil, que equivale al percentil 50. c. Tercer cuartil, que corresponde al percentil 75.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
41
Pgina 41
Teorema 5.2.6 Para las poblaciones que tengan forma acampanada:
a. Aproximadamente el 68% de los valores de la poblacin se encuentran a una distancia
de la media menor a una desviacin estndar
b. Un poco ms del 95% de los valores de la poblacin estn a una distancia de la media
menor que dos veces la desviacin tpica.
Media,Desv. Est.
0,1
Normal
Probabilidad = 0,682691
-5 -3 -1 1 3 5
x
0
0,1
0,2
0,3
0,4
dens
idad
Media,Desv. Est.
0,1
Normal
Probabilidad = 0,9545
-5 -3 -1 1 3 5
x
0
0,1
0,2
0,3
0,4
dens
idad
68% de
Los datos
1
1
2
95% de
Los datos
2
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
42
Pgina 42
Definicin 5.2.7 El coeficiente de variacin de Pearson de un conjunto de datos se define como:
.100%
desviacin estndar de los datosCV
media aritmtica de los datos
Ejemplo 5.2.8 A continuacin se presentan los datos de los pesos y estaturas de los primeros 10
nios registrados por el mdico de un colegio de la ciudad luego de realizado el examen de
ingreso a la institucin educativa. Cul de estos dos conjuntos de datos presenta mayor
variabilidad?
Estatura (cm) 160 159 172 160 175 170 178 160 162 171
Peso (Kg) 55 62 70 58 73 70 75 59 60 70
Definicin 5.2.9 Se define EL COEFICIENTE DE ASIMETRA DE PEARSON, para un conjunto de
datos 1 2, ,..., nx x x como:
Es importante tener presente que el coeficiente de asimetra de Pearson tan slo es aplicable
en las distribuciones acampanadas y unimodales, en distribuciones de otro tipo otros se utiliza
el coeficiente de asimetra de fisher y de fisher estandarizado .
p
Media aritmtica ModaA
Desviacin estndar
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
43
Pgina 43
De acuerdo al signo del coeficiente se concluye que, s:
0pA , se dice que la distribucin es simtrica
0pA se dice que la distribucin es sesgada positivamente o a la derecha.
0pA se dice que la distribucin es sesgada negativamente o a la izquierda
G. L.
10
Chi-Cuadrada
0 10 20 30 40
x
0
0,02
0,04
0,06
0,08
0,1
dens
idad
Moda,Escala
10,5
Valor Extremo Ms Chico
-15 -5 5 15 25
x
0
0,02
0,04
0,06
0,08
dens
idad
Media,Desv . Est.
0,1
Normal
-5 -3 -1 1 3 5
x
0
0,1
0,2
0,3
0,4
dens
idad
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
44
Pgina 44
5.3 Anlisis para datos agrupados
5.3.1 Para datos agrupados
Elaboracin de tablas de frecuencias agrupadas para datos continuos. Para este caso se ampliar el cuadro de simbologas as:
if frecuencia absoluta
iF frecuencia absoluta acumulada
ih frecuencia relativa
iH frecuencia relativa acumulada
1i iY Y Valores que toma la variable continua en el intervalo
N nmero total de datos
m nmero de intervalos en la variable continua
c amplitud del intervalo
iY Marca de clase
Ejemplo 5.3.1 Consideremos que se seleccion una muestra de 20 trabajadores de una empresa fin de conocer su peso en kilos.
74 67 94 70 69 61 71 79 47 85
82 55 65 88 52 58 76 57 72 66
(Ejemplo Tomado del libro Estadstica Descriptiva de Humberto LLins).Para realizar la tabla de frecuencias para datos continuos es importante tener presente los siguientes 4 pasos:
1. Recorrido o rango. mx mnx x , es decir, 94 47 47
2. El valor 1 3,3log 20 5,29 6m , tendremos entonces 6 intervalos para esta
distribucin.
3. Rango
Cm
, al reemplazar los respectivos valores se tiene que 47
7,836
C . Esta
cantidad siempre se aproxima por exceso; es decir 8C .
4. Como la unidad de medida es 1, entonces, se toma en punto medio de la unidad de medida para generar la primera frontera de clase y a partir de ah se suma el rango.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
45
Pgina 45
La tabla de frecuencias agrupada es:
Al tener un conjunto de datos agrupados se tiene que la media y varianza muestral para dichos
valores estn determinado por:
i i
a
f Yx
n
2
1
i a i
a
Y x fs
n
Ejemplo 5.3.2 Tomando los datos del ejemplo 5.1.6, se tiene que:
2 2 50,5 101 737,3
4 6 58,5 234 501,8
5 11 66,5 333 51,2
4 15 74,5 298 92,2
3 18 82,5 248 491,5
2 20 90,5 181 865,3
20 1394 2739,20
Intervalos
Total
46,5 - 54,5
54,5 - 62,5
62,5 - 70,5
70,5 - 78,5
78,5 - 86,5
86,5 - 94,5
if iY i if Y 2
i iY x f iF
Por tanto se tiene que: 1394
69,720
a
kgx kg ,
22 2739,2 11,70
20
kgs kg
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
46
Pgina 46
Para el clculo de los cuartiles en datos agrupados, se tiene que:
1. Se ubica la clase o intervalo donde se encuentre el cuartil solicitado
2. Para realizar la ubicacin se procede as:
a. Primer cuartil: 4
n
b. Segundo cuartil o mediana: 2
n
c. Tercer cuartil: 3
4
n
El resultado de dicha operacin se ubica en la tabla de frecuencias acumuladas y se identifica el intervalo de inters.
3. Se aplica las frmulas.
a.
'
1'
1 1 '
1
( ) anterior donde est 4lim Inf clase donde est *Amplitud
donde est
i
nbuscar en F F Q
Q Qf Q
b.
'
2'
2 2 '
2
( ) anterior donde est 2lim Inf clase donde est *Amplitud
donde est
i
nbuscar en F F Q
Q Qf Q
c. '
3'
3 3 '
3
3( ) anterior donde est
4lim Inf clase donde est *Amplitud donde est
i
nbuscar en F F Q
Q Qf Q
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
47
Pgina 47
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
48
Pgina 48
6.1 Correlacin lineal
Al momento de realizar anlisis de dos variables cuantitativas continuas, es posible que se
sospeche de una relacin lineal entre estas. Por ejemplo:
Edad y presin sangunea
Estatura y peso
El nivel de consumo de azcar y el aumento de peso
Pero qu tan relacionadas linealmente estn dichas variables? y qu tipo de la relacin lineal
es? Son un par de preguntas que nos ayuda a responder el coeficiente de correlacin de
Pearson.
Definicin 6.1.1 El coeficiente de correlacin de Pearson entre las variables aleatorias continuas
e X Y se define como: 2 2
xyr
x y
Donde x X X
y Y Y
El coeficiente de correlacin de Pearson describe la fuerza de la relacin lineal entre dos
variables en al menos escala de intervalo y adems es:
Adimensional
Toma valores en el intervalo 1,1
La correlacin es perfecta para 1r
Ejemplo 6.1.2 A continuacin se muestran los datos del peso (kg) y estatura (cm) de 8
trabajadores de una empresa de la ciudad.
(kg) 90 85 75 60 68 60 86 61 74 58 74 70
(cm) 185 190 172 165 170 164 183 163 177 160 171 165X
Y
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
49
Pgina 49
Teniendo en cuenta que 2 2
xyr
x y
, con
ix x X y iy y Y
Estatuta Peso
Estatuta 1
Peso 0,93868107 1
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
50
Pgina 50
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
51
Pgina 51
6.2 Regresin lineal Simple
El anlisis de regresin lineal es una tcnica que se utiliza para expresar la relacin lineal entre
dos variables, una dependiente y otra independiente por medio de una lnea recta.
El modelo que se utilizar para establecer la asociacin lineal entre dichas variables es:
0 1Y X
0
1
: variable independiente
: ordena en el origen
: pendiente
: error aleatorio
con
Donde X
Y Y
De manera ideal se espera que el error aleatorio se cero, por tanto se tomar para nuestros clculo el
modelo 0 1Y X
Con
2
0 22
Y X X XY
N X X
1 22
N XY X Y
N X X
En general el problema de regresin lineal simple se enfoca en estimar la mejor a una muestra
aleatoria de n pares de datos 1 1 2 2 3 3, , , , , ,..., ,n nx y x y x y x y , teniendo en cuenta que dichos
valores sean obtenidos de la medicin de dos variables a un mismo sujeto. Ahora bien, para
realizar este proceso es indispensable que se tenga un supuesto de relacin lineal entre las
variables en cuestin, por tanto, sea hace importante realizar un grfico de dispersin y verificar
el comportamiento de los datos.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
52
Pgina 52
Ejemplo 6.2.1 Teniendo en cuenta la situacin planteada en el ejercicio 6.1.2, se genera el
siguiente diagrama de dispersin:
Luego de haber realizado el diagrama de dispersin, se evidencia que existe una tendencia lineal en los
puntos, lo cual nos indica que es posible establecer una ecuacin predictora para la variable
independiente, por tanto se procede a calcular los dos coeficientes, dando como resultado:
0 1111,73 y 1,066 , con lo que el modelo quedara 111,73 1,066Y X
Definicin 6.2.2 El coeficiente de determinacin se define como el cuadrado del coeficiente de
correlacin de Pearson, es decir: 2
dr r
El coeficiente de determinacin quiere decir la proporcin de variacin de la respuesta Y que
est explicada por la regresin, es decir, por la variable dependiente.
De acuerdo al ejemplo anterior se tiene que 0,9386r , por tanto 22 0,9387r , por tanto el
modelo que se gener explica el 88,11% de la variacin en la variable dependiente Y a partir
de la variable independiente X y el 11,89% restante es explicado por otro tipo de factores.
y = 1,0663x - 111,74R = 0,8811
0
20
40
60
80
100
155 160 165 170 175 180 185 190 195
Pes
o(K
g)
Altura(cm)
Diagrama de dispersin
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
53
Pgina 53
Ejemplo 6.2.4 A continuacin se presenta el diagrama de dispersin de los datos de 12 personas
que realizaron un salto horizontal, el cual fue medido en centmetros.
Qu se puede concluir?
Definicin 6.2.3 A continuacin se presenta los datos de un grupo de trabajadores escogidos al
azar en la empresa OMEGA XX, con el objetivo de indagar sobre la posible relacin que hay
entre la edad y la presin sistlica, en adultos que aparentan encontrarse en buenas
condiciones de salud.
Edad 20 43 63 26 53 31 58 46 58 70 46 53 70Presin
s istl ica120 128 141 126 134 128 136 132 140 144 128 136 146
1. Cul es el coeficiente de correlacin de Pearson?
2. Cul es la ecuacin de regresin?
3. Qu porcentaje de la variabilidad de Y explica dicha ecuacin?
4. Qu conclusin se puede dar al respecto de lo encontrado?
y = -0,366x + 219,36R = 0,9423
140
150
160
170
180
190
200
210
40 60 80 100 120 140 160 180 200
Lon
gitu
d (
cm)
Peso (Kg)
Diagrama de dispersinPeso Longitud
70 200
80 195
88 185
105 177
110 175
120 174
130 170
145 163
160 160
180 158
170 155
200 150
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
54
Pgina 54
7.1 Probabilidad
7.1.1 Conceptos bsicos de probabilidad
Definicin 7.1.1 Un experimento es un proceso que genera observaciones.
Definicin 7.1.2 Un experimento se denomina determinstico cuando al realizarse bajo las
mismas condiciones genera los mismos resultados.
Definicin 7.1.3 Un experimento se denomina aleatorio cuando realizado bajo las mismas
condiciones genera resultados diferentes.
Definicin 7.1.4 El conjunto de todos los resultados posibles de un experimento aleatorio se
denomina ESPACIO MUESTRAL. Adems cualquier subconjunto de un espacio muestral se llama
evento.
Ejemplo 7.1.5 Determine el espacio muestral del experimento aleatorio del lanzamiento de un
dado.
Definicin 7.1.6 Si A es un evento que pueden ocurrir de h maneras diferentes, todas
igualmente factibles, de un total de N , entonces la probabilidad de que ocurra el evento es:
h
P AN
Teorema 7.1.7 Para eventos , ,A B C de un espacio muestral se tiene que:
a. 0P
b. Si los eventos , ,A B C son mutuamente excluyentes, entonces
P A B C P A P B P C
c. ' 1P A P A
d. 0 1P A
e. P A B P A P B P A B
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
55
Pgina 55
Ejemplo 7.1.8 De un grupo de 50 estudiantes que finaliz a un proceso de capacitacin, se
conoce que el nmero de aquellos que aprobaron el test de conocimiento sobre riesgo
ergonmico es de 20 , los que aprobaron otro sobre riesgo cardiovascular de 23y los que
aprobaron ambos de 9 . Cul es la probabilidad de que un estudiante escogido al azar:
a. No haya aprobado el test sobre riesgo ergonmico.
b. Haya aprobado al menos uno de stos test.
Ejemplo 7.1.9 A continuacin se muestra la frecuencia de accidentes laborales de una empresa
escogida al azar de una de las ciudades de la costa norte de Colombia durante ao 2014.
Frecuencia masculino (M) femenino(F) Total
1 - 5 veces 12 11 23
6 - 10 veces 7 6 13
11 + veces 5 3 8
Total 24 20 44
Cul es la probabilidad de que al escoger un trabajador de sta empresa:
a. Sea Hombre
b. Haya tenido entre 6 y 10 accidentes
c. Haya tenido 11 o ms accidentes.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
56
Pgina 56
7.1.2 Probabilidades condicionales
Definicin 7.1.10 Sean A y B dos eventos de un espacio muestral . La probabilidad
condicional del evento A dado el evento B, simbolizada por /P A B , se define como:
/ , 0P A B
P A B si P BP B
Ejemplo 7.1.11
Supngase que se tiene los datos de los empleados de una empresa, as:
Casado Soltero
Hombre 34 45 79
Mujer 56 46 102
90 91 181
Si un individuo se escoge al azar, cul es la probabilidad de que:
a. Si se escogi del grupo de mujeres, sea casada
b. Si se escogi del grupo de hombres sea soltero
Ejemplo 7.1.12 Retomando la informacin de la tabla del ejemplo 7.1.9, responda:
a. Cul es la probabilidad de escoger un hombre sabiendo que ha tenido entre 1 y 5
accidentes laborales?
b. Si se escoge un individuo al azar y se conoce que es mujer, cul es la probabilidad de que
haya tenido 11 o ms accidentes laborales?
Ejemplo 7.1.13 Resolver:
1. En una construccin la probabilidad de que una persona, que al menos tenga 25 aos y
utilice protectores nasales de 0,6; que sea menor de 25 aos y no utilice protectores nasales
es de 0,12; y la probabilidad de que un trabajador tenga al menos 25 aos es de 0,7.
Encuentre la probabilidad de que al escoger un trabajador al azar:
a. Utilice los protectores nasales dado que es mayor o igual de 25 aos.
b. Que se menor a 25 aos, sabiendo que no usa protectores nasales.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
57
Pgina 57
2. En una empresa realiz una encuesta a 2500 personas de diferentes empresas de la ciudad,
para saber la audiencia que haba tenido un programa de formacin en seguridad industrial
trasmitido y otro de ejercicios para mejorar las pausas activas durante la jornada laboral, los
cuales se trasmitieron en horarios diferentes. 2 100 vieron el programa de formacin en
seguridad industrial, 1 500 vieron el de ejercicios para mejorar las pausas activas y 350 no
vieron ninguno de los dos programas. Si elegimos al azar a uno de los encuestados:
a. Cul es la probabilidad de que vieran los dos programas?
b. Cul es la probabilidad de que viera el de S.I., sabiendo que no vio de P.A.?
c. Sabiendo que vio S.I., cul es la probabilidad de que viera el P.A.?
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
58
Pgina 58
7.1.3 Teorema de la Probabilidad total
Teorema de la probabilidad total 7.1.14 Si los eventos 1 2,...,A A forman parte de un espacio
muestral y si 0iP A para todo 1,...,i n entonces para cada evento B de se tiene
que:
1 1 2 2/ / ... / n nP B P B A P A P B A P A P B A P A , es decir
1 2 3 ... nP B P A B P A B P A B P A B
Ejemplo 7.1.15 Retomando la tabla de datos del ejemplo 6.1.8, calcule:
a. La probabilidad de escoger un hombre.
b. La probabilidad de escoger una mujer. Ejemplo 7.1.16 Resolver:
a. La probabilidad de que un empleado de una empresa de la costa norte Colombiana escogida
al azar no aplique las medidas de prevencin de accidentes laborales es del 10%. El 95% de
los que aplicaron medidas preventivas no se accidentaron. De hecho, 60% de los que no
aplicaron las normas no se accidentaron. Cul es la probabilidad de que un trabajador
escogido al azar de sta empresa se accidente.
b. Se conoce que en una empresa de diseo grfico los creativos consumen dos tipos de
bebidas energizantes, A y B, para mejorar su rendimiento laboral. El 68% de los creativos
consume la bebida A; adems, se conoce que el 75% de las que toman dicha bebida tienen
un mejor rendimiento. El 18% de los que consumen la bebida B mejora su rendimiento.
Cul es la probabilidad que el rendimiento laboral de los creativos de esta empresa mejore
gracias a este tipo de bebida?
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
59
Pgina 59
7.1.4 Teorema de Bayes
En el campo de las ciencias de la salud la aplicacin de la probabilidad es relevante en distintos
mbitos del ejercicio cotidiano, entre los cuales se puede encontrar, el inters de un mdico en
predecir la presencia o ausencia de una determinada enfermedad a partir de los resultados que
pueda tener de una prueba, se sta positiva o negativa; tambin, de acuerdo a si tiene o no los
sntomas de una enfermedad. Es vlido tener en cuenta que en las pruebas que se realizan no
siempre se tiene resultados de confiar, por lo tanto se pueden presentar: falso negativo o falso
positivo
Para realizar las estimaciones que se analizarn a continuacin es necesario tener presente la
siguiente tabla:
Resultado de
la pruebaEnfermo (E) No enfermo (E) Total
Positivo (P) a b a+b
Negativo(P) c d c+d
Total a+c b+d n
Emfermedad
Definicin 7.1.17 La sensibilidad de una prueba es la probabilidad de un resultado positivo de la
prueba dada la presencia de la enfermedad. (Verdaderos enfermos)
Para estimar el valor de la sensibilidad, se aplica:
/P P E
P P EP E
Definicin 7.1.18 La especificidad de una prueba es la probabilidad de un resultado negativo de
la prueba dada la ausencia de la enfermedad. (Verdaderos sanos)
Para estimar el valor de la especificidad, se aplica:
/
P P EP P E
P E
Luego de identificar stas probabilidades condicionales, se muestra la aplicacin del teorema
de Bayes en las ciencias de la salud, establecindose una relacin entre ciertas probabilidades
condicionales establecidas en una tabla 2 x 2.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
60
Pgina 60
Ejemplo 7.1.19 Resolver:
a. Se realiz una biopsia a 1100 hombres quienes evidenciaban sintomatologa asociada al
cncer de prstata, de estos, 890 dieron positivo en dicho examen y 210 dieron negativo,
finalizado el proceso se confirm que realmente 640 hombres tenan cncer de prstata y la
prueba tuvo 40 resultados falsos negativos. Calcular la sensibilidad y la especificidad de la
prueba.
b. A continuacin se obtiene los resultados de aplicar una prueba diagnstica para el cncer de
cuello uterino en mujeres mayores de 30 aos. Calcular la sensibilidad y la especificidad de
la prueba.
Definicin 7.1.20 El valor que predice la positividad de una prueba de deteccin, es la
probabilidad de que un individuo tenga la enfermedad, dado que el individuo presente un
resultado positivo en la prueba de deteccin.
Para estimar el valor de la positividad, se aplica el teorema de Bayes as:
//
/ /
P P E P EP E P
P P E P E P P E P E
Resultado
de la
prueba
S (E) No (E) Total
Positivo (P) 450 60 510
Negativo(P) 150 1100 1250
Total 600 1160 1760
Diagnstico de cncer
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
61
Pgina 61
Definicin 7.1.21 El valor que predice la negatividad de una prueba de deteccin, es la
probabilidad de que un individuo no tenga la enfermedad, dado que el individuo presente un
resultado negativo en la prueba de deteccin.
Para estimar el valor de la negatividad, se aplica el teorema de Bayes as:
/ /
/ /
P P E P EP E P
P P E P E P P E P E
Ejemplo 7.1.22 Uno de los objetivos de un grupo de investigacin es evaluar la prueba de
deteccin propuesta para un posible cncer de cuello uterino, dicha prueba se basa en una
muestra aleatoria de 350 enfermas y en otra muestra independiente de 400 pacientes que no
presentan sntomas de la enfermedad. Las dos muestras se obtuvieron de una poblacin de
mujeres entre 35 y 50 aos. Los resultados son:
Resultado
de la
prueba
S (E) No (E) Total
Positivo (P) 326 15 341
Negativo(P) 24 485 509
Total 350 500 850
Diagnstico de cncer
De acuerdo a stos resultados, estime:
a. Sensibilidad y especificidad de la prueba.
Si la prevalencia de la enfermedad es 0,15P E , calcular:
c. La positividad y negatividad de la prueba.
Teniendo en cuenta la siguiente tabla, se definen otros conceptos que apoyan el anlisis de una prueba tamiz
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
62
Pgina 62
Para tener en cuenta:
Resultado de
la pruebaEnfermo (E) No enfermo (E) Total
Positivo (P) a b a+b
Negativo(P) c d c+d
Total a+c b+d n
Emfermedad
: ; :
: ; :
a verdadero positivo b falso positivo
c falso negativo d verdadero negativo
:
:
:
:
aSensibilidad de la prueba
a c
dEspecificidad de la prueba
b d
aValor predictivo positivo de la prueba
a b
dValor predictivo negativo de la prueba
c d
Del ejemplo 7.1.22 Calcular las medidas anteriores.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
63
Pgina 63
Media,Desv . Est.
25,2,5
Normal
12 17 22 27 32 37 42
x
0
0,2
0,4
0,6
0,8
1
pro
babilidad a
cum
ula
da
8.1 Distribucin normal
8.1.1 La distribucin normal
Definicin 8.1.1 Una variable aleatoria tiene una distribucin normal con parmetros 2 0y si y slo si su densidad de probabilidad est dada por:
2
22
2
1; , ,
2
x
x f x e para x
Y la funcin de distribucin acumulada es: ; , ; ,t
t F t P X t x dx
Algunos comportamientos de acuerdo a los valores de los parmetros:
Media,Desv. Est.
25,2,5
Normal
12 17 22 27 32 37 42
x
0
0,04
0,08
0,12
0,16
densid
ad
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
64
Pgina 64
Media,Desv. Est.
88,5,7,3
50,5,7,3
Normal
0 30 60 90 120 150
x
0
0,01
0,02
0,03
0,04
0,05
0,06
densid
ad
Media,Desv. Est.
88,5,7,3
88,5,17,3
Normal
0 30 60 90 120 150 180
x
0
0,01
0,02
0,03
0,04
0,05
0,06
densid
ad
a. 1 2 1 2 ;
1 2 1 2 ;
1 2 1 2 ;
Media,Desv. Est.
88,5,17,3
68,5,7,3
Normal
0 30 60 90 120 150 180
x
0
0,01
0,02
0,03
0,04
0,05
0,06
densid
ad
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
65
Pgina 65
Media,Desv. Est.
0,1
Normal
-5 -3 -1 1 3 5
x
0
0,1
0,2
0,3
0,4
densid
ad
Media,Desv . Est.
0,1
Normal
-5 -3 -1 1 3 5
x
0
0,2
0,4
0,6
0,8
1
pro
babilidad a
cum
ula
da
La distribucin normal estndar Esta nueva distribucin se obtiene luego de realizar un proceso llamado estandarizacin a una
variable aleatoria X con 2 y de donde se obtiene una variable Z , la cual tiene unos
valores especficos para la media y la varianza, los cuales son 0 y 1 respectivamente. Es as,
como:
X
Z
, de donde se tiene que 0 1E Z y V Z
Definicin 8.1.2 Una variable aleatoria tiene una distribucin normal estndar si y slo si tiene
una distribucin normal con esperanza 0 y varianza 1.
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
66
Pgina 66
Las notaciones para la distribucin normal estndar que se utilizarn sern:
a. ;0,1z z
b. ;0,1t t
Adems es importante que se tenga en cuenta que:
a. z z , es decir, existe una simetra respecto a cero
b. 1t t
c. Para todo ,a b real se tiene que:
a a
P X a P Z
1 1a
P X a P X a
a b b a
P X a P Z
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
67
Pgina 67
Obsrvese las caractersticas de las siguientes Distribuciones normales
Ejemplo 8.1.3 Si X es una variable normal con media 70 y desviacin estndar 15, calcule las siguientes probabilidades:
a. 90P X
b. 80P X
c. 55 95P X
Ejemplo 8.1.4 La estatura de una poblacin 572 de personas sigue una distribucin aproximadamente normal con media 70 pulgadas y una desviacin estndar de 3 pulgadas. Cul es la probabilidad de que una persona seleccionada al azar de ste grupo:
a. Tenga una estatura entre 65 y 74 pulgadas.
b. Mayor que 70 pulgadas. Ejemplo 8.1.5 De acuerdo al ejemplo anterior, cuntas personas aproximadamente tendrn una estatura de al menos 73 pulgadas?
Media,Desv. Est.
-25,0,2,5
0,1
25,2,5
Normal
-38 -18 2 22 42
x
0
0,1
0,2
0,3
0,4
densid
ad
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
68
Pgina 68
Ejemplo 8.1.6 La medida del peso de 500 estudiantes en una universidad es de 151 libras y la desviacin tpica de 15 libras. Suponiendo que los pesos se distribuyen normalmente, hallar cuntos estudiantes pesan:
a. Entre 120 y 155 libras.
b. Ms de 165 libras.
Ejemplo 8.1.7 En una distribucin normal que tiene una desviacin estndar de 2, la
probabilidad de que el valor de la variable, elegida al azar, sea menor que 28, es 0,03. Cul es
el valor de la media?
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
69
Pgina 69
9.1 Medidas de efecto
Definicin 9.1.1 El estudio por observacin es una investigacin cientfica en la que no es
posible manipular de ninguna forma individuos o variables.
Definicin 9.1.2 El trmino factor de riesgo se utiliza para designar a la variable que se
considera est relacionada con alguna variable resultado.
estudios prospectivo RR
Tipos de estudios por observacin
estudio retrospectivo OR
Definicin 9.1.3 El estudio prospectivo es un estudio donde se seleccionan dos muestras
aleatorias de individuos, una de las cuales tiene el factor de riesgo y la otra no posee el factor de
riesgo, las cuales se estudian a travs de un tiempo para observar la presencia del evento de
inters planteado por el investigador.
Para realizar la clasificacin de la muestra obtenida, se tiene en cuenta que la variable
dependiente y el factor de riesgo estn definidos en dos niveles, para establecerse as en una
tabla de contingencia 2x2, de la siguiente manera:
Estudios de cohorte
Factor de riesgo Presente Ausente Total en riesgo
Presente a b a+b
Ausente c d c+d
Total a+c b+d n
Estado de la enfermedad
M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso
Notas de clase Informtica y Bioestadstica Universidad del Norte
70
Pgina 70
Definicin 9.1.4 El riesgo relativo es la relacin del riesgo de desarrollar la enfermedad entre los
individuos con el factor de riesgo respecto al riesgo de desarrollar la enfermedad entre los
individuos sin el factor de riesgo.
Es vlido resaltar que para establecer sta medida se debe tener en cuenta:
Dos muestras de individuos libres de la enfermedad, una de las cuales posee el factor
de riesgo.
Son