“UNIVERSIDAD NACIONAL DEL SANTA” FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL Monografía para aprobar el curso de Técnicas de Estudios dictado por el docente José Cerna Montoya AUTOR: TORRES FERREL JORGE ANDERSON ASESOR: VALIDACIÓN DE LOS INSTRUMENTOS DE INVESTIGACIÓN
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
“UNIVERSIDAD NACIONAL DEL SANTA”FACULTAD DE INGENIERÍA
ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Monografía para aprobar el curso deTécnicas de Estudios dictado por el docente José Cerna Montoya
AUTOR:
TORRES FERREL JORGE ANDERSON
ASESOR:
CERNA MONTOYA JOSÉ
Octubre de 2015
Nuevo Chimbote - Perú
VALIDACIÓN DE LOS INSTRUMENTOS DE INVESTIGACIÓN
VALIDACIÓN DE LOS INSTRUMENTOS DE INVESTIGACIÓN
A DIOS TODOPODEROSO,
quien gracias a su bondad y
misericordia, me permite seguir
viva, cuidando a mi familia y a mí.
A mis amados padres:
RODOLFO Y GINA, por sus
consejos, su apoyo incondicional
y su cariño; a quienes le debo
todo lo que he logrado, ya que
han hecho de mi mejor persona.
A mi hermano BRAYAN, quien
constituye mi mayor inspiración y
es la razón de cada día esforzarme
más y ser mejor estudiante.
AGRADECIMIENTO
Al Dios Todopoderoso, quien me ayuda y me da fuerzas para cada día seguir
adelante, por su amor y misericordia.
A mis familiares, por siempre preocuparse por mí, por siempre estar a mi lado
cuando más los necesito, y por ser la fuente de inspiración para cada día mejorar en
todo aspecto.
A mi estimado asesor José Cerna Montoya, por sus conocimientos impartidos en
momentos de clase, y por su orientación y ayuda.
A mis compañeros, por su apoyo y colaboración durante el desarrollo del informe.
Atentamente,
Anderson
PRESENTACIÓN
Señor profesor José Cerna Montoya:
El presente trabajo monográfico constituye uno de los elementos fundamentales para
la obtención de una nota aprobatoria en el curso de Técnicas de Estudio, en tanto, la
autora lo ha estructurado en el marco de la formalidad y según los criterios teórico
científico que en la actualidad se puede encontrar en el ámbito de nuestra realidad.
La investigación, por su propia naturaleza de investigación bibliográfica ha
condicionado nuestro accionar no sólo el revisar libros, sino a navegar en internet y
encontrarnos con algunas particularidades que sin duda muestran esta monografía.
Atentamente,
Anderson
INDICE
DEDICATORIA
AGRADECIMIENTO
PRESENTACIÓN
INDICE
INTRODUCCIÓN
I. CONFIABILIDAD
Teoría clásica de la confiabilidad
Coeficiente test-retest
Coeficiente de formas paralelas
Coeficientes de consistencia interna
Método de división por mitades.
Método de Kuder-Richardson.
Confiabilidad entre calificadores
II. VALIDEZ
Validez de contenido
Validez con relación a criterio
Validez concurrente.
Validez predictiva.
Error estándar de estimación.
Factores que afectan la validez con relación a criterios
Validación convergente y discriminante.
III. METODOLOGIA
Tipo de investigación
Identificación de variables
Operalización de las variables
IV. SIGNIFICADO DE CIERTAS PALABRAS
CONCLUSIÓN
REFERENCIAS BIBLIOGRÁFICAS
INTRODUCCIÓN
Todo instrumento de recolección de datos debe resumir dos requisitos esenciales:
validez y confiabilidad. Con la validez se determina la revisión de la presentación del
contenido, el contraste de los indicadores con los ítems (preguntas) que miden las
variables correspondientes. Se estima la validez como el hecho de que una prueba sea
de tal manera concebida, elaborada y aplicada y que mida lo que se propone medir.
Algunos autores como Black y Champion (1976), Johnston y Pennypacker
(1980:190-191), Kerlinger (1980:190-191), citados por Barba y Solís (1997:232-234),
señalan que la validez es un sinónimo de confiabilidad. El primero, se refiere al
significado de la medida como cierta y precisa. El segundo, se refiere al hecho de lo que
se mide actualmente es lo que se quiere medir. Se estima la confiabilidad de un
instrumento de medición cuando permite determinar que el mismo, mide lo que se
quiere medir, y aplicado varias veces, indique el mismo resultado.
Hernández et al (2003:243), indican que la confiabilidad de un instrumento de
medición se refiere al grado en que su aplicación repetida al mismo sujeto u objeto,
produce iguales resultados.
Para Baechle y Earle (2007:277-278) la validez es el grado en que una prueba o ítem
de la prueba mide lo que pretende medir; es la característica más importante de una
prueba. Al referirse a la validez relativa a un criterio definen a éste como la medida en
que los resultados de la prueba se asocian con alguna otra medida de la misma aptitud;
Consideran los autores que en muchas ocasiones la validez relativa a un criterio se
estima en forma estadística utilizando el coeficiente de correlación de Pearson (también
denominado tabulación cruzada, a este tipo de validez se le denomina validez
concurrente. Al definir el término fiabilidad, los autores argumentan que es la medida
del grado de consistencia o repetibilidad de una prueba. Una prueba tiene que ser fiable
para ser válida, porque los resultados muy variables tienen muy poco significado.
Seisdedos (2004:19) opina que el grado en que la prueba mide una variable o
conjunto de conductas definidas por el investigador se le denomina validez de
constructo y al grado de concomitancia (correlación) entre pruebas que apuntan a
variables o constructos similares los denomina validez concurrente o validez criterial.
Para acercarnos a la validación de este trabajo adoptamos la tipología propuesta por
Maxwell y Stake (2006:109), que plantea cinco tipos de validez que se pueden
relacionar con algunas etapas de nuestra investigación:
1. Validez descriptiva. Se refiere a la que está relacionada con la etapa inicial de la
investigación. Usualmente involucra la recopilación de datos. El resultado principal es
la información que describe lo que fue observado y experimentado. Para ello es muy
importante tanto la selección del lenguaje como de los datos relevantes.
2. Validez interpretativa. La certeza en la interpretación es válida si los actores
pueden confirmar o reconocer los descubrimientos de la investigación en particular.
3. Validez teórica. La validez teórica es un análisis más abstracto que la validez
descriptiva e interpretativa, relacionada con la inmediatez física y mental del fenómeno
estudiado. Las construcciones y marcos teóricos de los investigadores, sean teorías o
metateorías conocidas, definen intrínsecamente la recopilación y la interpretación de los
datos en la etapa inicial de la investigación.
4. Generalidad. Este tipo de validez se refiere al grado en que la explicación es
aceptada para ser generalizable. Sin embargo es pertinente aclarar que para algunos
investigadores cualitativos, el generalizar descubrimientos, es considerado de poca
importancia.
5. Validez evaluativa. Se refiere a la aplicación de un marco evaluativo, que es
similar en la investigación cualitativa y cuantitativa. Es pertinente aclarar que la
evaluación no puede ser considerada como un comunicado conclusivo.
Llama la atención lo expresado por Smaling (s.f.:1), cuando relata que el carácter
científico de una investigación incluida la cualitativa, lleva implícito la persuasión
argumentativa. Después de todo, una investigación que reclama su cientificidad debe
tener defensibilidad, para lo que se requiere calidad en la argumentación para el público
lector.
Debe admitirse que los otros aspectos de la persuasión deben permanecer en un
segundo plano, tales como: la persuasión del ethos (que se acentúa por la excelencia o
autoridad del investigador), y la persuasión del pathos (que apela a los sentimientos
estéticos). Actualmente, el carácter retórico de la ciencia ha sido ampliamente
aclamado. Sin embargo, un texto que reclama su carácter científico, debe, finalmente,
persuadir por el logos (por la razón o la argumentación). En la retórica de la ciencia, la
persuasión por el logos puede no ser suficiente, pero siempre será necesaria. Como
científico, el escritor de una investigación dice algo que supone está sustentado por
argumentos tales como las observaciones, asunciones aceptables intersubjetivamente,
interpretaciones, principios, reglas, regulaciones y teorías. En otras palabras, el reclamo
del científico de basarse en una argumentación aceptable y plausible.
Yin (2009:40-45), asegura en relación a la validez, que un diseño de investigación
supone que representa un conjunto de estados lógicos donde se puede juzgar la calidad
de un diseño dado, de acuerdo a ciertas pruebas lógicas.
En la presente investigación se utiliza un texto científico con el fin de armar una
estructura argumentativa de los textos en forma explícita y clara, adecuada y fructífera.
Los textos incluyen, o al menos señalan una clara indicación de los puntos a tratar, por
lo que se toma la responsabilidad de enunciar la sustentación argumentativa del punto
que reclama. Además permite realizar una propuesta que se sustente en un plan de
acción factible y orientada a resolver un problema.
En síntesis, la propuesta debe tener apoyo, bien sea en una investigación de campo,
o en una investigación de tipo documental; y puede referirse a la formación de políticas,
programas, tecnologías, métodos o procesos. En la elaboración del diseño de
investigación, uno de los aspectos que debe cuidarse es el concerniente con la validez,
buscando con ese precepto que el proyecto tenga la calidad ineludible. Sin embargo, el
concepto de validez puede ser entendido de múltiples formas, por ello se presentaron
algunas de las definiciones de diversos autores que nos dan una idea de lo amplio de
este concepto.
Para tal efecto, en la ejecución del procedimiento metodológico cuantitativo se
aplicó la prueba piloto cuestionario de satisfacción del servicio ya validada, a usuarios
que no formaban parte de la muestra, pero que presentaban las mismas características de
los sujetos de la muestra. Para hallar el coeficiente de confiabilidad se procedió de la
siguiente manera:
* Aplicación de la prueba piloto a un grupo de 15 sujetos pertenecientes a la muestra
de estudio, con características equivalentes a la misma.
* Codificación de las respuestas; trascripción de las respuestas en una matriz de
tabulación de doble entrada con el apoyo del programa estadístico Dyane versión 4.
* Interpretación de los valores tomando en cuenta la escala de Likertt.
* Determinación de resultados con tabulación simple y de tabulación cruzada.
I. CONFIABILIDAD
Ningún instrumento psicométrico puede considerarse de valor a menos que sea una
medida consistente, o confiable. En consecuencia, una de las primeras cosas que será
necesario determinar acerca de una prueba de elaboración reciente es si resulta lo
suficientemente confiable como para medir lo que fue diseñada para medir. Si, en
ausencia de cualquier cambio permanente en una persona debido al crecimiento, al
aprendizaje, a alguna enfermedad o lesión, las puntuaciones en una prueba varían con la
ocasión o la situación, es probable que la prueba no sea lo suficientemente confiable
como para ser usada en describir y evaluar a la gente y hacer predicciones sobre su
conducta. Hablando en términos estrictos, más que ser una característica de una prueba,
la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se administra la
prueba a un grupo particular de personas en una ocasión particular y bajo condiciones
específicas (Thompson, 1994).
Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad
se asume que la prueba mide una característica relativamente estable. A diferencia de la
inestabilidad, la falta de confiabilidad es resultado de errores de medición producidos
por estados internos temporales, como la baja motivación o la falta de disposición, o de
condiciones externas como un ambiente de prueba incómodo o con distracciones.
Teoría clásica de la confiabilidad
En la teoría clásica de los retest se supone que la calificación observada de una
persona en una prueba está compuesta por una puntuación "real" más algún error no
sistemático de medición. La puntuación real de una persona en una prueba particular se
define como el promedio de las puntuaciones que obtendría si presentara la prueba un
número infinito de veces. Es obvio que la puntuación real de una persona nunca puede
medirse de manera exacta; tiene que ser estimada a partir de su puntuación observada en
la prueba. También se asume en la teoría clásica de los tests que la varianza de las
puntuaciones observadas (s2 obs) de un grupo de personas es igual a la varianza de sus
puntuaciones reales (s2 rea) más la varianza debida a los errores no sistemáticos de
medición (s2 err):
Entonces la confiabilidad (r11) de las calificaciones se define como la razón de la
varianza de la calificación real con la varianza de la calificación observada, o la
proporción de la varianza observada que es explicada por la varianza real:
La proporción de la varianza observada explicada por la varianza de error o que no se
explica por la varianza real puede determinarse a partir de las fórmulas 5.1 y 5.2 como:
La confiabilidad de un conjunto de calificaciones en una prueba se expresa como un
número decimal positivo que fluctúa entre .00 y 1.00. Una ru de 1.00 indica una
confiabilidad perfecta, y una r,, de .00 indica una falta absoluta de confiabilidad de la
medición. Como la varianza de las calificaciones reales no puede calcularse de manera
directa, la confiabilidad se estima analizando los efectos de variaciones en las
condiciones de la administración y el contenido de la prueba en las calificaciones
observadas. Como advertimos antes, la confiabilidad no es influida por cambios
sistemáticos en las calificaciones que tienen un efecto similar en todos los examinados,
sino sólo por cambios no sistemáticos que tienen efectos diferentes en personas
distintas. Dichos factores no sistemáticos influyen en la varianza de error y, por lo tanto,
en la confiabilidad de las calificaciones en la prueba. Cada uno de los diversos métodos
para estimar la confiabilidad (test-retest, formas paralelas, consistencia interna) toma en
consideración los efectos de circunstancias algo diferentes que pueden producir cambios
no sistemáticos en las puntuaciones y, por ende, afectan la varianza de error y el
coeficiente de confiabilidad.
Coeficiente test-retest
Se calcula un coeficiente test-retest para determinar si un instrumento mide de
manera consistente de una ocasión a otra. Este coeficiente, conocido también como
coeficiente de estabilidad, se encuentra correlacionando las calificaciones obtenidas por
un grupo de personas en una aplicación con sus puntuaciones en la segunda aplicación
de la prueba. El procedimiento tcst-retcst toma en consideración los errores de medición
que resultan de diferencias en las condiciones (ambientales, personales) asociadas con
las dos ocasiones en que se administró la prueba. Dado que en ambas ocasiones se
aplicó la misma prueba, los errores debidos a diferentes muestras de los reactivos de la
prueba no se reflejan en un coeficiente test-retest. Además, es probable que las
diferencias entre las condiciones de la aplicación sean mayores luego de un intervalo
largo que de uno corto. Como resultado, la magnitud de un coeficiente de confiabilidad
test-retest tiende a ser mayor cuando el intervalo entre la prueba inicial y el retest es
corto (unos cuantos días o semanas) que cuando es largo (meses o años).
Coeficiente de formas paralelas
Cuando el intervalo entre la prueba inicial y el retest es corto, los examinados
recuerdan, por lo general, muchas de las preguntas y respuestas de la prueba inicial.
Como es obvio, esto afecta sus respuestas en la segunda aplicación, un hecho que por sí
mismo no cambia el coeficiente de confiabilidad si todos recuerdan igual cantidad. Sin
embargo, por lo regular algunas personas recuerdan más del material de la prueba que
otras, ocasionando que la correlación entre el test y el retest sea menos que perfecta. Lo
que parece necesitarse para superar esta fuente de error es una forma paralela del
instrumento, esto es, una que conste de reactivos similares pero no de los mismos
reactivos. Entonces puede calcularse como índice de confiabilidad un coeficiente de
formas paralelas, también conocido como coeficiente de equivalencia.
En principio, la idea de formas paralelas es razonable: al aplicar una forma paralela
luego de un intervalo apropiado que sigue a la aplicación de la primera forma puede
determinarse un coeficiente de confiabilidad que refleje los errores de medición debidos
a los diferentes reactivos y los distintos momentos de aplicación. Para controlar los
efectos de confusión de la forma de la prueba con el momento de la aplicación, la forma
A debe administrarse primero a la mitad del grupo y la forma B a la otra mitad; luego,
en la segunda aplicación, el primer grupo presenta la forma B y el segundo la forma A.
La correlación resultante entre las calificaciones de las dos formas, conocida como
coeficiente de estabilidad y equivalencia, toma en cuenta errores debidos a los
diferentes momentos de aplicación o a los distintos reactivos.
Coeficientes de consistencia interna
Se dispone de formas paralelas para una serie de pruebas, en particular para pruebas
de habilidad (aprovechamiento, inteligencia, aptitudes especiales). Sin embargo, una
forma paralela de una prueba a menudo es costosa y difícil de elaborar. Por esta razón
se elaboró un método menos directo de tomar en cuenta los efectos de diferentes
muestras de los reactivos de una prueba sobre la confiabilidad. Este es el método de
consistencia interna, que incluye el método de división por mitades de Spearman, las
fórmulas de Kudcr-Richardson y el coeficiente alfa de Cronbach. Sin embargo, los
errores de medición causados por diferentes condiciones o momentos de aplicación no
se reflejan en un coeficiente de consistencia interna. En consecuencia, este tipo de
coeficientes no pueden verse como verdaderos equivalentes de los coeficientes test-
retest o de formas paralelas.
Método de división por mitades.
En este enfoque simplificado de la consistencia interna una sola prueba se considera
compuesta por dos partes (formas paralelas) que miden la misma cosa. De este modo,
puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades
seleccionadas de manera arbitraria. Por ejemplo, los reactivos con números nones
pueden calificarse por separado de los que tienen números pares. Entonces la
correlación (roc) entre los dos conjuntos de calificaciones obtenidas por un grupo de
personas es un coeficiente de confiabilidad de formas paralelas para una mitad de la
prueba tan larga como la prueba original. Suponiendo que las dos mitades equivalentes
tienen medias y varianzas iguales, la confiabilidad de la prueba como un todo puede
estimarse mediante la fórmula Spearman-Brown:
Para demostrar el uso de la fórmula 5.4, suponga que la correlación entre las
calificaciones totales obtenidas en los reactivos con números nones y en los reactivos
con números pares de una prueba es .80. Entonces la confiabilidad estimada de toda la
prueba es r11 = 2(.80)/(l +.80) = .89.
Método de Kuder-Richardson.
Una prueba puede dividirse de muchas formas diferentes en dos mitades que
contengan igual número de reactivos. Como cada forma puede dar por resultado un
valor algo diferente de rM, no queda claro qué estrategia de división producirá el mejor
estimado de confiabilidad. Una solución al problema es calcular el promedio de los
coeficientes de confiabilidad obtenidos de todas las divisiones por mitades corno el
estimado global de confiabilidad. Esto puede hacerse, pero el siguiente procedimiento
abreviado fue elaborado por Kuder y Richardson (1937).
Bajo ciertas condiciones, la media de todos los coeficientes de división por mitades
puede estimarse mediante una de las siguientes fórmulas:
En estas fórmulas, k es el número de reactivos en la prueba, es la media de las
calificaciones totales de la prueba, s2 es la varianza de las calificaciones totales de la
prueba (calculadas con n en lugar de n - 1 en el denominador), y pi es la proporción de
examinados que dan la respuesta de la clave al reactivo i. Las p i se suman a lo largo de
todos los reactivos k. Las fórmulas 5.5 y 5.6 se conocen como fórmulas Kuder-
Richardson (K-R) 20 y 21, respectivamente. A diferencia de la fórmula 5.5, la 5.6 se
basa en la suposición de que todos los reactivos son de igual dificultad; esto también
conduce a una estimación más conservadora de la confiabilidad y es más fácil de
calcular que la fórmula 5.5.
Para demostrar la aplicación de la fórmula 5.6, suponga que una prueba que contiene
75 reactivos tiene una media de 50 y una varianza de 100. Entonces r,, = [75 - 50(75 -
50)/100]/74 = .84.
Coeficiente alfa. Las fórmulas 5.5 y 5.6 son casos especiales del coeficiente alfa más
general (Cronbach, 1951). El coeficiente alfa se define como:
Donde k es el número de reactivos, .s2i la varianza de las calificaciones en el reactivo
i, y s2t la varianza de las calificaciones totales de la prueba. Las fórmulas de Kuder-
Richardson sólo son aplicables cuando los reactivos de la prueba se califican con 0 o 1,
pero el coeficiente alfa es una fórmula general para estimar la confiabilidad de una
prueba que consta de reactivos en los cuales pueden asignarse calificaciones de distinto
peso a respuestas diferentes.
Todos los procedimientos de consistencia interna (división por mitades, Kuder-
Richard-son, coeficiente alfa) sobrestiman la confiabilidad de las pruebas de velocidad.
En consecuencia, deben modificarse para proporcionar estimaciones razonables de
confiabilidad cuando la mayoría de los examinados no termina la prueba en el tiempo
permitido. Para ello, una posibilidad consiste en aplicar las dos mitades de la prueba en
momentos diferentes, pero con límites de tiempo iguales. Se calcula entonces la
correlación entre las calificaciones de las dos mitades cronometradas por separado y los
coeficientes resultantes se corrigen con la fórmula 5.4. También pueden usarse los
procedimientos de test-retest y de formas paralelas para estimar las confiabilidades de
las pruebas de velocidad.
Confiabilidad entre calificadores
Salvo por errores administrativos, las calificaciones calculadas por dos calificadores
diferentes de una prueba objetiva presentada por un individuo deben ser idénticas. Sin
embargo, la calificación de las pruebas de ensayo y orales, además de otros juicios
evaluativos (calificaciones de personalidad, calificación de pruebas proyectivas) es un
proceso bastante subjetivo. Al evaluar las calificaciones que implican el juicio subjetivo
del calificador, es importante conocer el grado en que diferentes calificadores están de
acuerdo en las calificaciones y otros valores numéricos dados a las respuestas de
diferentes examinados y reactivos. El enfoque más común para determinar la
confiabilidad entre calificadores es hacer que dos personas califiquen las respuestas de
un número considerable de examinados y calcular luego la correlación entredós dos
conjuntos de calificaciones. Otro enfoque es hacer que muchas personas califiquen las
respuestas de un examinado o, mejor aún, que muchas personas califiquen las respuestas
de varios examinados. Esta última estrategia arroja un coeficiente intraclase o
coeficiente de concordancia, el cual es un coeficiente generalizado de confiabilidad
entre calificadores. En muchos libros de estadística se describen los procedimientos para
calcular estos coeficientes.
Las pruebas orales no se distinguen por tener una elevada confiabilidad, pero se
dispone de formas especiales que pueden mejorar la objetividad, y por ende la
confiabilidad, con la que se juzga el desempeño oral. Aunque los exámenes orales
tienen, por lo general, una confiabilidad menor que pruebas escritas comparables, la
atención cuidadosa al diseño de las preguntas orales, a la elaboración de las respuestas
modelo a las preguntas antes de aplicar la prueba, y al uso de calificadores múltiples,
puede mejorar la confiabilidad de las calificaciones en las pruebas orales. Dichos
procedimientos han dado por resultado coeficientes de confiabilidad entre calificadores
de .60 y .70 para las pruebas orales aplicadas en ciertos cursos de licenciatura, posgrado
y de escuelas profesionales. Otras sugerencias para mejorar la confiabilidad de las
evaluaciones del desempeño oral incluyen alentar a los examinados a demorar la
respuesta hasta que hayan pensado por un momento en la pregunta, y registrar las
respuestas de manera electrónica para que más tarde sean reproducidas y reevaluadas
por los calificadores.
II. VALIDEZ
De manera tradicional, la validez se ha definido como el grado en que una prueba
mide lo que está diseñada para medir. Una desventaja de esta definición es la
implicación de que una prueba sólo tiene una validez, la cual supuestamente es
establecida por un solo estudio para determinar si la prueba mide lo que se supone debe
medir. En realidad, una prueba puede tener muchas clases de validez, dependiendo de
los propósitos específicos para los cuales fue diseñada, la población objetivo, las
condiciones en que se aplica y el método para determinar la validez.
Los métodos por los cuales puede determinarse la validez incluyen (1) analizar el
contenido de la prueba, (2) calcular la correlación entre las calificaciones en la prueba y
las calificaciones en el criterio de interés y (3) investigarlas características psicológicas
particulares o constructos medidos por la prueba. Todos esos procedimientos son útiles
en la medida que mejoran la comprensión de lo que mide una prueba y proporcionan
información para tomar decisiones sobre la gente. También puede ser de interés evaluar
la validez creciente de una prueba, es decir, qué tanto añade la prueba a la predicción y
comprensión de los criterios que ya son anticipados por otras medidas.
A diferencia de la confiabilidad, la cual es influida sólo por los errores no
sistemáticos de medición, la validez de una prueba es afectada tanto por los errores no
sistemáticos como por los sistemáticos (constantes). Por esta razón, una prueba puede
ser confiable sin ser válida, pero no puede ser válida sin ser confiable. La confiabilidad
es una condición necesaria, pero no suficiente, para la validez.
Validez de contenido
La apariencia física de una prueba con respecto a sus propósitos particulares {validez
de facie) es ciertamente una consideración importante a tener en cuenta al
comercializarla. No obstante, el concepto de validez de contenido se refiere a algo más
que a la apariencia. La validez de contenido atañe a si éste produce un rango de
respuestas que son representativas del dominio entero o universo de habilidades,
entendimientos y otras conductas que supuestamente debe medir la prueba. Se supone
que las respuestas a la muestra de reactivos de una prueba bien diseñada son indicativas
de lo que serían las respuestas al universo entero de conductas de interés.
Un análisis de la validez de contenido ocurre más a menudo en conexión con las
pruebas de aprovechamiento, para las cuales por lo general no existe un criterio externo
especificado. La validez de contenido también es de interés en las medidas de aptitud,
interés y personalidad, aunque quizá menos que la validez de constructo o la relacionada
con un criterio. En una prueba de aprovechamiento se evalúa la validez de contenido
analizando la composición de la prueba para determinar el grado en que representa los
objetivos de la enseñanza. Una forma de lograr esto es comparar el contenido de la
prueba con un bosquejo o tabla de especificaciones concernientes a la materia que va a
ser cubierta por la prueba. Si expertos en la materia coinciden en que una prueba parece
y actúa como un instrumento diseñado para medir lo que se supone debe medir,
entonces se dice que posee validez de contenido.
Dichos juicios involucran no sólo la apariencia de los reactivos de la prueba, sino
también los procesos cognitivos implicados al responderlos. Es obvio que el proceso de
evaluar la validez de contenido no debería esperar hasta que se haya elaborado la
prueba. El juicio de los expertos en lo que se refiere a qué reactivos incluir es necesario
desde el principio del proceso de elaboración de la prueba. Al definir el universo del
contenido de la prueba y la muestra de ese universo que se va a incluir, los diseñadores
establecen las condiciones indispensables para lograr construir un instrumento con
validez de contenido.
Validez con relación a criterio
La validación de cualquier prueba de habilidad consiste en relacionar las
calificaciones en la prueba con el desempeño en medidas o estándares de criterio con los
cuales pueden compararse las calificaciones. Sin embargo, de manera tradicional, el
término validez con relación a criterio hace referencia a procedimientos en los cuales las
calificaciones en la prueba de un grupo de personas se comparan con las puntuaciones,
clasificaciones u otras medidas de desempeño. Algunos ejemplos de criterios contra los
cuales se validan las pruebas son las notas escolares, calificaciones de un supervisor y
número o cantidad de dólares en ventas. Siempre que se dispone de una medida de
criterio en el momento de la prueba puede determinarse la validez concurrente del
instrumento. Cuando las calificaciones en el criterio no están disponibles sino hasta
cierto tiempo después de que se aplicó la prueba, se enfatiza la validez predictiva de la
prueba.
Validez concurrente.
Los procedimientos de validación concurrente se emplean siempre que una prueba se
aplica a personas clasificadas en varias categorías, como grupos de diagnóstico clínico o
niveles socioeconómicos, con el propósito de determinar si las puntuaciones en la
prueba de las personas ubicadas en una categoría son significativamente diferentes de
las de los individuos que se hallan en otras categorías. Si la calificación promedio varía
de modo sustancial de una categoría a otra, entonces la prueba puede usarse como otra
forma, quizá más eficiente, de asignar a la gente a esas categorías. Por ejemplo, las
puntuaciones en el Inventario Multifásico de Personalidad de Minnesota (MMPI) han
sido útiles en la identificación de trastornos mentales específicos, porque se ha
encontrado que los pacientes a quienes los psiquiatras diagnostican trastornos
particulares tienden a diferir del resto de la población en las puntuaciones que obtienen
en ciertos grupos de reactivos (escalas).
Validez predictiva.
La validez predictiva atañe a la precisión con que las puntuaciones de una prueba
predicen puntuaciones de criterio, según lo indica la correlación entre la prueba
(predictor) y un criterio del desempeño futuro. La validez predictiva es de interés sobre
todo para las pruebas de aptitud o de inteligencia, ya que las puntuaciones en esos tipos
de instrumentos a menudo se correlacionan con las puntuaciones, notas de cursos,
calificaciones de pruebas de aprovechamiento y otros criterios de desempeño.
La magnitud de un coeficiente de validez predictiva está limitada por la confiabilidad
de las variables de predicción y de criterio; no puede ser mayor que la raíz cuadrada del
producto de esas dos confiabilidades. Por ésta y por otras razones, la correlación entre
un predictor y una variable de criterio, calculada mediante procedimientos descritos en
el apéndice A, varia con el criterio específico, pero rara vez es mayor a .60. Como la
proporción de la varianza en la variable de criterio que puede ser explicada por la
variación en la variable predictora es igual al cuadrado de la correlación entre las
variables predictora y de criterio, por lo general no puede predecirse más de 36% de la
variación en las puntuaciones de criterio a partir de las puntuaciones obtenidas en una
prueba u otro instrumento psicométrico. Esto deja sin explicar o predecir 64% de la
varianza de criterio. Considerando que la validez predictiva de la mayoría de las pruebas
es menor de .60, es comprensible por qué deben hacerse con cuidado las afirmaciones
concernientes a la posibilidad de predecir los criterios de desempeño a partir de las
puntuaciones obtenidas en las pruebas psicológicas.
Error estándar de estimación.
La sección sobre regresión y predicción en el apéndice A describe el procedimiento a
seguir para determinar una ecuación de regresión (ecuación de predicción) y pronosticar
las calificaciones de criterio de un grupo de personas a partir de sus puntuaciones en
pruebas o en otras variables. Sin embargo, ingresar la puntuación de una persona en una
prueba a una ecuación de regresión sólo produce un estimado de la calificación que la
persona obtendrá en realidad en la variable de criterio. Si la calificación de criterio que
se predice para una persona se considera como la media de una distribución normal de
las calificaciones de criterio obtenidas por un grupo de individuos que obtuvieron la
misma calificación que la persona en la variable predictora, entonces la desviación
estándar de esta distribución es un índice del error promedio en esas predicciones. Este
estadístico, conocido como errar estándar de estimación (Sest), es aproximadamente
igual a:
Donde s es la desviación estándar de la calificación de criterio y r es la correlación
producto-momento entre el predictor (prueba) y el criterio.
Factores que afectan la validez con relación a criterios
La validez con relación a criterios de una prueba puede ser influida por una serie de
factores, incluyendo las diferencias de grupo, la extensión de la prueba, la
contaminación del criterio y la tasa base. La validez creciente de una prueba, es decir, la
contribución de la prueba que excede a las contribuciones de otras variables, también
debería ser considerada al decidir si se va a utilizar la prueba con propósitos de
selección y ubicación.
Diferencias de grupo. Las características de un grupo de personas en quienes se
valida una prueba incluyen variables como sexo, edad y rasgos de personalidad. Esos
factores, que en este contexto se conocen como variables moderadoras, pueden afectar
la correlación entre una prueba y una medida de criterio.
La magnitud de un coeficiente de validez, como la de un coeficiente de confiabilidad,
también está influida por el grado de heterogeneidad del grupo de validación en lo que
mide la prueba. Los coeficientes de validez tienden a ser más pequeños en los grupos
más homogéneos, es decir, los grupos que tienen un rango más estrecho de
calificaciones. El tamaño de un coeficiente de correlación es una función de las
variables de predicción y de criterio, por lo que estrechar el rango de calificaciones en
cualquier variable tiende a disminuir el coeficiente de validez predictiva.
Como la magnitud de un coeficiente de validez varía con la naturaleza del grupo
probado, una prueba recién elaborada que resulte ser un predictor válido de una variable
de criterio particular en un grupo de gente debe tener una validación cruzada en un
segundo grupo. En la validación cruzada se aplica una prueba a una segunda muestra de
personas para determinar si conserva su validez entre muestras diferentes. Debido a la
operación de los factores del azar, la magnitud de un coeficiente de validez por lo
general se reduce en alguna medida en la validación cruzada. En consecuencia, en la
mayor parte de los casos se considera que la correlación entre las calificaciones de
predicción y de criterio en la validación cruzada es un mejor indicador de la validez
predictiva que la correlación original prueba-criterio.
La validación cruzada, que es una manera de determinar la generalización de la
validez de una prueba, es decir, si la prueba sigue siendo válida en situaciones
diferentes, también puede involucrar una muestra diferente (paralela) de reactivos. Con
diferentes muestras de examinados, diferentes muestras de reactivos de la prueba, o en
ambos casos, suele darse alguna reducción del coeficiente de validez en la validación
cruzada. Se han propuesto fórmulas para "corregir" dicha reducción, pero implican
ciertas suposiciones que no siempre se cumplen.
Extensión de la prueba.
Al igual que la confiabilidad, la validez varía directamente con la extensión de la
prueba y con la heterogeneidad del grupo de personas examinadas. Hasta cierto punto,
las puntuaciones en una prueba más larga y en una prueba administrada a un grupo de
individuos que varían de manera considerable en las características a medir tienen
varianzas más grandes y, en consecuencia, mayor validez predictiva que las
puntuaciones de pruebas más cortas o de pruebas aplicadas a grupos más homogéneos.
Se han propuesto fórmulas que corrigen los efectos que tienen en la validez la
restricción de rangos de calificación y la extensión acortada de la prueba, pero sólo son
apropiadas bajo ciertas circunstancias especiales.
Contaminación de criterios. La validez de una prueba está limitada no sólo por su
confiabilidad y el criterio, sino también por la validez del propio criterio como medida
de la variable de interés. En ocasiones el criterio se hace menos válido, o se contamina,
por el método particular de medir las calificaciones de criterio. Por ejemplo, un
psicólogo clínico enterado de que un grupo de pacientes ya ha sido diagnosticado como
psicótico puede percibir mal los signos psicóticos en las respuestas de esos pacientes a
las pruebas de personalidad. Entonces el método de comparación de grupos, en el cual
se comparan las calificaciones obtenidas por los psicóticos en la prueba con las
obtenidas por los normales, arrojará evidencia falsa a favor de la validez de la prueba.
Dicha contaminación del criterio (psicóticos contra normales) puede controlarse por
medio de un análisis ciego, esto es, haciendo que quien emite el diagnóstico no
disponga de información acerca de los examinados a excepción de sus puntuaciones en
la prueba. Sin embargo, muchos psicólogos clínicos sostienen que el análisis ciego no es
natural ya que no es la forma en que las pruebas se emplean en realidad en los
escenarios clínicos.
Validez creciente.
Cuando se intenta decidir si la aplicación de un instrumento particular de evaluación
con propósitos predictivos o de diagnóstico está justificada por su costo, también
debería considerarse la validez creciente. La validez creciente se refiere a la cuestión de
qué tanta precisión más tienen las predicciones y los diagnósticos cuando se incluye una
prueba particular en una batería de procedimientos de evaluación. Es posible que otros
métodos de evaluación menos costosos (observación, entrevista, inventario biográfico)
puedan satisfacer los propósitos de la evaluación igual de bien sin usar una prueba
adicional. La validez creciente se relaciona con el concepto de utilidad, tal como se
aplica en los contextos de selección de personal. La utilidad de una prueba se define
como un incremento medido en la calidad de los empleados que son contratados o
promovidos sobre la calidad de los empleados cuando no se usa una prueba u otro
procedimiento de evaluación (Cascio, 2000).
Validez de constructo
La validez predictiva es del mayor interés en la selección y ubicación en un contexto
ocupacional o educativo. Diferentes tipos de pruebas de habilidad, y en ocasiones
pruebas de personalidad y de interés, se utilizan con propósitos de selección y
ubicación. La validez de constructo es de un interés mayor aún con respecto a las
pruebas de personalidad. La validez de constructo de un instrumento de evaluación
psicológica se refiere al grado en que el instrumento mide un constructo particular, o
concepto psicológico como la ansiedad, la motivación para el logro, la extraversión-
introversión o el neuroticismo. La validez de constructo, que es el tipo más general de
validez, no se determina de una sola manera o por una investigación. Más bien
involucra una red de investigaciones y otros procedimientos diseñados para determinar
si un instrumento de evaluación que supuestamente mide una determinada variable de
personalidad en realidad lo hace.
Evidencia a favor de la validez de constructo.
Entre las fuentes de evidencia a favor de la validez de constructo de una prueba se
encuentran las siguientes:
1. Los juicios de expertos de que el contenido de la prueba corresponde al constructo
de interés.
2. Análisis de la consistencia interna de la prueba.
3. Estudios, tanto en grupos formados de manera experimental como en grupos que
se presentan de manera natural, de las relaciones entre las puntuaciones de la prueba y
otras variables en las cuales difieren los grupos.
4. Correlaciones de las puntuaciones en la prueba con las puntuaciones en otras
pruebas y variables con las cuales se espera que tengan cierta relación, seguidas por un
análisis factorial de esas correlaciones.
5. Interrogar con detalle a los examinados o a los calificadores acerca de sus
respuestas a una prueba o escala de calificación para revelar los procesos mentales
específicos implicados al dar respuesta a los reactivos.
Como lo revela esta lista, varios tipos de información contribuyen al establecimiento
de la validez de constructo de un instrumento psicométrico. La información puede
obtenerse de análisis racionales o estadísticos de las variables evaluadas por el
instrumento y por estudios de su capacidad para predecir la conducta en las situaciones
en que opera el constructo.
Las demostraciones experimentales como las usadas en la validación de constructo
de la Escala de Taylor de Ansiedad Manifiesta (TMAS) (Taylor, 1953) son
particularmente importantes en el establecimiento de la validez de constructo. De
acuerdo con la teoría hulliana del aprendizaje, la ansiedad es una pulsión y, por
consiguiente, la gente muy ansiosa debe condicionarse con mayor facilidad que la gente
menos ansiosa. Suponiendo que esta teoría es correcta, los individuos que tienen un alto
nivel de ansiedad deben adquirir —con más rapidez que quienes tienen un bajo nivel de
ansiedad— un parpadeo condicionado en una situación de condicionamiento clásico
donde estén presentes una luz, un soplo de aire y el parpadeo. Por lo tanto, si es una
medida válida del constructo de ansiedad, quienes obtienen puntuaciones altas en la
escala TMAS deberían condicionarse con mayor facilidad en esta situación que quienes
obtienen bajas puntuaciones. La verificación de esta predicción contribuyó de manera
significativa a aceptar la validez de constructo de la TMAS.
Validación convergente y discriminante.
Un instrumento con validez de constructo debe tener correlaciones altas con otras
medidas o métodos de medición del mismo constructo (validez convergente), pero
correlaciones bajas con las medidas de constructos diferentes (validez discriminante).
La evidencia a favor de estas validaciones de un instrumento psicométrico puede
obtenerse comparando las correlaciones entre las medidas de:
1. El mismo constructo usando el mismo método.
2. Diferentes constructos usando el mismo método.
3. El mismo constructo usando métodos diferentes.
4. Diferentes constructos usando métodos diferentes.
La validez de constructo de un instrumento psicométrico se confirma por este
planteamiento de características y métodos múltiples (Campbell y Fiske, 1959) cuando
las correlaciones entre el mismo constructo medidas por el mismo y por diferentes
métodos son significativamente mayores que las correlaciones entre diferentes
constructos medidas por los mismos o por diferentes métodos. Por desgracia, los
resultados de dichas comparaciones no siempre resultan de esta manera.
Ocasionalmente las correlaciones entre diferentes constructos medidas por el mismo
método son más altas que las correlaciones entre el mismo constructo medidas por
métodos diferentes. Esto significa que el método (inventario de lápiz y papel, técnica
proyectiva, escala de calificación, entrevista, etc.) es más importante que el constructo o
rasgo particular en la determinación de lo que está siendo medido que el constructo o
rasgo que supuestamente está siendo evaluado.
III. METODOLOGÍA
3.1 TIPO DE INVESTIGACION: Investigación descriptiva.
3.2 IDENTIFICACION DE VARIABLES:
3.2.1 Variables Independientes: Validación.
3.2.2 Variables Dependientes: Instrumentos de investigación.
3.3. MATRIZ DE DISPERSIÓN TEMATICA
VALIDEZ INSTRUMENTOS DE INVESTIGACIÓN
De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo que está diseñada para medir.
Los métodos por los cuales puede determinarse la validez incluyen: (1) analizar el contenido de la prueba, (2) calcular la correlación entre las calificaciones en la prueba y las calificaciones en el criterio de interés y (3) investigarlas características psicológicas particulares o constructos medidos por la prueba..
Los tipos de validez son: Validez de contenido:
El concepto de validez de contenido se refiere a algo más que a la apariencia. La validez de contenido atañe a si éste produce un rango de respuestas que son representativas del dominio entero o universo de habilidades, entendimientos y otras conductas que supuestamente debe medir la prueba.
Validez con relación a criterio:La validación de cualquier prueba de habilidad consiste en relacionar las calificaciones en la prueba con el desempeño en medidas o estándares de criterio con los cuales pueden compararse las calificaciones.
El éxito de una investigación, además de la plena identificación de las variables, la correcta formulación de la hipótesis, la estrategia adecuada para probar dichas hipótesis, etc., depende de la calidad de los instrumentos de investigación de datos, de ahí que resulta muy importante que el investigador asuma esta tarea con la mayor responsabilidad posible.
Esto quiere decir que el investigador debe preocuparse en cuidar que los instrumentos que elabora para acopiar los datos, posean cualidades básicas y necesarias. Si un instrumento no posee las cualidades necesarias, la investigación puede adoptar un sesgo peligroso y se puede llegar a lo que los expertos denominan, resultados espurios o incorrectos en una investigación.
Los instrumentos de investigación de datos deben poseer estas cualidades que pongan en evidencia su bondad para recolectar los datos que requiere el
Validez concurrente:Los procedimientos de validación concurrente se emplean siempre que una prueba se aplica a personas clasificadas en varias categorías, como grupos de diagnóstico clínico o niveles socioeconómicos, con el propósito de determinar si las puntuaciones en la prueba de las personas ubicadas en una categoría son significativamente diferentes de las de los individuos que se hallan en otras categorías.
Validez predictiva: La validez predictiva atañe a la precisión con que las puntuaciones de una prueba predicen puntuaciones de criterio, según lo indica la correlación entre la prueba (predictor) y un criterio del desempeño futuro.
investigador. Muchas veces, el investigador fracasa en sus esfuerzos al recolectar los datos debido a que sus instrumentos no poseen las cualidades mínimas y le proporcionan datos falsos o equivocados. Un buen instrumento debe reunir ciertas cualidades que lo tipifiquen como tal.
Son muchas las cualidades que deben poseer los instrumentos de investigación de datos, pero las más importantes son las siguientes: validez, confiabilidad, objetividad, amplitud, practicabilidad y adecuación.
IV. SIGNIFICADO DE CIERTAS PALABRAS
Confiabilidad de instrumentos: se refiere al grado en que su aplicación repetida al
mismo sujeto u objeto produce resultados similares o consistentes con mediciones
previas.
Validez de un instrumento: se refiere al grado en que un instrumento de medición
realmente mide la variable que pretende medir. Por ejemplo: que un instrumento de
inteligencia mida inteligencia y no ausencia de memoria.
Métodos para evaluar la confiabilidad: medida de Estabilidad, también llamada
confiabilidad test - retest. Un mismo instrumento es administrado a un mismo grupo de
personas después de un período de tiempo. Se mide la confiabilidad a través de la
correlación entre ambos puntajes.
La confiabilidad y validez son más difíciles de lograr mientras más abstracto sea el
constructo que se desea medir (motivación, actitudes, inteligencia, valores, etc.)En este
sentido, toda medición está expuesta a un margen de error de medición, por lo que ésta
nunca es perfecta. La manera de controlar el error dela medición es calculando la
confiabilidad y validez de los instrumentos de medición.
Método de Forma paralelas o alternativas. Se Administran dos formas equivalentes,
por tanto no es el mismo instrumento. Las formas son equivalentes en contenidos,
preguntas, instrucciones, duración, etc. Las formas se administran a un mismo grupo
dentro de un período de tiempo corto. Se mide la confiabilidad a través de la correlación
entre ambos puntajes.
Método de las Mitades partidas (split -halves).Requiere una sola medición en un
mismo grupo de sujetos. Se divide la prueba en dos mitades y se comparan los
resultados en correlaciones.
Coeficiente de Cronbach. Este coeficiente requiere una sola medición y mide la
consistencia interna de los ítems encada escala y el instrumento como conjunto. Es decir
entrega un valor estadístico que nos indica en qué medida un conjunto de ítems apuntan
en la misma dirección.
Validez de contenido: Se refiere al grado en que un instrumento refleja un dominio
específico de contenido de lo que se mide. Es el grado en que la medición representa al
concepto medido.
Validez de Criterio: Se establece la validez comparándolo con algún criterio externo.
Es un criterio estándar con el que se juzga la validez de un instrumento.
Validez de Constructo: Se refiere al grado en que una medición se relaciona
consistentemente con otras mediciones de acuerdo con hipótesis derivadas teóricamente
y que conciernen a los conceptos (o constructos) que están siendo medidos. Cuando el
criterio se fija en el presente se llama validez concurrente. Cuando el criterio se fija en
el futuro se llama validez predictiva
CONCLUSIÓN
La confiabilidad se refiere a la libertad relativa que tienen las calificaciones de
prueba de los errores de medición. En la teoría clásica de las calificaciones de prueba, la
confiabilidad se define como la razón de la varianza de la calificación real en una
prueba con la varianza de su calificación observada. Dado que la varianza de la
calificación real no puede calcularse directamente, la confiabilidad debe estimarse
mediante uno de varios procedimientos que toman en consideración varias fuentes de
error de medición. Tres métodos tradicionales para estimar la confiabilidad de una
prueba u otro instrumento de evaluación son test-retest, formas paralelas y consistencia
interna.
El método de formas paralelas, que tiene en consideración los errores debidos a
diferentes momentos de aplicación, así como los debidos a diferentes muestras de los
reactivos de prueba, es el más satisfactorio. Debido a que la elaboración de las formas
paralelas es costosa y consume tiempo, los procedimientos de test-retest y de
consistencia interna son las fuentes más populares de evidencia de confiabilidad. Los
enfoques de consistencia interna, que son menos apropiados para las pruebas de
velocidad, comprenden la división por mitades, las fórmulas Kuder-Richardson y el
coeficiente alfa.
El error estándar de medición, que varía inversamente con la magnitud del
coeficiente de confiabilidad, se emplea al calcular intervalos de confianza para las
calificaciones reales en una prueba. Entre más grande sea el error estándar de medición,
más amplio es el rango de calificaciones que puede decirse, con un grado especificado
de confianza, contiene la calificación real de un examinado en la prueba.
La confiabilidad de una prueba varía directamente con el número de reactivos y la
heterogeneidad del grupo que la presenta. La confiabilidad también varía con el nivel de
dificultad de los reactivos que componen la prueba, siendo más alta con reactivos de
dificultad intermedia.
Se analizó de manera breve los procedimientos para determinar la consistencia entre
diferentes calificadores (confiabilidad entre calificadores) y la confiabilidad de las
pruebas referidas a criterio. También se prestó atención a la teoría de la generalización,
la cual conceptualiza la calificación de una prueba como la muestra de una población y.
por ende, como el estimado de una calificación real o valor universal.
La confiabilidad es una condición necesaria pero no suficiente para lograr la validez,
que es el grado en el cual una prueba mide lo que está diseñado para medir. La
información sobre la validez de una prueba puede obtenerse de varias maneras:
analizando el contenido de la prueba (validez de contenido), correlacionando las
calificaciones de la prueba con calificaciones en un criterio medidas al mismo tiempo
(validez concurrente), correlacionando las calificaciones de la prueba con calificaciones
en un criterio medidas en un momento posterior (validez predictiva), y por el estudio
sistemático de lo adecuado de la prueba para valorar un constructo psicológico
especificado (validez de constructo). En las pruebas de aprovechamiento, por lo regular,
se valida el contenido, mientras que la validez predictiva es de mayor interés con
respecto a las pruebas de aptitud. La validez concurrente y la de constructo son
importantes para las pruebas de personalidad.
La magnitud de un error cometido al predecir la calificación de criterio de una
persona a partir de su calificación en una prueba es calculada mediante el error estándar
de estimación, el cual varía inversamente con el tamaño del coeficiente de validez
relacionado con el criterio. Tanto el coeficiente de validez relacionado con el criterio
como el error estándar de estimación son afectados por varios factores que comprenden
las diferencias de grupo. la extensión de la prueba y la contaminación del criterio. Como
la magnitud de un coeficiente de validez puede ser afectada por factores aleatorios, las
pruebas usadas con propósitos predictivos deberían someterse a validación cruzada en
muestras separadas de personas. También es importante considerar cuánto contribuyen
las calificaciones de prueba al proceso de tomar buenas decisiones acerca de la gente
mucho más allá de las contribuciones de otras variables (validez creciente).
La información sobre la validez de constructo de una prueba como medida de una
variable o característica psicológica particular puede obtenerse de varias maneras. En
particular, es útil un análisis de correlación entre la prueba y otras medidas del mismo
constructo obtenidas por el mismo método o por métodos diferentes, así como medidas
de diferentes constructos obtenidas por el mismo método o por métodos diferentes
(matriz de rasgos y métodos múltiples).
Las pruebas psicológicas se aplican en escenarios ocupacionales con propósitos de
selección, clasificación, promoción y valoración periódica de empleados. Algunos de
los procedimientos estadísticos que se utilizan con esos propósitos son tablas de
expectativas, razones de selección y métodos de límites múltiples y regresión múltiple.
REFERENCIAS BIBLIOGRÁFICAS
Baechle, Thomas R., Earle, Roger W. (2007). Principios del entrenamiento de la
fuerza y el acondicionamiento físico. 2ª, edición. Madrid, España. Editorial Médica
Panamericana.
Hernández Sampieri. R. et.al. (2003). Metodología de la investigación.3ª .Edición.
México: Mc Graw-Hill.
Maxwell, D.L., Stake E. (2006). Research and Statistical Methods in Comunication
Sciences and Disorders. Universidad de Michigan, EE. UU. Thomson/Delmar
learninf.
Seisdedos, Cuberos Nicolás (2004). Cambios. Test de flexibilidad cognitiva.
Madrid, España.TEA ediciones.
Thompson, R. (1994). Regulación emocional: Un tema en busca de la definición. En
N. Fox (Ed.), El desarrollo de la regulación de las emociones: consideraciones
biológicas y de comportamiento.
Yin, Robert K. (2009). Case Study Research, design and mhetods. Fourth edition,