CAPITULO I

Una Introducción a la Psicometría

Jennifer Balbuena, Fernando Andrada &Jonathan Ayala

Una Introducción a la Psicometría

“An Introduction to Psychometry”

Jennifer Balbuena, Fernando Andrada[1]& Jonathan Ayala[2]

Universidad del Cono Sur de las Américas UCSA

Asunción- Paraguay

“Mide lo que es medible y haz medible lo que no sea”

(Galileo Galilei)

Aspectos preliminares           

La psicometría es la rama de la psicología que se encarga de la medición de los procesos psicológicos, para lo cual utiliza diferentes teorías, métodos e instrumentos. De modo que garantiza que los instrumentos de medición elaborados cuenten con respaldo científico para su uso. La psicometría es el conjunto de métodos, técnicas y teorías implicadas en la medición de variables psicológicas, estudia las propiedades métricas necesarias en las mediciones psicológicas y plantea las bases para que sean construidas de forma adecuada, el objetivo de la psicometría es proporcionar modelos para transformar los hechos de la realidad objetiva en datos a partir de asignar valores numéricos a las respuestas de los sujetos (Muñiz, 1992).

La  psicometría  es  la parte de la psicología que orienta las acciones que permiten que  los  instrumentos  de medida  sean  debidamente  estandarizados y  posean  la fiabilidad y  validez  requerida  para  su correcto uso con la finalidad de establecer diferencias   de   unas   personas   en   relación   a   otras   en determinada  población, las  técnicas  psicométricas  forman  parte  del  proceso  de evaluación   psicológica, la cual utiliza   las   pruebas   psicométricas denominadas test, como instrumentos de medida con el objeto de obtener una información más amplia del sujeto  que  permita  al  evaluador plantear y confirmar hipótesis  de  trabajo  que  orienten  su proceder evaluativo y diagnóstico (González, 2007).

Los registros exactos de las primeras mediciones de variables psicológicas seguramente se pierden en el tiempo. Sin embargo, se destacan los avances planteados por Wilhelm Wundt a finales del siglo XIX en el primer laboratorio de psicología en Leipzig, ya que de una u otra forma sus estudios experimentales de los tiempos de las reacciones humanas constituyen un evento trascendental en el campo de las medidas. Adicionalmente otro avance destacado constituye los aportes de los psicólogos franceses Alfred Binet y Theodore Simon en la construcción de escalas de medidas de la inteligencia en infantes a comienzos del siglo XX. Finalmente se mencionan los avances obtenidos a partir del uso del análisis factorial en las últimas décadas del siglo pasado.

Acerca de la importancia de la medición del psiquismo se destaca que la APA (American Psychological Association); una de las organizaciones más reconocidas mundialmente en la psicología; tiene una división especifica en donde se agrupan los profesionales que especializan su trabajo en dicho campo. Así, la quinta división APA: Métodos cuantitativos y cualitativos, promueve elevados estándares de investigación y aplicación práctica de programas de evaluación, medición, estadísticas y métodos cualitativos. Adicionalmente se destaca que de forma periódica publican artículos de psicometría en la revista científica Psychological Assessment, en la cual uno de sus principales tópicos de interés es el desarrollo de validaciones y aplicaciones de instrumentos de medidas, escalas, métodos observacionales y entrevistas.

Una de las aplicaciones de la psicometría consiste en adaptar y validar instrumentos a diversos contextos debido a que se infiere que las diferencias lingüísticas, culturales y de acceso a tecnología pueden generar ciertos sesgos en las mediciones. Por tanto se fomenta la realización de estudios de validaciones de test para obtener medidas con menores rangos de error. Para realizar adaptaciones de instrumentos a diferentes contextos, Hambleton & Patsula (1999) han construido el siguiente resumen:

Tabla 1.

Procedimiento de adaptación y validación de test (Hambleton et al., 1999)

1) Comprobar la equivalencia de los constructos a nivel lingüístico y cultural entre los contextos de la población  de origen del instrumento y la población objetivo,
 2) Analizar la pertinencia de adaptar un test existente o construir uno nuevo,
3) Elegir traductores profesionales cualificados,
4) Utilizar combinación de diseños de traducción: directa y retrotraducción,
5) Analizar la versión adaptada del instrumento y ajustar con las correcciones necesarias,
6) Realizar un estudio piloto del instrumento adaptado,
7) Realizar una prueba empírica rigurosa del test adaptado,
8) Seleccionar un diseño adecuado para comparar las puntuaciones de las versiones original y adaptada,
9) Analizar la pertinencia de hacer comparaciones interculturales y asegurarse de la equivalencia de las versiones,
10) Realizar estudios adecuados para comprobar la validez del instrumento adaptado,
11) Documentar el proceso realizado y construir un manual para los usuarios,
12) Capacitar a los usuarios,
13) Realizar seguimientos periódicos del test adaptado.

 

Adicionalmente, para estudios de adaptación de instrumentos, la Comisión Internacional de Test plantea veinte directrices, las cuales están organizadas en seis grupos (directrices previas, de desarrollo, de confirmación, de aplicación, puntuación e interpretación y documentación) en Muñiz,Elosua y Hambleton (2013). De modo que se presentan de forma textual:

Tabla 2.

Directrices planteadas por la Comisión Internacional de Test (2010)

1. Directrices previas
DP1. Antes de comenzar con la adaptación hay que obtener los permisos pertinentes de quien ostente los derechos de propiedad intelectual del test.
DP2. Cumplir con las leyes y prácticas profesionales relativas al uso del test que estén vigentes en el país o países implicados.
DP3. Seleccionar el diseño de adaptación de test más adecuado.
DP4. Evaluar la relevancia del constructo o constructos medidos por el test en las poblaciones de interés.
DP5. Evaluar la influencia de cualquier diferencia cultural o lingüística en las poblaciones de interés que sea relevante para el test a adaptar.
 
2. Directrices de desarrollo
DD1. Asegurarse, mediante la selección de expertos cualificados, de que el proceso de adaptación tiene en cuenta las diferencias lingüísticas, psicológicas y culturales entre las poblaciones de interés.
DD2. Utilizar diseños y procedimientos racionales apropiados para asegurar la adecuación de la adaptación del test a la población a la que va dirigido.
DD3. Ofrecer información y evidencias que garanticen que las instrucciones del test y el contenido de los ítems tienen un significado similar en todas las poblaciones a las que va dirigido el test.
DD4. Ofrecer información y evidencias que garanticen que el formato de los ítems, las escalas de respuestas, las reglas de corrección, las convenciones utilizadas, las formas de aplicación y demás aspectos son adecuados para todas las poblaciones de interés.
DD5. Recoger datos mediante estudios piloto sobre el test adaptado, y efectuar análisis de ítems y estudios de fiabilidad y validación que sirvan de base para llevar a cabo las revisiones necesarias y adoptar decisiones sobre la validez del test adaptado.
3. Directrices de confirmación
 DC1. Definir las características de la muestra que sean pertinentes para el uso del test, y seleccionar un tamaño de muestra suficiente que sea adecuado para las exigencias de los análisis empíricos.
 DC2. Ofrecer información empírica pertinente sobre la equivalencia del constructo, equivalencia del método y equivalencia entre los ítems en todas las poblaciones implicadas.
DC3. Recoger información y evidencias sobre la fiabilidad y la validez de la versión adaptada del test en las poblaciones implicadas.
DC4. Establecer el nivel de comparabilidad entre las puntuaciones de distintas poblaciones por medio de análisis de datos o diseños de equiparación adecuados.

4. Directrices sobre aplicación.
 DA1. Preparar los materiales y las instrucciones para la aplicación de modo que minimicen cualquier diferencia cultural y lingüística que pueda ser debida a los procedimientos de aplicación y a los formatos de respuesta, y que puedan afectar a la validez de las inferencias derivadas de las puntuaciones.
 DA2. Especificar las condiciones de aplicación del test que deben seguirse en todas las poblaciones a las que va dirigido.
5. Directrices sobre puntuación e interpretación
DPI1. Interpretar las diferencias de las puntuaciones entre los grupos teniendo en cuenta la información demográfica pertinente.
DPI2. Comparar las puntuaciones entre poblaciones únicamente en el nivel de invarianza establecida para la escala de puntuación utilizada en las comparaciones.
6. Directrices sobre la documentación
DC1. Proporcionar documentación técnica que recoja cualquier cambio en el test adaptado, incluyendo la información y las evidencias sobre la equivalencia entre las versiones adaptadas.
 DC2. Proporcionar documentación a los usuarios con el fin de garantizar un uso correcto del test adaptado en la población a la que va dirigido.

 

Los lineamientos planteados por la Comisión Internacional de Test (International Test Commission, ITC) tuvieron su origen en el año 1994, en donde se produjo una revisión por un grupo de trabajo multidisciplinar coordinado por el profesor Ronald K. Hambleton y conformado por varios representantes de asociaciones de psicólogos: DaveBartram (Reino Unido), GirayBerberoglu (Turquía), Jacques Gregoire (Bélgica), José Muñiz (España) y Fons van de Vijver (Holanda) (Muñiz et ál., 2013). Para los procesos de adaptación y validación, la Comisión Internacional recomienda seguir las directrices mencionadas. Es importante recalcar que para cumplirlas existen diferentes métodos y técnicas. De modo que las técnicas que han sido utilizadas en las validaciones que presenta el libro, son expuestas a continuación. Sin embargo, es importante recalcar que la forma de cumplir con las directrices para futuros estudios requiere la revisión de las condiciones de cada contexto, en especial en criterios como el acceso libre o restringido de las herramientas, la presencia de antecedentes de validaciones de instrumentos para cada constructo, la disponibilidad de traductores certificados y con manejo de principios psicométricos y/o del constructo del instrumento, acceso a profesionales psicólogos con experiencia documentada en el campo de la psicometría y la teoría que enmarca a cada instrumento, las características lingüísticas de la población (recordar que la población de Paraguay es bilingüe según la Dirección General de Estadística y Censos DGEEC), variables psicosociales y culturales en los casos en donde laliteratura refiera que existe funcionamiento diferencial, entre otros aspectos que no han sido considerados en este trabajo.

Propiedades psicométricas de los instrumentos de medición    

Fiabilidad

            Se describe a la fiabilidad como una propiedad psicométrica que consiste en el grado de estabilidad y consistencia que presente un instrumento. La fiabilidad usualmente es demostrada mediante pruebas estadísticas que midan el grado de estabilidad de las respuestas a lo largo del tiempo y a través del índice de consistencia interna que presentan los ítems con respecto al factor y/o constructo que lo contiene. De modo que, al repetir una medición, si se dan variabilidades importantes en los valores se infiere que los ítems son imprecisos y en consecuencia poco fiables como lo indica Prieto y Delgado (2010). Dichos autores consideran que de igual manera si una persona contesta a un test reiteradamente en las mismas condiciones podría obtenerse un indicador de su grado de fiabilidad, para que se den estas medidas, los evaluadores deben centrarse en estandarizar la manera de medición para minimizar la influencia de variables extrañas que puedan producir inconsistencias.

El grado de estabilidad de las respuestas puede ser medido a partir de las fórmulas de correlación entre las tomas, así se comprueba el grado en que las puntuaciones de un test quedan afectadas por las fluctuaciones diarias que se producen en el individuo o en el ambiente en que se aplica el instrumento (González, 2007). Argibay (2006) afirma que la estabilidad de un test se refiere al aplicar dos veces el mismo test en un periodo de tiempo y obtener las mismas medidas de evaluación, pero al momento de la administración de  las  pruebas  en  ambas tomas, pueden influir factores de error que disminuyan la fiabilidad. El mismo autor  menciona  que  para  lograr  la  confiabilidad  del  instrumento, se  debe  llevar  a cabo  la  administración  del  test  en  tiempos  diferentes a  los  mismos  sujetos, posterior  a  ello  se  correlacionan  los  puntajes  obtenidos para determinar la confiabilidad de la prueba.

Tabla 3.

Coeficientes de correlación

r = 1                correlación perfecta
0´8 < r < 1      correlación muy alta
0´6 < r < 0´8    correlación alta
0´4 < r < 0´6     correlación moderada
0´2 < r < 0´4     correlación baja
0 < r < 0´2         correlación muy baja
r = 0                  correlación nula

 

Las pruebas de consistencia interna indican si los ítems de un test miden la misma dimensión, un coeficiente de consistencia interna elevado indica que las preguntas son similares en su contenido, es decir que cumplen el criterio de homogeneidad (Argibay, 2006). Es importante tomar en cuenta que la extensión del test puede afectar la consistencia interna, ya que un test muy largo puede aumentar el coeficiente de consistencia de forma errónea, la consistencia interna es comúnmente medida por el valor alfa de Cronbach que varía entre 0 (bajo) y 1 (elevado) según Argibay (2006).

 

Tabla 4.

Rangos de coeficientes de consistencia interna medida por el valor alfa de Conbach

Rango                                                            Confiabilidad/Dimensión
De 0.0 a 0.20                                      Muy baja (rehacer instrumento)
De 0.21 a 0.40                                    Baja (revisión de reactivos)
De 0.41 a 0.60                                    Media (instrumento poco confiable)
De 0.61 a 0.80                                    Alta (instrumento confiable y aceptable)
De 0.81 a 1                                         Muy alta (instrumento altamente confiable)


Validez

La  validez  es la propiedad psicométrica que indica si el instrumento mide lo que afirma medir. Es uno de los criterios más importantes al momento de  elección  de  un test, ya que hace referencia a las características que mide el test y a la exactitud con la que evalúa, es decir, la  validez  da  sentido  a  las  puntuaciones e informa  sobre  el uso de la herramienta.  Se toma como ejemplo algún test predictor del rendimiento académico que presente adecuadas propiedades psicométricas de fiabilidad y validez, en este caso, una  persona que presenta una puntuación elevada, debería ser más propensa a presentar mejores calificaciones que otra persona con valores menores.

Para demostrar la validez existen varias pruebas, entre las cuales se destacan: la validez de constructo, validez de criterio, validez estructural, validez convergente, validez de funcionamiento diferencial y validez de contenido, es  conveniente  considerar que  distintas  formas  de validez  pueden  ser adecuadas para propósitos diferentes  y que cada una permite realizar diferentes inferencias (Argibay, 2006).

Validez de constructo

Consiste en la propiedad psicométrica en donde un instrumento demuestra que mide lo que afirma hacerlo mediante la relación que presenta con otra forma de medida que mida el mismo constructo y que previamente haya presentado adecuados valores de fiabilidad y validez. Este método está limitado a que en los contextos a realizarse validaciones exista antecedentes de instrumentos que midan el mismo constructo, en caso de no existir antecedentes documentados, se recomienda utilizar otro tipo de pruebas de validez

Validez de criterio

La validez de criterio consiste en comprobar la relación de puntuaciones  existentes entre el constructo del instrumento  con  otras  variables de otros instrumentos, esta validez se divide en validez de criterio concurrente  y  validez de criterio predictivo según si la relación entre variables se dan en el mismo momento o si se predice su aparición en tiempo futuro, se recalca que la diferencia entre  ambas radica en la dimensión temporal más allá de su nivel de predicción, es decir que a nivel concurrente se requieren diseños transversales y a nivel predictivo son usados diseños prospectivos (Argibay, 2006).

 

Validez estructural

La validez estructural se refiere a comprobar que existe semejanza entre los factores que se forman con los ítems de un instrumento y las dimensiones que presenta el constructo evaluado, es decir que si un constructo está formado por un grupo de dimensiones, se espera que los ítems del instrumento que evalúa ese constructo formen factores semejantes a la estructura dimensional. Para realizar esta prueba se utiliza el análisis factorial exploratorio EFA y confirmatorio CFA.

Validez de contenido

Al momento de construir un test no se tienen en cuenta todas  las  conductas  posibles,  solamente  se  eligen  las  más  significativas, de modo que  analizar  la validez  de  contenido consiste en evaluar  si  los  ítems  que  se  usaron  para construir el test son relevantes para el uso que se les va a dar y una vez establecida la  relevancia  es  saber  si  dichos  ítems  constituyen  una  muestra representativa del universo de conductas a manera de indicadores del atributo evaluado (Argibay, 2006).

Validez convergente

Es un método en donde el instrumento es sometido a revisión de las asociaciones que debería presentar con instrumentos que midan otros atributos y que la literatura disponible muestre antecedentes de relación empírica o teórica entre los constructos que mide cada instrumento, es decir que, si se plantea validar un instrumento de un atributo X, se procede a revisar si existen antecedentes de relación con un atributo Y. Por tanto, ambos instrumentos deberían presentar relación en el contexto en donde se realiza el estudio. Así se toman ejemplos de las relaciones que suelen presentar los instrumentos con rasgos de personalidad, satisfacción vital, entre otros.

Validez de funcionamiento diferencial

Consiste en verificar si el test a adaptarse presenta valores significativamente distintos según variables psicosociales y culturales como pueden ser: sexo, edad, estrato socioeconómico, nivel de educación, etc. De modo que, si en la versión original del instrumento se reporta que existen diferencias significativas según alguna variable, es de esperarse que se encuentren diferencias similares en la versión adaptada del test.

Teorías Psicométricas  

Los estudios psicométricos se enmarcan dentro de alguno de los dos siguientes modelos: la teoría clásica de los test y la teoría de respuesta al ítem, los cuales han orientado la construcción de instrumentos en diversos campos de la psicología.

            Teoría Clásica de los test

El  modelo  clásico es el primer enfoque teórico utilizado en psicometría, el cual obtiene sus primeros aportes en los trabajos de Spearman a principios del siglo XX (Spearman, 1904, 1907, 1911), este modelo presenta tres postulados y la relación entre test paralelos. El primer supuesto consiste  en  asumir  que  la  puntuación  obtenida por una persona en un test (denominada puntuación empírica y representada con la letra X) está formada por dos componentes, por un lado la puntuación verdadera de  esa  persona  en  este  test  (V)  y  por  un  error  (e),  que puede  ser  debido  a numerosas causas que no se podría controlar, esta afirmación se representa de la siguiente manera: X = V + e (Muñiz, 2010).

El  segundo  supuesto  afirma que  no  existe  relación  entre  el  valor  de  las puntuaciones  verdaderas  y el tamaño de  los errores que afectan a esa puntuación y el tercer supuesto menciona que los errores de medida de los sujetos en un instrumento no están relacionados con los errores de medida en otro test distinto (Muñiz, 2010). El mismo autor señala que en test paralelos, los cuales miden el mismo constructo mediante distintos  ítems, las puntuaciones  verdaderas de  los participantes serían las  mismas  e iguales  las  varianzas  de  los  errores de medida.

Teoría de Respuesta al Ítem

La teoría de respuesta al ítem presenta sus orígenes en los trabajos de Thurstone (1925), Lawley (1943, 1944) y Tucker (1946), en la década de años cincuenta y sesenta se destacan los trabajos de Lord  y  Novick (1968),  quienes impulsaron la teoría que predomina en la psicometría hasta tiempos actuales (Muñiz, 2010).

Según Tovar (2007), la teoría de respuesta al ítem, también conocida como teoría del rasgo latente, es un modelo probabilístico que permite evaluar la información proporcionada por  cada  ítem que conforma el test,  y  de  ese  modo  permite generar test individualizados, cuya principal diferencia con la teoría clásica radica en que la relaciónentre el puntaje observado y el constructo no es de tipo lineal (X = V + e) sino que son funciones exponenciales principalmente logísticas. Los  postulados  básicos  y  los  supuestos  de  la Teoría de Respuesta al Ítem son los siguientes según el mismo autor:

Postulados:

1) El resultado de un sujeto en un ítem puede ser  explicado por un grupo de factores denominados rasgos o aptitudes, los cuales se representan mediante la letra: θ,

2)  La  relación  existente entre  la  respuesta  de  un  ítem  y  su  rasgo  latente  se  describe como una función monotónica creciente que es la curva característica del ítem.

3) Los parámetros de las aptitudes y de los ítems son invariantes.

Supuestos:

1) La  teoría de respuesta al ítem plantea que requiere unidimensionalidad  del  rasgo  latente. De modo que cada ítem debe medir un solo rasgo,

2) Las respuestas proporcionadas por un sujeto, de cualquier par  de   ítems son independientes entre sí.

Conclusión

Se resume que han sido presentadas brevemente las pautas requeridas para obtener propiedades psicométricas adecuadas en las adaptaciones de instrumentos, al igual que se ha mostrado las enmarcaciones teóricas de la psicometría, con la finalidad de brindar al lector no especializado, un conjunto de pautas que sirvan para comprender los procesos que son descritos en los capítulos siguientes. Se aclara que, en la medida de la disponibilidad de recursos humanos y las limitaciones propias del contexto actual de la psicología paraguaya, las validaciones presentadas cumplen con los criterios sugeridos por la Comisión Internacional de Test. Sin embargo, se recomienda la realización de estudios que repliquen

los hallazgos a partir de métodos que no fueron utilizados por las limitaciones descritas. Adicionalmente, se sugiere que los datos presentados sean concebidos como pasos iniciales de los procesos psicométricos a realizarse en la nación.

Referencias

Argibay,  J.  C  (2006),  Técnicas  psicométricas.  Cuestiones  de validez  y confiabilidad.

González, F. (2007). Instrumentos de Evaluación Psicológica. La Habana: Editorial Ciencias Médicas

International Test Commission. (2010). International test commission guidelines for translating  and adapting tests. Gefundenam, 1, 2012.

Lawley, D. N. (1943). On problems connected with item selection and test construction. Proceedings of the Royal Society of Edimburg, 61, 273-287.

Lawley, D. N. (1944). The factorial analysis of multiple item tests. Proceedings of the Royal Society of Edimburg, 62, 74-82.

Lord, F. M., y Novick, M. R. (1968). Statistical theories of mental test scores. New York: Addison-Wesley

Muñiz, José. (2010). Las Teorías de los Tests: Teoría Clásica y Teoría de Respuesta a los Ítems

Muñiz, José. (1992) Teoría clásica de los test. Madrid: Pirámide.

Muñiz, J., Elosua, P., &Hambleton, R. K. (2013). Directrices para la traducción y adaptación de los tests: segunda edición. Psicothema, 25(2), 151-157.

Prieto, G., & Delgado, A. (2010). Fiabilidad y validez. Papeles del psicólogo,31(1), 67-74.

Spearman, C. (1904). The proof and measurement of association between two things. American Journal of Psychology, 15, 72-101.

Spearman, C. (1907). Demonstration of formulae for true measurement of correlation. American Journal of Psychology, 18, 161-169.

Spearman, C. (1913). Correlations of sums and differences. British Journal of Psychology, 5, 417-426

Tovar,  J.  (2007). Psicometría: tests psicométricos, confiabilidad  y  validez. Psicología: Tópicos de Actualidad, 85-108.

Thurstone, L. L. (1925). A method of scaling psychological and educational tests. The Journal of Educational Psychology, 16, 433-451. Thurstone, L. L. (1938). Primary mental abilities. Psychometric Monographs, nº 1.

Tucker, L.R. (1946). Maximum validity of a test with equivalent items. Psychometrika, 11, 1-13.

 

[1] Dedicado en memoria póstuma a Fernando Andrada. Psicólogo en formación. Universidad San Luis-Argentina.

[2] Correspondencia remitir a: jfayala1986@gmail.com Jonathan Ayala. Doctorado en psicología. Universidad de Palermo. Buenos Aires-Argentina