Funcionamiento Diferencial del Ítem: una abordaje desde la perspectiva bibliométrica, experimental y empírica

Author

Berrío Beltrán, Ángela

Director

Gómez-Benito, Juana

Date of defense

2022-06-17

Pages

182 p.



Department/Institute

Universitat de Barcelona. Departament de Psicologia Social i Psicologia Quantitativa

Abstract

[spa] La detección del funcionamiento diferencial del ítem (DIF) en un test constituye una amenaza a la validez de las inferencias que de sus resultados se puedan extraer. Ignorar su presencia o desconocerla puede traer implicaciones o consecuencias sociales relevantes para los evaluados que pertenecen a grupos específicos de la población. Es por ello que hoy en día, el análisis del DIF se ha convertido en un aspecto que requiere ser valorado a la hora de desarrollar nuevos tests o de adaptar y traducir los ya existentes. A este respecto en las guías de la Comisión Internacional de Tests (ITC) sobre la traducción y adaptación de test, el uso del test, la evaluación a gran escala de poblaciones lingüísticamente diversas, y las pruebas realizadas por internet e informatizadas, se pueden encontrar referencias para que los usuarios tengan presente o valoren la presencia de DIF. Después de casi 4 décadas de desarrollos, los usuarios cuentan con un gran número de métodos que permiten analizar la presencia o no de DIF. Éstos pueden estar basados en distintos modelos teóricos de la medición y/o responder a necesidades propias de los diferentes ámbitos de evaluación. En este contexto, con esta tesis se propuso analizar y proporcionar información sobre las tendencias y desarrollos recientes en métodos de detección de DIF teniendo en cuenta los principales ámbitos de aplicación. Para ello se diseñaron tres estudios: un estudio de revisión sistemática que incluyó algunos análisis bibliométricos, un estudio de tipo experimental con datos simulados y un estudio de tipo empírico. El estudio de revisión sistemática encontró once tópicos de investigación en los que se ha centrado el interés de los investigadores respecto de los métodos de detección de DIF, señaló los valores más frecuentes que toman algunas variables en los estudios con datos simulados, mostró algunas tendencias respecto a los valores de dichas variables y presentó los métodos estudiados con mayor frecuencia y aquellos que se han estudiado más recientemente. Debido a que el método de detección de DIF basado en el modelo Rasch fue uno de los más estudiados y presenta desarrollos recientes, se diseñaron dos estudios para analizar algunos de sus procedimientos. Por un lado, se analizó el funcionamiento del procedimiento diferencial del parámetro de dificultad en un estudio con datos simulados bajo condiciones similares a las pruebas nacionales que evalúan la calidad de la educación y dan acceso a la universidad en Colombia. Se analizó el efecto de: la razón de tamaños, datos simulados bajo modelos de un parámetro logístico (1PL) o tres parámetros logísticos (3PL; cuando existe un peso importante del azar en los aciertos y por tanto los datos están desajustados al modelo Rasch) y diferencias en la distribución del nivel de atributo, sobre las tasas de detección correcta (DC) y tasas de falsos positivos (FP). Los resultados respecto de las tasas de falsos positivos mostraron que el funcionamiento del procedimiento se ve afectado cuando el modelo de simulación de los datos fue 3PL, mientras que las tasas de detección correcta se vieron más afectadas por la razón de tamaños y por las diferencias en la distribución del nivel de atributo. Se discutieron los resultados y las implicaciones prácticas derivadas de ellos. Por otro lado, se aplicaron dos procedimientos de árboles de Rasch (propuestos más recientemente) para la detección de DIF en la escala WHODAS 2.0 en personas con esquizofrenia. Se incluyeron las respuestas de 280 participantes y se analizaron variables de tipo demográfico y clínico. Los resultados indicaron que sólo uno de los procedimientos detectó la presencia de DIF en un único ítem debido a la variable edad. Se demostró la fortaleza de estos procedimientos al no establecer a priori los puntos de corte de variables continuas y se discutieron las diferencias observadas, así como también la información complementaria que proporcionan. Aunque la evidencia aportada en este estudio está a favor de la validez de la escala, también se identificaron algunas debilidades de esta medida al ser aplicada a personas con esquizofrenia.


[eng] In general terms, the detection of differential item functioning (DIF) in a test constitutes a threat to the validity of the inferences that can be drawn from its results. Ignoring their presence or not knowing it can bring relevant social implications or consequences for those evaluated who belong to specific groups of the population. That is why today, DIF analysis has become an aspect that needs to be assessed when developing new tests or adapting and translating existing ones. For this reason, the International Test Commission (ITC) contains guidelines for translating and adapting tests, on test use, for large-scale assessment of linguistically and culturally-diverse populations, and on computer-based and internet-delivered testing, references or suggestions, so that users are aware of, or able to value the presence of DIF. After almost four decades of development, users have a large number of methods that allow the presence or absence of DIF to be analyzed. These can be based on different theoretical models of measurement and/or respond to the needs of the different evaluation fields. In this context, this thesis proposed to analyze and provide information on recent trends and developments in DIF detection methods, taking into account the main fields of application. For this purpose, three studies were designed: a systematic review study that included some bibliometric analysis, an experimental study with simulated data, and an empirical study. The systematic review study found eleven research topics in which the interest of researchers has focused on DIF detection methods. This review pointed out the most frequent values taken by certain variables in studies with simulated data, showed some trends regarding the values of these variables and presented the most frequently studied methods and those that have been studied more recently. Due to the fact that the DIF detection method based on the Rasch model was one of the most studied and presents recent developments, two studies were designed to analyze some of its procedures. On the one hand, the functioning of the Difficulty Parameter Differences procedure was analyzed in a study with simulated data under similar conditions to the national tests that evaluate the quality of education and give access to the university in Colombia. The effect of: the sample size ratio, data simulated under 1PL or 3PL models (when there is a significant influence of chance in the hits), and differences in the distribution of the attribute level, on the rates of correct detection and rates of false positives. In general terms, the results regarding the false positive rates showed that the procedure is affected when the simulation model of the data was 3PL, while the correct detection rates were more affected by the sample size ratio and by the differences in the distribution of the attribute level. The results and the practical implications derived from them were discussed. On the other hand, two Rasch trees procedures (more recently proposed) were applied for the detection of DIF on the WHODAS 2.0 scale in people with schizophrenia. The responses of 280 participants were included and demographic and clinical variables were analyzed. The results indicated that only one of the procedures detected the presence of DIF in a single item due to age. The strength of these procedures was shown by not establishing the cut-off points for continuous variables a priori, furthermore the observed differences were discussed, as well as the complementary information that the procedures provided. Although the evidence provided in this study is in favor of the validity of the scale, some weaknesses were identified when the WHODAS 2.0 scale is applied to people with schizophrenia.

Keywords

Psicometria; Psicometría; Psychometrics; Tests psicològics; Tests psicológicos; Psychological tests

Subjects

159.9 - Psychology

Knowledge Area

Ciències de la Salut

Note

Programa de Doctorat en Psicologia Clínica i de la Salut

Documents

ABB_TESIS.pdf

12.72Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)