La calidad de las preguntas de encuesta en España: una comparación transnacional - Dialnet
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
doi:10.5477/cis/reis.175.3 La calidad de las preguntas de encuesta en España: una comparación transnacional The Quality of Survey Questions in Spain: A Cross-National Comparison Oriol J. Bosch y Melanie Revilla Palabras clave Resumen Calidad de los datos La mayoría de la investigación social estudia conceptos abstractos • Errores de medición (p. ej., actitudes) mediante preguntas de encuestas. No obstante, • Experimento las encuestas adolecen de errores de medición que afectan a las MultiRasgo- conclusiones sustantivas. Cuando dichos errores difieren entre MultiMétodo países, comparar relaciones estadísticas estandarizadas entre • Investigación países puede resultar en conclusiones incorrectas. Sin embargo, la transnacional calidad de medición de las preguntas de encuestas en España no • Metodología de ha sido investigada de forma comparada. Utilizando un experimento encuestas MultiRasgo-MultiMétodo, realizado en la Encuesta Social Europea (ESS), comparamos la calidad de las preguntas en España con la de otros países. En general, la calidad de medición en España es superior a la mayoría de países participantes. Además, si no se tienen en cuenta los errores de medición al comparar España con otros países, las conclusiones sustantivas pueden ser erróneas. Key words Abstract Data Quality Most social research collects data about abstract concepts (e.g., • Measurement Errors attitudes) using survey questions. However, survey data suffer from • MultiTrait- measurement errors that affect substantive conclusions. When MultiMethod measurement errors differ across countries, cross-national comparisons Experiment of standardized relationships can result in incorrect substantive • Cross-National conclusions. However, no research has analysed the measurement Research quality of survey questions in Spain in a comparative perspective. • Survey Methodology Using a Split-Ballot Multitrait-Multimethod experiment conducted in the European Social Survey round 8, we compare the quality of questions in Spain with their quality in other participating countries. The average measurement quality in Spain is higher than the overall average for all ESS countries. In addition, when comparing Spain with other countries, substantive conclusions can be incorrect if differences in the size of measurement errors are not taken into account. Cómo citar Bosch, Oriol J. y Revilla, Melanie (2021). «La calidad de las preguntas de encuesta en España: una comparación transnacional». Revista Española de Investigaciones Sociológicas, 175: 3-26. (http:// dx.doi.org/10.5477/cis/reis.175.3) La versión en inglés de este artículo puede consultarse en http://reis.cis.es Oriol J. Bosch: The London School of Economics and Political Science y Research and Expertise Centre for Sur- vey Methodology (RECSM) - Universitat Pompeu Fabra | o.bosch-jover@lse.ac.uk Melanie Revilla: Research and Expertise Centre for Survey Methodology (RECSM) - Universitat Pompeu Fa- bra | melanie.revilla@upf.edu Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
4 La calidad de las preguntas de encuesta en España: una comparación transnacional Introducción1 aleatorios y sistemáticos, que son el com- plemento de la calidad de medición y, por La mayoría de la investigación social re- lo tanto, se pueden calcular como 1 – q2. quiere de la recopilación de datos sobre Alwin (2007) sugiere que el 50% de la conceptos abstractos como actitudes, sen- varianza (es decir, la dispersión o variabili- timientos u opiniones. Estos conceptos, dad de la distribución) de las variables ob- que corresponden a representaciones men- servadas en las encuestas se debe a erro- tales no directamente observables, sue- res de medición. Por tanto, existen grandes len operacionalizarse mediante indicadores diferencias entre la variable que los inves- empíricos, siendo las preguntas de encues- tigadores quieren medir (F) y la que real- tas el tipo más común (Saris y Gallhofer, mente mide la pregunta (Y). 2014). El tamaño de estos errores de medición Una operacionalización adecuada de depende de cómo se diseñan las pregun- estos conceptos implica diseñar preguntas tas de encuesta (por ejemplo, formulación que maximicen la fuerza de la relación es- exacta o escalas de respuesta), el idioma tadística entre el concepto latente que los y el país donde se administra la encuesta investigadores quieren medir (por ejemplo, (Liao, Saris y Zavala-Rojas, 2019), el modo felicidad, F) y los indicadores observados (cara a cara, teléfono, etc.) de recopilación (respuestas a las preguntas, Y). La fuerza de datos y, para las encuestas online, tam- de esta relación entre F e Y, cuando está bién el tipo de dispositivo utilizado para estandarizada, se llama calidad de medi- responder (Bosch et al., 2019). Esto, a su ción (q2) y puede calcularse como el pro- vez, puede tener serias implicaciones para ducto de la fiabilidad (r2) y la validez (v2) las conclusiones de la investigación. Sa- (Saris y Andrews, 1991). La fiabilidad re- ris y Gallhofer (2007) ilustraron este punto presenta la fuerza de la relación entre la utilizando datos de un experimento reali- respuesta observada (Y) y el valor verda- zado en la ronda 1 de la Encuesta Social Europea (European Social Survey, ESS) en dero (T), es decir, el valor de una pregunta Gran Bretaña: mientras que la correlación de encuesta con una escala determinada entre la confianza interpersonal y la con- si no se hubieran producido errores alea- fianza en el Parlamento medida usando torios al responder. La validez representa una escala de cuatro puntos era negativa la fuerza de la relación estadística entre y significativa (–0,15), al usar una escala el concepto de interés latente (F) y el va- de 11 puntos la misma correlación era po- lor verdadero (T) de una pregunta determi- sitiva y significativa (0,29). Sin embargo, nada. La calidad de medición toma valores ambas correlaciones contienen errores de de 0 a 1. medición. Para saber cuál es la verdadera Idealmente, la calidad de medición de- correlación entre confianza interpersonal bería ser igual a 1 (la pregunta mide per- y confianza en el Parlamento, es necesa- fectamente el concepto de interés). Sin rio obtener información sobre el tamaño embargo, en la práctica, los datos de las de los errores de medición de las diferen- encuestas adolecen de errores de medición tes escalas para corregir estos (Saris y Ga- llhofer, 2014). Sin embargo, Saris y Re- 1 Agradecimientos: Queremos agradecer al equipo villa (2016) encontraron que, para varias científico central (Core Scientific Team, CST) de la En- revistas importantes de ciencias sociales y cuesta Social Europea por su apoyo continuo a esta lí- marketing, solo el 9% de los estudios que nea de investigación. Esta investigación ha sido finan- ciada por el ESS ERIC Work Programme 1 de junio utilizaron datos de encuestas corrigió di- 2017 - 31 de mayo 2019. chos errores. Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla 5 Al realizar investigaciones transna- Este artículo contribuye de varias for- cionales, los errores de medición pue- mas a enriquecer la escasa literatura exis- den afectar la comparabilidad de los re- tente sobre las diferencias en el tamaño de sultados entre países. Cuando los errores los errores de medición entre países. En de medición varían de un país a otro, las primer lugar, nos centramos en comparar comparaciones de relaciones estandariza- España con otros países europeos. Por un das entre países pueden dar lugar a con- lado, en abril de 2019, España era un par- clusiones sustantivas erróneas (Saris y Re- ticipante fijo o rotativo de al menos 21 en- villa, 2016). Según Saris y Gallhofer (2007), cuestas transnacionales, activas hoy en día, las principales características de una pre- centradas en muestras —de individuos u gunta que pueden variar entre países y, en hogares privados— de la población gene- consecuencia, provocar diferencias en la ral (GESIS, 2019). Asimismo, en agosto de calidad de medición son: 1) las caracterís- 2019, España era el quinto país con más ticas lingüísticas, 2) los niveles de deseabi- usuarios registrados utilizando datos de la lidad social y 3) el nivel de centralidad de ESS y el sexto en términos de descargas dicha pregunta. Con respecto a las dife- de datos. Además, 77 publicaciones cien- rencias lingüísticas, los idiomas tienen dis- tíficas han utilizado datos de la ESS de Es- tintas estructuras, lo que puede conducir a paña hasta agosto de 2019 (ESS, 2019). Así diferentes niveles de calidad de medición pues, abundante investigación transnacio- entre países, incluso si se traducen correc- nal se realiza utilizando dichos datos. tamente (Zavala-Rojas, 2016). Igualmente, Por otro lado, existen evidencias de la deseabilidad social, es decir, la tenden- que España puede diferir en términos de cia de los encuestados a responder de una la calidad de los datos de encuestas en manera que consideran socialmente más comparación con otros países europeos. aceptable que su respuesta «verdadera» Por ejemplo, las tasas de respuesta (que (DeMaio, 1984), muestra diferencias inter- a menudo se utilizan como un indicador culturales sistemáticas (Johnson y Vijver, de la calidad de los datos) disminuye- 2003), siendo más alto, en particular, en ron o se estancaron en la mayoría de los sociedades colectivistas. Finalmente, los países participantes de las rondas 1 a temas de las preguntas pueden tener dife- 7 de la ESS, mientras que aumentaron rentes niveles de importancia o estar más en España (Beullens et al., 2018). Para o menos presentes en el debate público, lo otros indicadores comúnmente utilizados que significa que su centralidad (o promi- para inferir la calidad de los datos, tales nencia), es decir, el grado en que el tema como la aquiescencia y el estilo de res- de cualquier pregunta resuena con el en- puesta extremo, se ha descubierto que cuestado y la cantidad de información dis- son más presentes en países mediterrá- ponible, también puede variar entre países neos como España que en otros países (Couper y Leeuw, 2003). europeos como Alemania o Gran Bretaña La investigación realizada hasta ahora, (Herk, Poortinga y Verhallen, 2004). Esto por ende, sugiere que existen diferencias podría estar relacionado con el hecho de en el tamaño de los errores de medición en- que la aquiescencia aumenta cuando los tre países y que, dichas diferencias, pueden niveles de colectivismo y corrupción son afectar a las comparaciones entre países. más elevados en un país (Rammstedt, Aun con todo, solo unos pocos estudios Danner y Bosnjak, 2017), presentando Es- han explorado las diferencias transnacio- paña niveles moderados de colectivismo nales en cuanto al tamaño de los errores de (Beilmann, Kööts-Ausmees y Realo, 2018; medición. Leung et al., 1992) y de percepción de la Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
6 La calidad de las preguntas de encuesta en España: una comparación transnacional corrupción (Transparency International, calas «de acuerdo-en desacuerdo» [agree- 2019). Además, teniendo en cuenta que disagree scales] versus escalas específicas la deseabilidad social es mayor en las so- [item-specific scales] y variaciones en el ciedades colectivistas (Johnson y Vijver, número de categorías de respuesta en es- 2003), esto podría dar lugar a niveles de calas «de acuerdo-en desacuerdo»). Ade- errores de medición en España distintos más, ninguno de ellos se centra en las dife- comparado con otros países europeos. En rencias entre países ni en las implicaciones general, pues, se puede esperar que Es- de estas diferencias para la investigación paña muestre una calidad de datos dife- transnacional, específicamente cuando se rente a la de otros países europeos. trata de comparar España con otros países Sin embargo, muy pocos estudios han europeos. analizado la calidad de medición (q2) de las En segundo lugar, nos centramos, a di- preguntas de encuesta (como se definió ferencia de anteriores estudios, en distintas anteriormente) en España en comparación características de las preguntas (por ejem- con otros países europeos, con dos nota- plo, el nivel de correspondencia entre los bles excepciones: números y las etiquetas verbales o el hecho de mostrar las preguntas en las tarjetas que 1) Saris et al. (2010), utilizando experimen- se facilitan a los participantes). De esta ma- tos MultiRasgo-MultiMétodo (MultiTrait- nera, podemos brindar información útil para MultiMethod, MTMM) de las rondas 2 ayudar a diseñar diferentes aspectos de los (2004) y 3 (2006) de la ESS, estimaron cuestionarios, sobre los que aún falta evi- la calidad de medición de 12 preguntas dencia empírica. sobre cuatro temas: «la distancia social entre médicos y pacientes», «opinión En tercer lugar, ilustramos las impli- sobre el trabajo», «opinión sobre políti- caciones para la investigación sustantiva cas de inmigración» y «opinión sobre las (en particular transnacional) de no tener en consecuencias de la inmigración». Los cuenta los errores de medición. Si bien in- autores descubrieron que, en general, vestigaciones anteriores (por ejemplo, Sa- España tiene una calidad de medición ris y Revilla, 2016) presentaron un método superior a la media de la ESS. para corregir los errores de medición, las aplicaciones prácticas para la investigación 2) Revilla, Saris y Krosnick (2014), utili- transnacional aún son escasas. zando experimentos MTMM de la ronda 3 de la ESS, estimaron la calidad de 12 Por último, proporcionamos recomen- preguntas sobre cuatro temas: los mis- daciones prácticas a investigadores y pro- mos temas mencionados anteriormente fesionales interesados en realizar investiga- de «opinión sobre políticas de inmigra- ciones transnacionales utilizando datos de ción» y «opinión sobre consecuencias encuestas de España. Estas recomenda- de la inmigración», así como «senti- ciones son útiles tanto para los investigado- mientos sobre la vida y las relaciones» res que diseñan sus propios cuestionarios y «apertura al futuro». Encontraron una como para aquellos que utilizan datos de calidad de medición superior en España encuestas existentes, como la ESS. Para a la media de los países participantes en ello, utilizamos datos de un experimento dicha ronda de la ESS. MTMM sobre «actitudes hacia la califica- ción de entrada o exclusión de inmigrantes» Sin embargo, ambos artículos son muy que se realizó mediante entrevistas presen- específicos respecto al tipo de comparacio- ciales en 23 países durante la ronda 8 de la nes que les interesan (respectivamente, es- ESS (2016-2017). Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla 7 Método mos que cada método corresponde a una escala de respuesta (por ejemplo, escala de El modelo True Score MTMM 6 puntos o de 11 puntos) y que los mismos encuestados responden a las mismas pre- Para explorar la calidad de medición en Es- guntas varias veces, utilizando los diferen- paña en comparación con otros países eu- tes métodos. Más precisamente, utilizamos ropeos, estimamos la calidad de medición el modelo True Score («Valor verdadero») utilizando datos de un experimento MTMM. propuesto por Saris y Andrews (1991) que El enfoque MTMM, introducido por primera además permite estimar por separado los vez por Campbell y Fiske en 1959, con- coeficientes de fiabilidad, validez y método. siste en repetir un conjunto de preguntas Esto es una ventaja, ya que a menudo se que miden conceptos latentes simples co- ven afectados de manera diferente por los rrelacionados entre ellos (por ejemplo, opi- cambios en las características de la pre- niones sobre inmigración), llamados rasgos gunta. (Fi), utilizando varios métodos (Mj). En 1971, El modelo True Score se puede resumir Jöreskog propuso tratar las matrices MTMM con el siguiente sistema de ecuaciones: como un modelo de Análisis Factorial Con- firmatorio (Confirmatory Factor Analysis, Yij = rij Tij + eij (1) CFA). En 1984, Andrews sugirió utilizar el Tij = vij Fi + mij Mj (2) enfoque MTMM para evaluar la calidad de medición de preguntas individuales a través donde Fi es el rasgo o factor i, Mj es el mé- de Modelos de Ecuaciones Estructurales todo j, Yij es la respuesta observada por el (Structural Equation Modeling, SEM), utili- rasgo i y el método j, Tij es el componente zando un modelo en el que los efectos de sistemático de la respuesta por el rasgo i los métodos se suman (additive method y método j llamado true score factor, rij es effect model). En contraste, Browne (1984) el coeficiente de fiabilidad (cuando se es- y Cudeck (1989) propusieron un modelo en tandariza), vij es el coeficiente de validez el que esos efectos se multiplican (multipli- (cuando se estandariza), y eij es el error cative method effect model). Corten et al. aleatorio asociado con Yij. (2002) mostraron que un modelo aditivo de- pendiente de la escala (scale-dependent La ecuación (1) define cada variable ob- additive model) funciona mejor que otros servada (Yij) como la suma de los asociados cuatro modelos multiplicativos y/o inva- true score (Tij) y los errores aleatorios (eij). riantes de escala (scale-invariant). Por otro La ecuación (2) indica que cada true score lado, Saris y Aalberts (2003) demostraron (Tij) es en sí mismo la suma del componente que la presencia de efectos de método es del rasgo (Fi) y el efecto de método usado una mejor explicación para los términos para medirlo (Mj). perturbativos correlacionados en los expe- Como punto de partida para este mo- rimentos MTMM en comparación con otras delo, asumimos que: a) los errores alea- posibles explicaciones como las respuestas torios no están correlacionados entre sí ni relativas, la aquiescencia o variaciones en con las variables independientes en las di- las funciones de respuesta. Por lo tanto, en ferentes ecuaciones, b) los rasgos están este estudio utilizamos un modelo en el que correlacionados, c) los factores del mé- los efectos de los métodos se suman y son todo no están correlacionados entre ellos dependientes de la escala (scale-dependent ni con los rasgos, y d) el impacto del factor additive method effects model). Siguiendo del método sobre los rasgos medidos con el enfoque de Andrews (1984), considera- una escala común es el mismo. Al testear el Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
8 La calidad de las preguntas de encuesta en España: una comparación transnacional modelo, algunas de las asunciones hechas En el interés de conseguir un modelo en este modelo base se pueden relajar si es identificado, el modelo MTMM general- necesario (ver sección «Análisis y testeo de mente repite tres rasgos, cada uno medido los MTMM»), hasta que se pueda obtener con tres métodos, resultando en nueve va- un modelo final con buen ajuste. riables observadas. Por tanto, cada encues- Una vez hecho esto, la calidad total de tado debe responder la misma pregunta medición se puede obtener tomando el tres veces con diferentes escalas. La figura producto de la fiabilidad y la validez (el cua- 1 ilustra un modelo True Score MTMM para drado de sus coeficientes): qij2 = rij2 * vij2 tres rasgos y tres métodos. FIGURA 1. Modelo True Score MTMM para tres rasgos y tres métodos Y₁₁ Y₂₁ Y₃₁ Y₁₂ Y₂₂ Y₃₂ Y₁₃ Y₂₃ Y₃₃ e₁₁ e₂₁ e₃₁ e₁₂ e₂₂ e₃₂ e₁₃ e₂₃ e₃₃ Fuente: Elaboración propia. El enfoque Split-Ballot MTMM una combinación de dos métodos para un conjunto dado de tres rasgos, en lugar de Con el fin de reducir la carga cognitiva de obtener tres métodos. Con esto se pueden los encuestados y los posibles efectos de estimar todos los coeficientes de fiabilidad memoria debido a la repetición de las mis- y validez. El modelo es normalmente identi- mas preguntas a los mismos encuesta- ficado en condiciones generales cuando se dos (Meurs y Saris, 1990), Saris, Satorra y utiliza un diseño de Split-Ballot (Saris, Sa- Coenders (2004) propusieron combinar el torra y Coenders, 2004). Es posible dividir enfoque MTMM con un diseño donde los a los encuestados en diferentes números encuestados se asignan al azar a varios de grupos, incluso con tamaños de muestra grupos (llamado diseño Split-Ballot; SB), desiguales (Revilla, Bosch y Weber, 2019). los cuales reciben un cuestionario ligera- Dado que los problemas de no conver- mente distinto al otro. Cada grupo obtiene gencia y valores inválidos ocurren con fre- Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla 9 cuencia para el diseño de dos grupos (Revilla cambios consisten en: 1) permitir efectos y Saris, 2013), en la ronda 8, la ESS imple- desiguales de un método sobre los valo- mentó un diseño de tres grupos. El grupo 1 res verdaderos correspondientes a los dife- respondió al método 1 (M1) en el momento 1 rentes rasgos, 2) liberar las varianzas de los (Sección C) y al método 2 (M2) en el momento términos de error entre los grupos de Split- 2 (Sección I). El grupo 2 respondió al M2 en Ballot para tener en cuenta el hecho de el momento 1 y al método 3 (M3) en el mo- que los errores aleatorios pueden diferir en mento 2. Finalmente, el grupo 3 respondió al los momentos 1 y 2 (por ejemplo, porque M3 en el momento 1 y al M1 en el momento 2. los encuestados se cansan con el tiempo), Con este diseño se observan todas las posi- 3) agregar una correlación entre dos facto- bles correlaciones entre métodos. res de método con características de es- calas similares, y 4) permitir correlaciones entre varianzas de los términos de error Análisis y testeo de los MTMM debido a efectos de memoria. Para poder comparar los resultados entre países e idio- Los coeficientes de fiabilidad y validez se mas, primero consideramos introducir co- estiman usando CFA (modelo True Score rrecciones similares en los diferentes gru- presentado anteriormente) y LISREL 8,72 pos de países e idiomas. Sin embargo, no (Jöreskog y Sörbom, 1996). LISREL uti- es siempre posible. Las correcciones fina- liza algoritmos complejos que minimizan les del modelo realizadas en cada análisis los residuos, teniendo en cuenta todas las se resumen en el apéndice B, junto con di- restricciones del modelo. El método utili- ferentes indicadores del ajuste del modelo. zado para la estimación en cada país es el Después de realizar los análisis y testear de Máxima Verosimilitud (Maximum Likeli- los modelos MTMM, calculamos la calidad hood) para análisis de grupos múltiples (los de medición para los diferentes rasgos y diferentes grupos son los grupos de Split- métodos. Ballot). Nos referimos al apéndice A para un ejemplo del código base de LISREL y a Hox y Bechger (1998) para una introducción en Corrección por errores de medición profundidad a los Modelos de Ecuaciones Estructurales. Las relaciones estadísticas estandarizadas Para probar si hay problemas debidos a entre variables observadas, como las co- especificaciones incorrectas, utilizamos el rrelaciones o los coeficientes de regresión, software JRule (Veld, Saris y Satorra, 2008) se ven afectadas por los errores de medi- basado en el procedimiento desarrollado ción. Por ejemplo, Saris y Revilla (2016), uti- por Saris, Satorra y Veld (2009). JRule tiene lizando datos de la ronda 3 de la ESS de la ventaja de tener en cuenta el poder esta- Gran Bretaña, encontraron que la correla- dístico (es decir, la probabilidad de acep- ción de «permitir que más inmigrantes ven- tar una hipótesis nula falsa). También testea gan a Gran Bretaña» con la opinión de que las especificaciones incorrectas a nivel de los inmigrantes hacen del país un lugar peor parámetro, es decir, testea si cada paráme- para vivir cambió de –0,27 (sin corrección) a tro está mal especificado en vez de testear –0,61 (corrección), mientras que la correla- todo el modelo a la vez. ción con la opinión de que la inmigración Esto lleva en muchos casos a la intro- es mala para la economía pasó de 0,13 (sin ducción de correcciones con respecto a las corrección) a 0,00 (corrección). asunciones del modelo base presentado en Para estimar las verdaderas relaciones las ecuaciones 1 y 2. Principalmente, los (es decir, las relaciones entre los concep- Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
10 La calidad de las preguntas de encuesta en España: una comparación transnacional tos de interés), es necesario corregir por CMV = r1 m1 m2 r2 (4) los errores de medición. En el marco de las comparaciones entre países, asimismo, Los coeficientes del efecto de método un requisito para comparar las relaciones se pueden calcular como: estadísticas estandarizadas usando varia- bles observadas es tener niveles similares mi = (1− v i2 ) (5) de calidad de medición en dichos países. Dicho de otra manera, si el tamaño de los errores de medición difiere entre países, no La ecuación 3 establece que la correla- se debería realizar comparaciones directas ción entre las variables latentes se puede de relaciones estadísticas estandarizadas obtener restando el CMV a la correlación sin corregir primero por los errores de me- entre las variables observadas ρ(Y1, Y2) y dición. luego dividir por el producto de los coefi- cientes de calidad de medición de las dos Hay diferentes formas de corregir por preguntas (q1 q2). los errores de medición (véanse DeCas- tellarnau y Saris, 2014; Saris y Gallhofer, Se espera CMV cuando las dos varia- 2014). La corrección de dichos errores de bles observadas se miden con la misma es- medición se puede realizar para diferen- cala, lo que lleva a una reacción sistemática tes tipos de análisis, incluidas correlacio- de los encuestados a la escala. Por ejem- nes, regresiones lineales simples, SEM, plo, en una escala sin un punto medio neu- etc. Este artículo se centra en una ilustra- tral, algunos encuestados con una verda- ción que compara la correlación entre dos dera posición neutral pueden seleccionar conceptos simples, cada uno medido por sistemáticamente la opción más cercana una sola pregunta2. En el caso que ilustra- en el lado positivo, mientras que otros se- mos, imaginemos que unos investigadores leccionan sistemáticamente la opción más observan la correlación entre las respues- cercana en el lado negativo, y otros se sal- tas a dos preguntas individuales ρ(Y1, Y2), tan sistemáticamente la pregunta. Por lo pero están interesados en la correlación tanto, los investigadores pueden esperar entre los conceptos latentes detrás de una correlación adicional entre las variables cada una de las dos preguntas, es decir, la observadas, no vinculada al contenido de correlación corregida por errores de medi- las preguntas en sí, sino a la reacción sis- ción ρ(F1, F2). Saris y Gallhofer (2014: 310) temática de los encuestados a un método proporcionan una fórmula para corregir la compartido. correlación entre las variables observadas Los coeficientes de calidad de medición ρ(Y1, Y2) y obtener la correlación entre las de las dos preguntas deben estimarse en un variables latentes ρ(F1, F2): paso anterior, por ejemplo, utilizando experi- mentos MTMM o el software Survey Quality ρ(F1, F2) = [ρ(Y1, Y2) – CMV ]/q1 q2 (3) Predictor (SQP) 2.1 (Saris et al., 2011), que genera semiautomáticamente predicciones donde CMV significa Varianza del Método de calidad de medición de preguntas de en- Común (Common Method Variance) y se cuesta utilizando un rico conjunto de datos calcula como el producto de los coeficien- de experimentos MTMM previos y algorit- tes de fiabilidad (ri) y los del efecto de mé- mos de bosques aleatorios (random forests). todo (mi) de ambas variables observadas: Al comparar las correlaciones sin y con corrección por errores de medición en un 2Para ejemplos mas complejos, nos referimos a De- conjunto de países diferentes (incluido Es- Castellarnau y Saris (2014) y Saris y Revilla (2016). paña), mostraremos cómo cambian las con- Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla 11 clusiones sustantivas cuando los errores de dice C). Las tasas de respuesta para la medición se tienen en cuenta o no. ronda 8 también varían entre países, osci- lando entre el 30,6% (Alemania) y el 74,4% (Israel), con una tasa de respuesta del Datos 67,7% en España y una tasa de respuesta Ronda 8 de la Encuesta Social Europea media del 55,4% (ESS, 2017). El experimento MTMM se llevó a cabo La ESS (http://www.europeansocialsurvey. en 23 de los países participantes. En paí- org/about/faq.html) es una encuesta in- ses multilingües, la ESS realiza las encues- ternacional realizada en Europa cada dos tas en diferentes idiomas (por ejemplo, ca- años desde 2001. La ESS realiza entrevis- talán y español en España). Dado que el tas cara a cara de aproximadamente una idioma puede afectar la calidad de la me- hora y selecciona nuevas muestras trans- dición (Saris y Gallhofer, 2014; Zavala-Ro- versales para cada ronda. El cuestionario jas, 2016), analizamos cada idioma por se- combina una sección central que se repite parado. Sin embargo, el modelo MTMM en cada ronda y módulos rotativos específi- no se puede estimar para idiomas con un cos de cada ronda. número reducido de observaciones (por El trabajo de campo de la octava ronda ejemplo, catalán en España; consulte el se llevó a cabo entre marzo de 2016 y di- apéndice C para obtener una lista com- ciembre de 2017 (datos de la octava ronda pleta). Así pues, analizamos 27 grupos co- de la Encuesta Social Europea, 2016). Los rrespondientes a los grupos lingüísticos tamaños de las muestras oscilan entre 880 con tamaño muestral suficiente existen- (Islandia) y 2.852 (Alemania), estando Es- tes en cada uno de los países disponibles paña en el medio (N = 1.958, véase el apén- (grupos país-idioma). TABLA 1. Preguntas de encuesta incluidas en el experimento MTMM de la ronda 8 de la ESS Rasgo Formulación general de las preguntas ¿Qué importancia debería darse a tener un buen nivel educativo en la decisión de Nivel educativo permitir o no a una persona que ha nacido y vivido siempre fuera de [país], venir a vivir aquí? ¿Qué importancia debería darse a ser de un país de tradición cristiana en la deci- Tradición cristiana sión de permitir o no a una persona venir a vivir aquí? ¿Qué importancia debería darse a tener una cualificación de las que [país] necesita Cualificación laboral en la decisión de permitir o no a una persona venir a vivir aquí? Fuente: Elaboración propia. El experimento MTMM o exclusión de inmigrantes», respectiva- mente la importancia de tener: 1) un buen El experimento evalúa tres rasgos medi- nivel educativo, 2) una tradición cristiana3, dos cada uno con tres métodos. Los ras- gos pretenden medir tres aspectos del con- cepto complejo «calificación para la entrada 3 Para Israel, «cristiana» se sustituye. Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
12 La calidad de las preguntas de encuesta en España: una comparación transnacional y 3) cualificaciones laborales necesarias en Con respecto a los métodos, la tabla 2 el país, para estar cualificado para entrar en resume las características que varían entre dicho país. La tabla 1 presenta el redactado métodos y proporciona las etiquetas de los general de cada pregunta4. puntos finales para cada escala. TABLA 2. Variación en las características y etiquetas de los puntos finales en cada escala M1 M2 M3 Núm. de puntos 11 10 6 Formato Batería Preguntas separadas Batería Características Núm. puntos de referencia fijos 2 2 1 Correspondencia Alta Media Alta Preguntas en la tarjeta No Sí No 0 1 0 Primera categoría Nada importante Nada importante Nada importante Etiquetas 10 10 5 Última categoría Extremadamente Extremadamente Muy importante importante importante Fuente: Elaboración propia. Cinco aspectos varían: y M2 presentan dos puntos de referen- cia fijos, mientras que M3 presenta solo 1) El número de categorías de respuesta: uno. M 1 es una escala impar (11 puntos), mientras que M2 y M3 son escalas pares 4) La correspondencia entre los números y (10 y 6 puntos, respectivamente). las etiquetas verbales en la escala (por ejemplo, 0 representa mejor la idea de 2) Preguntas separadas o batería (es de- «Para nada» que 1): M1 y M3 presentan cir, varias preguntas que comparten la una correspondencia alta mientras que misma escala se presentan juntas, la M2 presenta una correspondencia me- escala se repite solo una vez): M1 y M3 dia. presentan las preguntas en formato de batería, mientras que M 2 las presenta 5) La presentación de la pregunta en las como preguntas separadas. tarjetas que se enseñan a los partici- pantes: por lo general, las tarjetas que 3) El número de puntos de referencia fijos la ESS proporciona (es decir, las tarje- (es decir, categorías de respuesta que tas que se presentan a los encuesta- «no establecen ninguna duda sobre la dos para brindar ayuda visual a la vez posición del punto de referencia en la que el entrevistador hace las preguntas) escala subjetiva en la mente del encues- no contienen la pregunta sino solo las tado»; Saris y Gallhofer, 2014: 110): M1 opciones de respuesta. En este experi- mento, en M2 las preguntas se muestran 4 Para el redactado específico de cada método, véase en las tarjetas, mientras que en M1 y M3 el apéndice D. no. Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla 13 Ilustración de las implicaciones para la y tres métodos. Dado que presentar todas las investigación sustantiva transnacional de 243 estimaciones de calidad de medición no no corregir por los errores de medición es práctico, primero agregamos todos los paí- ses y presentamos los resultados para cada Para ilustrar la implicación de no corregir por rasgo y método en comparación con España. los errores de medición en la investigación Luego, agregamos los rasgos y presentamos transnacional, comparamos las correlaciones, los resultados para cada país y método. De antes y después de corregirlas por los errores esa manera, podemos comparar la calidad de medición, entre la importancia que se le de las mediciones, primero, entre rasgos y, da a que un individuo venga de tradición cris- segundo, entre países. Finalmente, presenta- tiana y la importancia que se les da a sus cua- mos un ejemplo de las implicaciones sustan- lificaciones laborales al momento de decidir si tivas de no corregir los errores de medición al alguien nacido, criado y que vive en el exterior comparar España con otros siete países. debe poder ir a vivir a un país determinado. En aras de la simplicidad, en esta ilustración nos enfocamos únicamente en uno de los Calidad promedio en todos los grupos de métodos. Elegimos M3 (escala de 6 puntos países e idiomas, por rasgo y método en formato de batería, con un punto de refe- La tabla 3 presenta la calidad de medición rencia fijo, alta correspondencia en la escala en España, así como la calidad media, mí- y que no proporciona la pregunta en la tarjeta nima y máxima en los otros 26 grupos país- que se enseña al participante), porque, para idioma (excluido España) para los diferentes España, presenta una de las calidades más rasgos y métodos. bajas. Ilustramos las implicaciones para ocho países: Alemania, España, Francia, Finlandia, Para todos los grupos país-idioma, ras- Italia, Noruega, Portugal y Suecia. gos y métodos, la calidad más alta obtenida es 0,99 (tradición cristiana-M1) mientras que la más baja es 0,39 (cualificaciones labora- Resultados les-M1). Esto significa que entre el 1% (tradi- ción cristiana-M1) y el 61% (cualificaciones Nuestros análisis estiman la calidad de medi- laborales-M1) de la varianza en las respuestas ción para 27 grupos país-idioma, tres rasgos observadas proviene de errores de medición. TABLA 3. C alidad de medición (q2) en España y media, mínima y máxima calidad de medición de los otros 26 grupos país-idioma, por rasgo y método Nivel Tradición Cualificación Media de los educativo cristiana laboral rasgos Calidad q2 M1 M2 M3 M1 M2 M3 M1 M2 M3 M1 M2 M3 Media 26 grupos 0,73 0,64 0,72 0,83 0,71 0,75 0,76 0,68 0,72 0,77 0,68 0,73 Máximo 26 grupos 0,90 0,85 0,87 0,99 0,85 0,92 0,92 0,86 0,85 0,90 0,82 0,85 Mínimo 26 grupos 0,56 0,41 0,41 0,41 0,57 0,64 0,39 0,54 0,42 0,53 0,54 0,49 España 0,85 0,69 0,64 0,87 0,73 0,70 0,88 0,72 0,64 0,87 0,71 0,66 Nota: Las estimaciones de calidad toman valores entre 0 y 1, representando 1 una relación perfecta entre la respuesta ob- servada y el concepto de interés latente. Fuente: Elaboración propia. Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
14 La calidad de las preguntas de encuesta en España: una comparación transnacional Asimismo, M1 presenta una calidad más Calidad promedio en todos los rasgos, alta en promedio para los 26 grupos país- por grupo país-idioma y método idioma y para España, para todos los ras- gos. Sin embargo, existen algunas diferen- A continuación, las diferencias entre paí- cias entre España y la media de los otros ses se analizan con más detalle, esta vez 26 grupos. Primero, aunque M1 es el que agregando a nivel de rasgos. La tabla 4 tiene un mejor rendimiento en ambos ca- presenta la calidad promedio en todos los sos, las estimaciones de calidad en España rasgos, por grupo país-idioma y método, son especialmente buenas para todos los así como la posición de cada grupo país- rasgos. Las estimaciones de calidad tam- idioma en el ranking, para cada método. bién son más altas para M2 en España que Primeramente, la calidad de la medi- la media de todos los demás grupos país- ción entre países y métodos varía de 0,53 idioma. Sin embargo, para M3, la calidad en (Estonia-Ruso-M1) a 0,88 (Islandia-M1). Por España está por debajo de la media de to- lo tanto, en todos los métodos y países, la dos los demás grupos país-idioma. Por otro varianza explicada por los errores de me- lado, en España, M2 presenta una mayor dición va del 12% (Islandia-M1) al 47% (Es- calidad que M3 en todos los rasgos, mien- tonia-Ruso-M1). Entonces, existen grandes tras que para la media de los demás gru- diferencias en la calidad de medición en- pos país-idioma la tendencia es opuesta. tre los diferentes grupos país-idioma. La Por lo tanto, aunque los formatos de bate- tendencia general es que M1 (escala de 11 ría pueden sufrir del fenómeno de no dife- puntos en formato de batería, con dos pun- renciación (Saris y Gallhofer, 2014), en ge- tos de referencia fijos, alta corresponden- neral recomendamos utilizar una escala de cia entre números y etiquetas verbales y 11 puntos presentada en formato de bate- sin preguntas en las tarjetas) se desempeña ría, con dos puntos de referencia fijos, alta mejor que M2 y M3. Además, los países del correspondencia entre números y etiquetas centro y norte de Europa presentan, en ge- verbales, y ninguna pregunta en la tarjeta neral, una calidad de medición más alta que en lugar de los otros dos métodos, para sus homólogos del este y del sur. medir los tres indicadores estudiados para Comparando España con los demás, el concepto «calificación de ingreso o ex- España tiene la cuarta calidad más alta para clusión de inmigrantes». M1 y la décima más alta para M2. Sin em- En cuanto a las diferencias entre ras- bargo, para M3, España presenta la cuarta gos, la «tradición cristiana» alcanza la ca- calidad más baja. Por lo tanto, existen di- lidad de medición promedio más alta para ferencias importantes entre los métodos todos los métodos, para España y en pro- para España, los cuales deben tenerse en medio para los demás grupos de países e cuenta. Primero, usar una escala de 11 idiomas. Esto es interesante ya que se po- puntos presentada en un formato de bate- dría pensar que sería el rasgo con mayor ría, con dos puntos de referencia fijos, alta propensión a generar sesgos de deseabi- correspondencia entre números y etiquetas lidad social, considerándose la religión un verbales, y ninguna pregunta en la tarjeta tema delicado. Finalmente, las diferen- funciona mucho mejor en España que en la cias entre rasgos son consistentes para mayoría de los grupos de países e idiomas. España y la media de los otros grupos de En segundo lugar, una escala de 6 puntos países e idiomas. Aunque España presenta en formato de batería, con un solo punto diferentes estimaciones de calidad, la re- de referencia fijo, alta correspondencia en- lación entre las estimaciones de calidad y tre números y etiquetas verbales, y sin pre- los rasgos es similar. guntas en la tarjeta, se comporta peor en Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla 15 España que en la mayoría de los grupos de entre países afectan el tamaño de los erro- países e idiomas analizados. Esto sugiere res de medición asociados con diferentes que las diferencias culturales y lingüísticas métodos. TABLA 4. Calidad media (q2) de los rasgos agregados, por grupo país-idioma y método Calidad media de los tres rasgos Ranking M1 M2 M3 M1 M2 M3 Austria 0,74 0,67 0,79 20 14 7 Bélgica-Neerlandés 0,83 0,70 0,74 9 11 13 Bélgica-Francés 0,87 0,58 0,68 5 25 20 República Checa 0,79 0,69 0,69 13 13 18 Estonia-Estonio 0,77 0,58 0,72 16 24 14 Estonia-Ruso 0,53 0,63 0,69 27 19 19 Finlandia 0,90 0,75 0,74 1 5 12 Francia 0,82 0,54 0,67 11 27 21 Alemania 0,77 0,80 0,76 15 3 10 Gran Bretaña 0,72 0,73 0,71 21 8 15 Hungría 0,70 0,61 0,64 22 22 25 Islandia 0,88 0,82 0,85 2 1 1 Irlanda 0,83 0,61 0,49 10 23 27 Israel-Árabe 0,88 0,80 0,78 3 2 8 Israel-Hebreo 0,76 0,63 0,62 18 20 26 Italia 0,68 0,57 0,84 24 26 2 Lituania 0,69 0,63 0,81 23 18 5 Países Bajos 0,80 0,65 0,77 12 17 9 Noruega 0,84 0,74 0,82 7 6 4 Polonia 0,75 0,73 0,71 19 9 22 Portugal 0,67 0,61 0,75 25 21 11 Rusia 0,66 0,66 0,83 26 15 3 Eslovenia 0,79 0,66 0,66 14 16 24 España 0,87 0,71 0,66 4 10 23 Suecia 0,83 0,74 0,79 8 7 6 Suiza-Francés 0,85 0,69 0,71 6 12 16 Suiza-Alemán 0,76 0,78 0,70 17 4 17 Fuente: Elaboración propia. Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
16 La calidad de las preguntas de encuesta en España: una comparación transnacional Implicaciones sustantivas para la excepto en Italia. Para España la correlación investigación transnacional: una ilustración pasa de 0,41 a 0,46. Sin embargo, el cam- bio no es homogéneo entre países: mientras Los resultados demuestran que existen di- que para Finlandia la correlación aumenta ferencias no despreciables entre España y 0,09 puntos, para Italia se reduce en 0,03 otros grupos país-idioma. Esto puede tener puntos. En consecuencia, comparar países importantes implicaciones en la investiga- que utilizan correlaciones sin corrección en ción transnacional cuando no se tienen en lugar de correlaciones con corrección por cuenta los errores de medición. errores de medición lleva a conclusiones La tabla 5 presenta las correlaciones sustantivas diferentes. En particular, en tér- sin y con corrección por errores de medi- minos del ranking, sin corrección por errores ción para cada país, ordenadas de mayor de medición, Italia presenta la cuarta corre- a menor correlación corregida. Además, lación más alta mientras que con correc- presenta el ranking de cada país (1 signi- ción, presenta la más baja. Por lo tanto, si fica la correlación más alta) para correla- los investigadores quisieran comparar la co- ciones sin y con corrección por errores de rrelación entre «tradición cristiana» y «cuali- medición. ficación laboral» para España e Italia, no co- Podemos ver un aumento en las correla- rregir por los errores de medición llevaría a ciones al corregir por errores de medición, conclusiones erróneas. TABLA 5. Coeficientes de correlación y ranking sin y con corrección Correlación Ranking Sin corrección Con corrección Sin corrección Con corrección Finlandia 0,47 0,56 1 1 Suecia 0,41 0,47 2 2 España 0,41 0,46 3 3 Noruega 0,39 0,44 5 4 Portugal 0,38 0,43 6 5 Alemania 0,36 0,42 7 6 Francia 0,35 0,40 8 7 Italia 0,40 0,37 4 8 Fuente: Elaboración propia. Discusión y conclusiones En general, para los tres rasgos consi- derados, encontramos que la calidad de Resultados principales medición varía mucho entre países, desde un promedio (de todos los métodos y ras- Nuestro principal objetivo ha sido comparar gos) de 0,62 en Estonia-Ruso a 0,85 en la calidad de medición de las preguntas de Islandia, lo que significa que en prome- las encuestas en España con otros países eu- dio entre el 62% y el 85% de la varianza ropeos, ya que la investigación existente cen- en las respuestas observadas se debe a trada en España desde una perspectiva com- los conceptos de interés latentes mien- parativa, aunque relevante, es aún escasa. tras que del 15% al 38% se debe a errores Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla 17 de medición. Los países del centro y norte nada en similar medida con la creencia de de Europa presentan, en general, una ma- que los inmigrantes que presentan cualifi- yor calidad de medición. Esto podría es- caciones laborales necesarias en dicho país tar relacionado con el hecho de que los están más cualificados para su ingreso. Sin países con bajos niveles de colectivismo embargo, la correlación corregida por erro- y corrupción son menos propensos a la res de medición fue mayor para España que deseabilidad social (Rammstedt, Danner para Italia, lo que apunta a una conclusión y Bosnjak, 2017) y/o a las diferencias lin- sustantiva diferente: aunque España e Italia güísticas. tienen un nivel similar de religiosidad (Evans Además, la calidad de medición de los y Baronavski, 2018), la relación entre la pro- tres rasgos considerados fue superior para veniencia de una tradición cristiana y las España que para la media de los otros 26 cualificaciones laborales es más fuerte para grupos país-idioma analizados. Estos re- España. Esta diferencia entre las correlacio- sultados van en línea con investigaciones nes con y sin corrección entre España e Ita- previas sobre la calidad de medición (Saris lia se relaciona principalmente con la dife- et al., 2010; Revilla, Saris y Krosnick, 2014) rencia en la calidad de medición de ambos basadas también en datos de ESS. países (0,18 puntos menos en España que en Italia), y en menor medida a la diferen- Sin embargo, existen diferencias entre cia en CMV (0,04 más alto en España que los métodos. M1 presenta un rendimiento en Italia). Después de corregir utilizando la especialmente bueno en España en compa- ecuación 3, España presenta una correla- ración con la mayoría de los demás países, ción verdadera más alta que Italia. Esto in- y ocupa el cuarto lugar de los 27 grupos dica que, aunque España presenta un CMV país-idioma. Sin embargo, para M3, Es- algo más alto, la calidad notablemente más paña presenta la cuarta estimación de cali- baja en España llevó a una subestimación dad más baja. Por tanto, aunque en general de la correlación en comparación con la so- España presenta una calidad de medición breestimación de Italia. superior, los investigadores no deberían asumir una calidad superior a la media en España para cualquier método. Al contrario, Límites y futura investigación deberían considerar que algunos métodos pueden funcionar mejor y otros peor en Es- Estos resultados presentan algunas limitacio- paña que en otros países. nes. Primero, estos hallazgos son específicos No considerar las potenciales diferen- para los temas analizados y los métodos uti- cias en el tamaño de los errores de medi- lizados y no deben ser generalizados a otras ción al comparar España con otros países preguntas o métodos. En segundo lugar, de- afecta a las conclusiones de fondo. En pri- bido al reducido tamaño de la muestra, no se mer lugar, en nuestra ilustración, las corre- pudieron analizar algunos idiomas. En parti- laciones observadas fueron mayormente cular, no hemos podido utilizar a los encues- subestimadas. Además, los rankings de tados de habla catalana, lo que no permite países con mayor y menor correlación con comparar las estimaciones de calidad entre y sin corrección difirieron substancialmente. los idiomas de España. Sin embargo, con- En particular, sin corrección, España e Ita- siderando que otros países presentan dife- lia presentaron correlaciones similares. Esto rentes calidades de medición en función del sugiere que, para ambos países, la creencia idioma de administración, podríamos espe- de que venir de tradición cristiana es impor- rar lo mismo para España. Una investigación tante para que los inmigrantes estén cualifi- adicional podría explorar específicamente las cados para ingresar al país esta correlacio- diferencias entre el catalán y el español. Ade- Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
18 La calidad de las preguntas de encuesta en España: una comparación transnacional más, los experimentos MTMM no son los tes» en España recomendamos utilizar M1 más adecuados para explicar por qué en al- (escala de 11 puntos en formato de bate- gunos países la calidad es más alta que en ría, con dos puntos de referencia fijos, alta otros. Futuras investigaciones podrían cen- correspondencia entre números y etiquetas trarse en encontrar explicaciones. También, verbales y ninguna pregunta en las tarjetas solo hemos ilustrado cómo corregir las corre- que se enseñan a los participantes) en lugar laciones entre dos conceptos simples para de M2 y M3. errores de medición. Sin embargo, la correc- Segundo, este estudio de caso ilus- ción por errores de medición se puede apli- tra lo que previamente se había afirmado car a modelos más complejos (por ejemplo, en otras investigaciones (p. ej., Saris y regresiones). Nos referimos a DeCastellar- Gallhofer, 2007), es decir, que: 1) los in- nau y Saris (2014), Saris y Gallhofer (2014) y vestigadores sustantivos deben tener en Saris y Revilla (2016) para obtener ejemplos cuenta que la comparación de relaciones y pautas sobre cómo hacerlo para otros mo- estadísticas estandarizadas entre países delos. Asimismo, la calidad de la medición solo es posible si la calidad de la medición proporciona información sobre relaciones es- es la misma, y 2) incluso en este caso, es tandarizadas. Los investigadores interesados necesario corregir por los errores de medi- en comparar relaciones no estandarizadas ción para estimar adecuadamente las rela- deben estudiar la equivalencia de medición ciones de interés; es decir, las que existen de constructos entre países (Davidov et al., entre los conceptos, y no entre las varia- 2014). Finalmente, la estimación del tamaño bles observadas, que son solo medidas de los errores de medición también puede imperfectas de los conceptos de interés. verse afectada por errores. Así, incluso las Por lo tanto, de acuerdo con investiga- correlaciones corregidas presentan algunos ciones anteriores y los resultados de este errores. nuevo estudio, recomendamos corregir Para poder sacar conclusiones generales, por los errores de medición siempre que futuras investigaciones deben explorar nue- sea posible. vos temas y métodos para ver si la tendencia es la misma para diferentes rasgos y escalas. Sin embargo, no siempre es posible realizar Bibliografía experimentos MTMM. Una alternativa es uti- lizar el software SQP. Utilizando predicciones Alwin, Duane F. (2007). Margins of Error: A Study de SQP, los investigadores podrían obtener of Reliability in Survey Measurement. Hoboken, New Jersey: John Wiley and Sons, Inc. una imagen más clara del efecto de diferen- tes métodos para diferentes preguntas (De- Andrews, Frank M. (1984). «Construct Validity and Error Components of Survey Measures: A Struc- Castellarnau y Revilla, 2017). Asimismo, la tural Modelling Approach». Public Opinion Quar- sensibilidad de los análisis se podría testear terly, 48(2): 409-442. doi: 10.1086/268840 utilizando el software SQP para explorar si Beilmann, Mai; Kööts-Ausmees, Liisi y Realo, Anu las predicciones y estimaciones son similares (2018). «The Relationship Between Social Capital y, de no ser así, cómo las diferencias afectan and Individualism-Collectivism in Europe». Social las correcciones por errores de medición. Indicators Research, 137: 641-664. doi: 10.1007/ s11205-017-1614-4 Beullens, Koen; Loosveldt, Geert; Vandenplas, Ca- Recomendaciones prácticas roline y Stoop, Ineke (2018). «Response Rates in the European Social Survey: Increasing, Decrea- Primero, basándonos en nuestros resulta- sing or a Matter of Fieldwork Efforts?». Survey dos, para medir el concepto «calificación Methods: Insights from the Field. doi: 10.13094/ para la entrada o exclusión de inmigran- SMIF-2018-00003 Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
También puede leer