La calidad de las preguntas de encuesta en España: una comparación transnacional - Dialnet

Página creada Paco Bernabé
 
SEGUIR LEYENDO
doi:10.5477/cis/reis.175.3

            La calidad de las preguntas de encuesta
          en España: una comparación transnacional
       The Quality of Survey Questions in Spain: A Cross-National Comparison
                                                                        Oriol J. Bosch y Melanie Revilla

Palabras clave               Resumen
Calidad de los datos         La mayoría de la investigación social estudia conceptos abstractos
• Errores de medición        (p. ej., actitudes) mediante preguntas de encuestas. No obstante,
• Experimento                las encuestas adolecen de errores de medición que afectan a las
MultiRasgo-                  conclusiones sustantivas. Cuando dichos errores difieren entre
MultiMétodo                  países, comparar relaciones estadísticas estandarizadas entre
• Investigación              países puede resultar en conclusiones incorrectas. Sin embargo, la
transnacional                calidad de medición de las preguntas de encuestas en España no
• Metodología de             ha sido investigada de forma comparada. Utilizando un experimento
encuestas                    MultiRasgo-MultiMétodo, realizado en la Encuesta Social Europea
                             (ESS), comparamos la calidad de las preguntas en España con la de
                             otros países. En general, la calidad de medición en España es superior
                             a la mayoría de países participantes. Además, si no se tienen en cuenta
                             los errores de medición al comparar España con otros países, las
                             conclusiones sustantivas pueden ser erróneas.

Key words                    Abstract
Data Quality                 Most social research collects data about abstract concepts (e.g.,
• Measurement Errors         attitudes) using survey questions. However, survey data suffer from
• MultiTrait-                measurement errors that affect substantive conclusions. When
MultiMethod                  measurement errors differ across countries, cross-national comparisons
Experiment                   of standardized relationships can result in incorrect substantive
• Cross-National             conclusions. However, no research has analysed the measurement
Research                     quality of survey questions in Spain in a comparative perspective.
• Survey Methodology         Using a Split-Ballot Multitrait-Multimethod experiment conducted in the
                             European Social Survey round 8, we compare the quality of questions
                             in Spain with their quality in other participating countries. The average
                             measurement quality in Spain is higher than the overall average for all
                             ESS countries. In addition, when comparing Spain with other countries,
                             substantive conclusions can be incorrect if differences in the size of
                             measurement errors are not taken into account.

Cómo citar
Bosch, Oriol J. y Revilla, Melanie (2021). «La calidad de las preguntas de encuesta en España: una
comparación transnacional». Revista Española de Investigaciones Sociológicas, 175: 3-26. (http://
dx.doi.org/10.5477/cis/reis.175.3)

La versión en inglés de este artículo puede consultarse en http://reis.cis.es

Oriol J. Bosch: The London School of Economics and Political Science y Research and Expertise Centre for Sur-
vey Methodology (RECSM) - Universitat Pompeu Fabra | o.bosch-jover@lse.ac.uk
Melanie Revilla: Research and Expertise Centre for Survey Methodology (RECSM) - Universitat Pompeu Fa-
bra | melanie.revilla@upf.edu

                             Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
4                                           La calidad de las preguntas de encuesta en España: una comparación transnacional

Introducción1                                                    aleatorios y sistemáticos, que son el com-
                                                                 plemento de la calidad de medición y, por
La mayoría de la investigación social re-                        lo tanto, se pueden calcular como 1 – q2.
quiere de la recopilación de datos sobre                             Alwin (2007) sugiere que el 50% de la
conceptos abstractos como actitudes, sen-                        varianza (es decir, la dispersión o variabili-
timientos u opiniones. Estos conceptos,                          dad de la distribución) de las variables ob-
que corresponden a representaciones men-                         servadas en las encuestas se debe a erro-
tales no directamente observables, sue-                          res de medición. Por tanto, existen grandes
len operacionalizarse mediante indicadores                       diferencias entre la variable que los inves-
empíricos, siendo las preguntas de encues-                       tigadores quieren medir (F) y la que real-
tas el tipo más común (Saris y Gallhofer,                        mente mide la pregunta (Y).
2014).                                                               El tamaño de estos errores de medición
    Una operacionalización adecuada de                           depende de cómo se diseñan las pregun-
estos conceptos implica diseñar preguntas                        tas de encuesta (por ejemplo, formulación
que maximicen la fuerza de la relación es-                       exacta o escalas de respuesta), el idioma
tadística entre el concepto latente que los                      y el país donde se administra la encuesta
investigadores quieren medir (por ejemplo,                       (Liao, Saris y Zavala-Rojas, 2019), el modo
felicidad, F) y los indicadores observados                       (cara a cara, teléfono, etc.) de recopilación
(respuestas a las preguntas, Y). La fuerza                       de datos y, para las encuestas online, tam-
de esta relación entre F e Y, cuando está                        bién el tipo de dispositivo utilizado para
estandarizada, se llama calidad de medi-                         responder (Bosch et al., 2019). Esto, a su
ción (q2) y puede calcularse como el pro-                        vez, puede tener serias implicaciones para
ducto de la fiabilidad (r2) y la validez (v2)                    las conclusiones de la investigación. Sa-
(Saris y Andrews, 1991). La fiabilidad re-                       ris y Gallhofer (2007) ilustraron este punto
presenta la fuerza de la relación entre la                       utilizando datos de un experimento reali-
respuesta observada (Y) y el valor verda-                        zado en la ronda 1 de la Encuesta Social
                                                                 Europea (European Social Survey, ESS) en
dero (T), es decir, el valor de una pregunta
                                                                 Gran Bretaña: mientras que la correlación
de encuesta con una escala determinada
                                                                 entre la confianza interpersonal y la con-
si no se hubieran producido errores alea-
                                                                 fianza en el Parlamento medida usando
torios al responder. La validez representa
                                                                 una escala de cuatro puntos era negativa
la fuerza de la relación estadística entre
                                                                 y significativa (–0,15), al usar una escala
el concepto de interés latente (F) y el va-
                                                                 de 11 puntos la misma correlación era po-
lor verdadero (T) de una pregunta determi-
                                                                 sitiva y significativa (0,29). Sin embargo,
nada. La calidad de medición toma valores
                                                                 ambas correlaciones contienen errores de
de 0 a 1.
                                                                 medición. Para saber cuál es la verdadera
   Idealmente, la calidad de medición de-                        correlación entre confianza interpersonal
bería ser igual a 1 (la pregunta mide per-                       y confianza en el Parlamento, es necesa-
fectamente el concepto de interés). Sin                          rio obtener información sobre el tamaño
embargo, en la práctica, los datos de las                        de los errores de medición de las diferen-
encuestas adolecen de errores de medición                        tes escalas para corregir estos (Saris y Ga-
                                                                 llhofer, 2014). Sin embargo, Saris y Re-
1 Agradecimientos: Queremos agradecer al equipo                  villa (2016) encontraron que, para varias
científico central (Core Scientific Team, CST) de la En-         revistas importantes de ciencias sociales y
cuesta Social Europea por su apoyo continuo a esta lí-           marketing, solo el 9% de los estudios que
nea de investigación. Esta investigación ha sido finan-
ciada por el ESS ERIC Work Programme 1 de junio                  utilizaron datos de encuestas corrigió di-
2017 - 31 de mayo 2019.                                          chos errores.

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla                                                                                             5

     Al realizar investigaciones transna-                               Este artículo contribuye de varias for-
cionales, los errores de medición pue-                             mas a enriquecer la escasa literatura exis-
den afectar la comparabilidad de los re-                           tente sobre las diferencias en el tamaño de
sultados entre países. Cuando los errores                          los errores de medición entre países. En
de medición varían de un país a otro, las                          primer lugar, nos centramos en comparar
comparaciones de relaciones estandariza-                           España con otros países europeos. Por un
das entre países pueden dar lugar a con-                           lado, en abril de 2019, España era un par-
clusiones sustantivas erróneas (Saris y Re-                        ticipante fijo o rotativo de al menos 21 en-
villa, 2016). Según Saris y Gallhofer (2007),                      cuestas transnacionales, activas hoy en día,
las principales características de una pre-                        centradas en muestras —de individuos u
gunta que pueden variar entre países y, en                         hogares privados— de la población gene-
consecuencia, provocar diferencias en la                           ral (GESIS, 2019). Asimismo, en agosto de
calidad de medición son: 1) las caracterís-                        2019, España era el quinto país con más
ticas lingüísticas, 2) los niveles de deseabi-                     usuarios registrados utilizando datos de la
lidad social y 3) el nivel de centralidad de                       ESS y el sexto en términos de descargas
dicha pregunta. Con respecto a las dife-                           de datos. Además, 77 publicaciones cien-
rencias lingüísticas, los idiomas tienen dis-                      tíficas han utilizado datos de la ESS de Es-
tintas estructuras, lo que puede conducir a                        paña hasta agosto de 2019 (ESS, 2019). Así
diferentes niveles de calidad de medición                          pues, abundante investigación transnacio-
entre países, incluso si se traducen correc-                       nal se realiza utilizando dichos datos.
tamente (Zavala-Rojas, 2016). Igualmente,                             Por otro lado, existen evidencias de
la deseabilidad social, es decir, la tenden-                       que España puede diferir en términos de
cia de los encuestados a responder de una                          la calidad de los datos de encuestas en
manera que consideran socialmente más                              comparación con otros países europeos.
aceptable que su respuesta «verdadera»                             Por ejemplo, las tasas de respuesta (que
(DeMaio, 1984), muestra diferencias inter-                         a menudo se utilizan como un indicador
culturales sistemáticas (Johnson y Vijver,                         de la calidad de los datos) disminuye-
2003), siendo más alto, en particular, en                          ron o se estancaron en la mayoría de los
sociedades colectivistas. Finalmente, los                          países participantes de las rondas 1 a
temas de las preguntas pueden tener dife-                          7 de la ESS, mientras que aumentaron
rentes niveles de importancia o estar más                          en España (Beullens et al., 2018). Para
o menos presentes en el debate público, lo                         otros indicadores comúnmente utilizados
que significa que su centralidad (o promi-                         para inferir la calidad de los datos, tales
nencia), es decir, el grado en que el tema                         como la aquiescencia y el estilo de res-
de cualquier pregunta resuena con el en-                           puesta extremo, se ha descubierto que
cuestado y la cantidad de información dis-                         son más presentes en países mediterrá-
ponible, también puede variar entre países                         neos como España que en otros países
(Couper y Leeuw, 2003).                                            europeos como Alemania o Gran Bretaña
    La investigación realizada hasta ahora,                        (Herk, Poortinga y Verhallen, 2004). Esto
por ende, sugiere que existen diferencias                          podría estar relacionado con el hecho de
en el tamaño de los errores de medición en-                        que la aquiescencia aumenta cuando los
tre países y que, dichas diferencias, pueden                       niveles de colectivismo y corrupción son
afectar a las comparaciones entre países.                          más elevados en un país (Rammstedt,
Aun con todo, solo unos pocos estudios                             Danner y Bosnjak, 2017), presentando Es-
han explorado las diferencias transnacio-                          paña niveles moderados de colectivismo
nales en cuanto al tamaño de los errores de                        (Beilmann, Kööts-Ausmees y Realo, 2018;
medición.                                                          Leung et al., 1992) y de percepción de la

                                    Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
6                                           La calidad de las preguntas de encuesta en España: una comparación transnacional

corrupción (Transparency International,                          calas «de acuerdo-en desacuerdo» [agree-
2019). Además, teniendo en cuenta que                            disagree scales] versus escalas específicas
la deseabilidad social es mayor en las so-                       [item-specific scales] y variaciones en el
ciedades colectivistas (Johnson y Vijver,                        número de categorías de respuesta en es-
2003), esto podría dar lugar a niveles de                        calas «de acuerdo-en desacuerdo»). Ade-
errores de medición en España distintos                          más, ninguno de ellos se centra en las dife-
comparado con otros países europeos. En                          rencias entre países ni en las implicaciones
general, pues, se puede esperar que Es-                          de estas diferencias para la investigación
paña muestre una calidad de datos dife-                          transnacional, específicamente cuando se
rente a la de otros países europeos.                             trata de comparar España con otros países
   Sin embargo, muy pocos estudios han                           europeos.
analizado la calidad de medición (q2) de las                         En segundo lugar, nos centramos, a di-
preguntas de encuesta (como se definió                           ferencia de anteriores estudios, en distintas
anteriormente) en España en comparación                          características de las preguntas (por ejem-
con otros países europeos, con dos nota-                         plo, el nivel de correspondencia entre los
bles excepciones:                                                números y las etiquetas verbales o el hecho
                                                                 de mostrar las preguntas en las tarjetas que
1) Saris et al. (2010), utilizando experimen-
                                                                 se facilitan a los participantes). De esta ma-
   tos MultiRasgo-MultiMétodo (MultiTrait-
                                                                 nera, podemos brindar información útil para
   MultiMethod, MTMM) de las rondas 2
                                                                 ayudar a diseñar diferentes aspectos de los
   (2004) y 3 (2006) de la ESS, estimaron
                                                                 cuestionarios, sobre los que aún falta evi-
   la calidad de medición de 12 preguntas
                                                                 dencia empírica.
   sobre cuatro temas: «la distancia social
   entre médicos y pacientes», «opinión                              En tercer lugar, ilustramos las impli-
   sobre el trabajo», «opinión sobre políti-                     caciones para la investigación sustantiva
   cas de inmigración» y «opinión sobre las                      (en particular transnacional) de no tener en
   consecuencias de la inmigración». Los                         cuenta los errores de medición. Si bien in-
   autores descubrieron que, en general,                         vestigaciones anteriores (por ejemplo, Sa-
   España tiene una calidad de medición                          ris y Revilla, 2016) presentaron un método
   superior a la media de la ESS.                                para corregir los errores de medición, las
                                                                 aplicaciones prácticas para la investigación
2) Revilla, Saris y Krosnick (2014), utili-
                                                                 transnacional aún son escasas.
   zando experimentos MTMM de la ronda
   3 de la ESS, estimaron la calidad de 12                           Por último, proporcionamos recomen-
   preguntas sobre cuatro temas: los mis-                        daciones prácticas a investigadores y pro-
   mos temas mencionados anteriormente                           fesionales interesados en realizar investiga-
   de «opinión sobre políticas de inmigra-                       ciones transnacionales utilizando datos de
   ción» y «opinión sobre consecuencias                          encuestas de España. Estas recomenda-
   de la inmigración», así como «senti-                          ciones son útiles tanto para los investigado-
   mientos sobre la vida y las relaciones»                       res que diseñan sus propios cuestionarios
   y «apertura al futuro». Encontraron una                       como para aquellos que utilizan datos de
   calidad de medición superior en España                        encuestas existentes, como la ESS. Para
   a la media de los países participantes en                     ello, utilizamos datos de un experimento
   dicha ronda de la ESS.                                        MTMM sobre «actitudes hacia la califica-
                                                                 ción de entrada o exclusión de inmigrantes»
   Sin embargo, ambos artículos son muy                          que se realizó mediante entrevistas presen-
específicos respecto al tipo de comparacio-                      ciales en 23 países durante la ronda 8 de la
nes que les interesan (respectivamente, es-                      ESS (2016-2017).

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla                                                                                             7

Método                                                             mos que cada método corresponde a una
                                                                   escala de respuesta (por ejemplo, escala de
El modelo True Score MTMM                                          6 puntos o de 11 puntos) y que los mismos
                                                                   encuestados responden a las mismas pre-
Para explorar la calidad de medición en Es-                        guntas varias veces, utilizando los diferen-
paña en comparación con otros países eu-                           tes métodos. Más precisamente, utilizamos
ropeos, estimamos la calidad de medición                           el modelo True Score («Valor verdadero»)
utilizando datos de un experimento MTMM.                           propuesto por Saris y Andrews (1991) que
El enfoque MTMM, introducido por primera                           además permite estimar por separado los
vez por Campbell y Fiske en 1959, con-                             coeficientes de fiabilidad, validez y método.
siste en repetir un conjunto de preguntas                          Esto es una ventaja, ya que a menudo se
que miden conceptos latentes simples co-                           ven afectados de manera diferente por los
rrelacionados entre ellos (por ejemplo, opi-                       cambios en las características de la pre-
niones sobre inmigración), llamados rasgos                         gunta.
(Fi), utilizando varios métodos (Mj). En 1971,                        El modelo True Score se puede resumir
Jöreskog propuso tratar las matrices MTMM                          con el siguiente sistema de ecuaciones:
como un modelo de Análisis Factorial Con-
firmatorio (Confirmatory Factor Analysis,                                           Yij = rij Tij + eij                     (1)
CFA). En 1984, Andrews sugirió utilizar el
                                                                                    Tij = vij Fi + mij Mj                   (2)
enfoque MTMM para evaluar la calidad de
medición de preguntas individuales a través
                                                                   donde Fi es el rasgo o factor i, Mj es el mé-
de Modelos de Ecuaciones Estructurales
                                                                   todo j, Yij es la respuesta observada por el
(Structural Equation Modeling, SEM), utili-
                                                                   rasgo i y el método j, Tij es el componente
zando un modelo en el que los efectos de
                                                                   sistemático de la respuesta por el rasgo i
los métodos se suman (additive method
                                                                   y método j llamado true score factor, rij es
effect model). En contraste, Browne (1984)
                                                                   el coeficiente de fiabilidad (cuando se es-
y Cudeck (1989) propusieron un modelo en
                                                                   tandariza), vij es el coeficiente de validez
el que esos efectos se multiplican (multipli-
                                                                   (cuando se estandariza), y eij es el error
cative method effect model). Corten et al.
                                                                   aleatorio asociado con Yij.
(2002) mostraron que un modelo aditivo de-
pendiente de la escala (scale-dependent                                 La ecuación (1) define cada variable ob-
additive model) funciona mejor que otros                           servada (Yij) como la suma de los asociados
cuatro modelos multiplicativos y/o inva-                           true score (Tij) y los errores aleatorios (eij).
riantes de escala (scale-invariant). Por otro                      La ecuación (2) indica que cada true score
lado, Saris y Aalberts (2003) demostraron                          (Tij) es en sí mismo la suma del componente
que la presencia de efectos de método es                           del rasgo (Fi) y el efecto de método usado
una mejor explicación para los términos                            para medirlo (Mj).
perturbativos correlacionados en los expe-                             Como punto de partida para este mo-
rimentos MTMM en comparación con otras                             delo, asumimos que: a) los errores alea-
posibles explicaciones como las respuestas                         torios no están correlacionados entre sí ni
relativas, la aquiescencia o variaciones en                        con las variables independientes en las di-
las funciones de respuesta. Por lo tanto, en                       ferentes ecuaciones, b) los rasgos están
este estudio utilizamos un modelo en el que                        correlacionados, c) los factores del mé-
los efectos de los métodos se suman y son                          todo no están correlacionados entre ellos
dependientes de la escala (scale-dependent                         ni con los rasgos, y d) el impacto del factor
additive method effects model). Siguiendo                          del método sobre los rasgos medidos con
el enfoque de Andrews (1984), considera-                           una escala común es el mismo. Al testear el

                                    Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
8                                           La calidad de las preguntas de encuesta en España: una comparación transnacional

modelo, algunas de las asunciones hechas                             En el interés de conseguir un modelo
en este modelo base se pueden relajar si es                      identificado, el modelo MTMM general-
necesario (ver sección «Análisis y testeo de                     mente repite tres rasgos, cada uno medido
los MTMM»), hasta que se pueda obtener                           con tres métodos, resultando en nueve va-
un modelo final con buen ajuste.                                 riables observadas. Por tanto, cada encues-
   Una vez hecho esto, la calidad total de                       tado debe responder la misma pregunta
medición se puede obtener tomando el                             tres veces con diferentes escalas. La figura
producto de la fiabilidad y la validez (el cua-                  1 ilustra un modelo True Score MTMM para
drado de sus coeficientes): qij2 = rij2 * vij2                   tres rasgos y tres métodos.

FIGURA 1. Modelo True Score MTMM para tres rasgos y tres métodos

             Y₁₁         Y₂₁        Y₃₁        Y₁₂         Y₂₂         Y₃₂        Y₁₃          Y₂₃      Y₃₃

             e₁₁         e₂₁        e₃₁        e₁₂         e₂₂        e₃₂         e₁₃          e₂₃      e₃₃

Fuente: Elaboración propia.

El enfoque Split-Ballot MTMM                                     una combinación de dos métodos para un
                                                                 conjunto dado de tres rasgos, en lugar de
Con el fin de reducir la carga cognitiva de
                                                                 obtener tres métodos. Con esto se pueden
los encuestados y los posibles efectos de                        estimar todos los coeficientes de fiabilidad
memoria debido a la repetición de las mis-                       y validez. El modelo es normalmente identi-
mas preguntas a los mismos encuesta-                             ficado en condiciones generales cuando se
dos (Meurs y Saris, 1990), Saris, Satorra y                      utiliza un diseño de Split-Ballot (Saris, Sa-
Coenders (2004) propusieron combinar el                          torra y Coenders, 2004). Es posible dividir
enfoque MTMM con un diseño donde los                             a los encuestados en diferentes números
encuestados se asignan al azar a varios                          de grupos, incluso con tamaños de muestra
grupos (llamado diseño Split-Ballot; SB),                        desiguales (Revilla, Bosch y Weber, 2019).
los cuales reciben un cuestionario ligera-                          Dado que los problemas de no conver-
mente distinto al otro. Cada grupo obtiene                       gencia y valores inválidos ocurren con fre-

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla                                                                                             9

cuencia para el diseño de dos grupos (Revilla                      cambios consisten en: 1) permitir efectos
y Saris, 2013), en la ronda 8, la ESS imple-                       desiguales de un método sobre los valo-
mentó un diseño de tres grupos. El grupo 1                         res verdaderos correspondientes a los dife-
respondió al método 1 (M1) en el momento 1                         rentes rasgos, 2) liberar las varianzas de los
(Sección C) y al método 2 (M2) en el momento                       términos de error entre los grupos de Split-
2 (Sección I). El grupo 2 respondió al M2 en                       Ballot para tener en cuenta el hecho de
el momento 1 y al método 3 (M3) en el mo-                          que los errores aleatorios pueden diferir en
mento 2. Finalmente, el grupo 3 respondió al                       los momentos 1 y 2 (por ejemplo, porque
M3 en el momento 1 y al M1 en el momento 2.                        los encuestados se cansan con el tiempo),
Con este diseño se observan todas las posi-                        3) agregar una correlación entre dos facto-
bles correlaciones entre métodos.                                  res de método con características de es-
                                                                   calas similares, y 4) permitir correlaciones
                                                                   entre varianzas de los términos de error
Análisis y testeo de los MTMM                                      debido a efectos de memoria. Para poder
                                                                   comparar los resultados entre países e idio-
Los coeficientes de fiabilidad y validez se                        mas, primero consideramos introducir co-
estiman usando CFA (modelo True Score                              rrecciones similares en los diferentes gru-
presentado anteriormente) y LISREL 8,72                            pos de países e idiomas. Sin embargo, no
(Jöreskog y Sörbom, 1996). LISREL uti-                             es siempre posible. Las correcciones fina-
liza algoritmos complejos que minimizan                            les del modelo realizadas en cada análisis
los residuos, teniendo en cuenta todas las                         se resumen en el apéndice B, junto con di-
restricciones del modelo. El método utili-                         ferentes indicadores del ajuste del modelo.
zado para la estimación en cada país es el
                                                                      Después de realizar los análisis y testear
de Máxima Verosimilitud (Maximum Likeli-
                                                                   los modelos MTMM, calculamos la calidad
hood) para análisis de grupos múltiples (los
                                                                   de medición para los diferentes rasgos y
diferentes grupos son los grupos de Split-
                                                                   métodos.
Ballot). Nos referimos al apéndice A para un
ejemplo del código base de LISREL y a Hox
y Bechger (1998) para una introducción en
                                                                   Corrección por errores de medición
profundidad a los Modelos de Ecuaciones
Estructurales.                                                     Las relaciones estadísticas estandarizadas
    Para probar si hay problemas debidos a                         entre variables observadas, como las co-
especificaciones incorrectas, utilizamos el                        rrelaciones o los coeficientes de regresión,
software JRule (Veld, Saris y Satorra, 2008)                       se ven afectadas por los errores de medi-
basado en el procedimiento desarrollado                            ción. Por ejemplo, Saris y Revilla (2016), uti-
por Saris, Satorra y Veld (2009). JRule tiene                      lizando datos de la ronda 3 de la ESS de
la ventaja de tener en cuenta el poder esta-                       Gran Bretaña, encontraron que la correla-
dístico (es decir, la probabilidad de acep-                        ción de «permitir que más inmigrantes ven-
tar una hipótesis nula falsa). También testea                      gan a Gran Bretaña» con la opinión de que
las especificaciones incorrectas a nivel de                        los inmigrantes hacen del país un lugar peor
parámetro, es decir, testea si cada paráme-                        para vivir cambió de –0,27 (sin corrección) a
tro está mal especificado en vez de testear                        –0,61 (corrección), mientras que la correla-
todo el modelo a la vez.                                           ción con la opinión de que la inmigración
   Esto lleva en muchos casos a la intro-                          es mala para la economía pasó de 0,13 (sin
ducción de correcciones con respecto a las                         corrección) a 0,00 (corrección).
asunciones del modelo base presentado en                              Para estimar las verdaderas relaciones
las ecuaciones 1 y 2. Principalmente, los                          (es decir, las relaciones entre los concep-

                                    Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
10                                          La calidad de las preguntas de encuesta en España: una comparación transnacional

tos de interés), es necesario corregir por                                         CMV = r1 m1 m2 r2                     (4)
los errores de medición. En el marco de
las comparaciones entre países, asimismo,                           Los coeficientes del efecto de método
un requisito para comparar las relaciones                        se pueden calcular como:
estadísticas estandarizadas usando varia-
bles observadas es tener niveles similares                                            mi =     (1− v i2 )                (5)
de calidad de medición en dichos países.
Dicho de otra manera, si el tamaño de los
errores de medición difiere entre países, no                        La ecuación 3 establece que la correla-
se debería realizar comparaciones directas                       ción entre las variables latentes se puede
de relaciones estadísticas estandarizadas                        obtener restando el CMV a la correlación
sin corregir primero por los errores de me-                      entre las variables observadas ρ(Y1, Y2) y
dición.                                                          luego dividir por el producto de los coefi-
                                                                 cientes de calidad de medición de las dos
    Hay diferentes formas de corregir por
                                                                 preguntas (q1 q2).
los errores de medición (véanse DeCas-
tellarnau y Saris, 2014; Saris y Gallhofer,                          Se espera CMV cuando las dos varia-
2014). La corrección de dichos errores de                        bles observadas se miden con la misma es-
medición se puede realizar para diferen-                         cala, lo que lleva a una reacción sistemática
tes tipos de análisis, incluidas correlacio-                     de los encuestados a la escala. Por ejem-
nes, regresiones lineales simples, SEM,                          plo, en una escala sin un punto medio neu-
etc. Este artículo se centra en una ilustra-                     tral, algunos encuestados con una verda-
ción que compara la correlación entre dos                        dera posición neutral pueden seleccionar
conceptos simples, cada uno medido por                           sistemáticamente la opción más cercana
una sola pregunta2. En el caso que ilustra-                      en el lado positivo, mientras que otros se-
mos, imaginemos que unos investigadores                          leccionan sistemáticamente la opción más
observan la correlación entre las respues-                       cercana en el lado negativo, y otros se sal-
tas a dos preguntas individuales ρ(Y1, Y2),                      tan sistemáticamente la pregunta. Por lo
pero están interesados en la correlación                         tanto, los investigadores pueden esperar
entre los conceptos latentes detrás de                           una correlación adicional entre las variables
cada una de las dos preguntas, es decir, la                      observadas, no vinculada al contenido de
correlación corregida por errores de medi-                       las preguntas en sí, sino a la reacción sis-
ción ρ(F1, F2). Saris y Gallhofer (2014: 310)                    temática de los encuestados a un método
proporcionan una fórmula para corregir la                        compartido.
correlación entre las variables observadas                          Los coeficientes de calidad de medición
ρ(Y1, Y2) y obtener la correlación entre las                     de las dos preguntas deben estimarse en un
variables latentes ρ(F1, F2):                                    paso anterior, por ejemplo, utilizando experi-
                                                                 mentos MTMM o el software Survey Quality
       ρ(F1, F2) = [ρ(Y1, Y2) – CMV ]/q1 q2              (3)     Predictor (SQP) 2.1 (Saris et al., 2011), que
                                                                 genera semiautomáticamente predicciones
donde CMV significa Varianza del Método                          de calidad de medición de preguntas de en-
Común (Common Method Variance) y se                              cuesta utilizando un rico conjunto de datos
calcula como el producto de los coeficien-                       de experimentos MTMM previos y algorit-
tes de fiabilidad (ri) y los del efecto de mé-                   mos de bosques aleatorios (random forests).
todo (mi) de ambas variables observadas:                            Al comparar las correlaciones sin y con
                                                                 corrección por errores de medición en un
2Para ejemplos mas complejos, nos referimos a De-
                                                                 conjunto de países diferentes (incluido Es-
Castellarnau y Saris (2014) y Saris y Revilla (2016).            paña), mostraremos cómo cambian las con-

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla                                                                                            11

clusiones sustantivas cuando los errores de                         dice C). Las tasas de respuesta para la
medición se tienen en cuenta o no.                                  ronda 8 también varían entre países, osci-
                                                                    lando entre el 30,6% (Alemania) y el 74,4%
                                                                    (Israel), con una tasa de respuesta del
Datos                                                               67,7% en España y una tasa de respuesta
Ronda 8 de la Encuesta Social Europea                               media del 55,4% (ESS, 2017).
                                                                        El experimento MTMM se llevó a cabo
La ESS (http://www.europeansocialsurvey.                            en 23 de los países participantes. En paí-
org/about/faq.html) es una encuesta in-                             ses multilingües, la ESS realiza las encues-
ternacional realizada en Europa cada dos                            tas en diferentes idiomas (por ejemplo, ca-
años desde 2001. La ESS realiza entrevis-                           talán y español en España). Dado que el
tas cara a cara de aproximadamente una                              idioma puede afectar la calidad de la me-
hora y selecciona nuevas muestras trans-                            dición (Saris y Gallhofer, 2014; Zavala-Ro-
versales para cada ronda. El cuestionario                           jas, 2016), analizamos cada idioma por se-
combina una sección central que se repite                           parado. Sin embargo, el modelo MTMM
en cada ronda y módulos rotativos específi-                         no se puede estimar para idiomas con un
cos de cada ronda.                                                  número reducido de observaciones (por
    El trabajo de campo de la octava ronda                          ejemplo, catalán en España; consulte el
se llevó a cabo entre marzo de 2016 y di-                           apéndice C para obtener una lista com-
ciembre de 2017 (datos de la octava ronda                           pleta). Así pues, analizamos 27 grupos co-
de la Encuesta Social Europea, 2016). Los                           rrespondientes a los grupos lingüísticos
tamaños de las muestras oscilan entre 880                           con tamaño muestral suficiente existen-
(Islandia) y 2.852 (Alemania), estando Es-                          tes en cada uno de los países disponibles
paña en el medio (N = 1.958, véase el apén-                         (grupos país-idioma).

TABLA 1. Preguntas de encuesta incluidas en el experimento MTMM de la ronda 8 de la ESS

Rasgo                                                      Formulación general de las preguntas

                                    ¿Qué importancia debería darse a tener un buen nivel educativo en la decisión de
Nivel educativo                     permitir o no a una persona que ha nacido y vivido siempre fuera de [país], venir a
                                    vivir aquí?

                                    ¿Qué importancia debería darse a ser de un país de tradición cristiana en la deci-
Tradición cristiana
                                    sión de permitir o no a una persona venir a vivir aquí?

                                    ¿Qué importancia debería darse a tener una cualificación de las que [país] necesita
Cualificación laboral
                                    en la decisión de permitir o no a una persona venir a vivir aquí?

Fuente: Elaboración propia.

El experimento MTMM                                                 o exclusión de inmigrantes», respectiva-
                                                                    mente la importancia de tener: 1) un buen
El experimento evalúa tres rasgos medi-                             nivel educativo, 2) una tradición cristiana3,
dos cada uno con tres métodos. Los ras-
gos pretenden medir tres aspectos del con-
cepto complejo «calificación para la entrada                        3   Para Israel, «cristiana» se sustituye.

                                     Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
12                                           La calidad de las preguntas de encuesta en España: una comparación transnacional

y 3) cualificaciones laborales necesarias en                        Con respecto a los métodos, la tabla 2
el país, para estar cualificado para entrar en                   resume las características que varían entre
dicho país. La tabla 1 presenta el redactado                     métodos y proporciona las etiquetas de los
general de cada pregunta4.                                       puntos finales para cada escala.

TABLA 2. Variación en las características y etiquetas de los puntos finales en cada escala

                                                                 M1                      M2                      M3

                    Núm. de puntos                                11                     10                       6

                    Formato                                    Batería         Preguntas separadas             Batería

Características     Núm. puntos de referencia fijos               2                       2                       1

                    Correspondencia                              Alta                  Media                    Alta

                    Preguntas en la tarjeta                      No                       Sí                     No

                                                                 0                      1                       0
                    Primera categoría
                                                          Nada importante        Nada importante         Nada importante
Etiquetas                                                       10                     10
                                                                                                                5
                    Última categoría                      Extremadamente         Extremadamente
                                                                                                          Muy importante
                                                             importante             importante

Fuente: Elaboración propia.

    Cinco aspectos varían:                                              y M2 presentan dos puntos de referen-
                                                                        cia fijos, mientras que M3 presenta solo
1) El número de categorías de respuesta:
                                                                        uno.
   M 1 es una escala impar (11 puntos),
   mientras que M2 y M3 son escalas pares                        4) La correspondencia entre los números y
   (10 y 6 puntos, respectivamente).                                las etiquetas verbales en la escala (por
                                                                    ejemplo, 0 representa mejor la idea de
2) Preguntas separadas o batería (es de-
                                                                    «Para nada» que 1): M1 y M3 presentan
   cir, varias preguntas que comparten la
                                                                    una correspondencia alta mientras que
   misma escala se presentan juntas, la
                                                                    M2 presenta una correspondencia me-
   escala se repite solo una vez): M1 y M3
                                                                    dia.
   presentan las preguntas en formato de
   batería, mientras que M 2 las presenta                        5) La presentación de la pregunta en las
   como preguntas separadas.                                        tarjetas que se enseñan a los partici-
                                                                    pantes: por lo general, las tarjetas que
3) El número de puntos de referencia fijos
                                                                    la ESS proporciona (es decir, las tarje-
   (es decir, categorías de respuesta que
                                                                    tas que se presentan a los encuesta-
   «no establecen ninguna duda sobre la
                                                                    dos para brindar ayuda visual a la vez
   posición del punto de referencia en la
                                                                    que el entrevistador hace las preguntas)
   escala subjetiva en la mente del encues-
                                                                    no contienen la pregunta sino solo las
   tado»; Saris y Gallhofer, 2014: 110): M1
                                                                    opciones de respuesta. En este experi-
                                                                    mento, en M2 las preguntas se muestran
4  Para el redactado específico de cada método, véase
                                                                    en las tarjetas, mientras que en M1 y M3
el apéndice D.                                                      no.

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla                                                                                            13

Ilustración de las implicaciones para la                             y tres métodos. Dado que presentar todas las
investigación sustantiva transnacional de                            243 estimaciones de calidad de medición no
no corregir por los errores de medición                              es práctico, primero agregamos todos los paí-
                                                                     ses y presentamos los resultados para cada
Para ilustrar la implicación de no corregir por                      rasgo y método en comparación con España.
los errores de medición en la investigación                          Luego, agregamos los rasgos y presentamos
transnacional, comparamos las correlaciones,                         los resultados para cada país y método. De
antes y después de corregirlas por los errores                       esa manera, podemos comparar la calidad
de medición, entre la importancia que se le                          de las mediciones, primero, entre rasgos y,
da a que un individuo venga de tradición cris-                       segundo, entre países. Finalmente, presenta-
tiana y la importancia que se les da a sus cua-                      mos un ejemplo de las implicaciones sustan-
lificaciones laborales al momento de decidir si                      tivas de no corregir los errores de medición al
alguien nacido, criado y que vive en el exterior                     comparar España con otros siete países.
debe poder ir a vivir a un país determinado.
En aras de la simplicidad, en esta ilustración
nos enfocamos únicamente en uno de los                               Calidad promedio en todos los grupos de
métodos. Elegimos M3 (escala de 6 puntos                             países e idiomas, por rasgo y método
en formato de batería, con un punto de refe-
                                                                     La tabla 3 presenta la calidad de medición
rencia fijo, alta correspondencia en la escala
                                                                     en España, así como la calidad media, mí-
y que no proporciona la pregunta en la tarjeta
                                                                     nima y máxima en los otros 26 grupos país-
que se enseña al participante), porque, para
                                                                     idioma (excluido España) para los diferentes
España, presenta una de las calidades más
                                                                     rasgos y métodos.
bajas. Ilustramos las implicaciones para ocho
países: Alemania, España, Francia, Finlandia,                            Para todos los grupos país-idioma, ras-
Italia, Noruega, Portugal y Suecia.                                  gos y métodos, la calidad más alta obtenida
                                                                     es 0,99 (tradición cristiana-M1) mientras que
                                                                     la más baja es 0,39 (cualificaciones labora-
Resultados                                                           les-M1). Esto significa que entre el 1% (tradi-
                                                                     ción cristiana-M1) y el 61% (cualificaciones
Nuestros análisis estiman la calidad de medi-                        laborales-M1) de la varianza en las respuestas
ción para 27 grupos país-idioma, tres rasgos                         observadas proviene de errores de medición.

TABLA 3. C
          alidad de medición (q2) en España y media, mínima y máxima calidad de medición de los otros 26
         grupos país-idioma, por rasgo y método

                                 Nivel                      Tradición             Cualificación              Media de los
                               educativo                    cristiana               laboral                    rasgos

     Calidad q2           M1        M2      M3        M1       M2       M3      M1      M2       M3       M1       M2      M3

Media 26 grupos          0,73       0,64   0,72      0,83     0,71      0,75   0,76     0,68    0,72      0,77    0,68    0,73

Máximo 26 grupos         0,90       0,85   0,87      0,99     0,85      0,92   0,92     0,86    0,85      0,90    0,82    0,85

Mínimo 26 grupos         0,56       0,41   0,41      0,41     0,57      0,64   0,39     0,54    0,42      0,53    0,54    0,49

España                   0,85       0,69   0,64      0,87     0,73      0,70   0,88     0,72    0,64      0,87    0,71    0,66

Nota: Las estimaciones de calidad toman valores entre 0 y 1, representando 1 una relación perfecta entre la respuesta ob-
servada y el concepto de interés latente.
Fuente: Elaboración propia.

                                     Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
14                                          La calidad de las preguntas de encuesta en España: una comparación transnacional

    Asimismo, M1 presenta una calidad más                        Calidad promedio en todos los rasgos,
alta en promedio para los 26 grupos país-                        por grupo país-idioma y método
idioma y para España, para todos los ras-
gos. Sin embargo, existen algunas diferen-                       A continuación, las diferencias entre paí-
cias entre España y la media de los otros                        ses se analizan con más detalle, esta vez
26 grupos. Primero, aunque M1 es el que                          agregando a nivel de rasgos. La tabla 4
tiene un mejor rendimiento en ambos ca-                          presenta la calidad promedio en todos los
sos, las estimaciones de calidad en España                       rasgos, por grupo país-idioma y método,
son especialmente buenas para todos los                          así como la posición de cada grupo país-
rasgos. Las estimaciones de calidad tam-                         idioma en el ranking, para cada método.
bién son más altas para M2 en España que                             Primeramente, la calidad de la medi-
la media de todos los demás grupos país-                         ción entre países y métodos varía de 0,53
idioma. Sin embargo, para M3, la calidad en                      (Estonia-Ruso-M1) a 0,88 (Islandia-M1). Por
España está por debajo de la media de to-                        lo tanto, en todos los métodos y países, la
dos los demás grupos país-idioma. Por otro                       varianza explicada por los errores de me-
lado, en España, M2 presenta una mayor                           dición va del 12% (Islandia-M1) al 47% (Es-
calidad que M3 en todos los rasgos, mien-                        tonia-Ruso-M1). Entonces, existen grandes
tras que para la media de los demás gru-                         diferencias en la calidad de medición en-
pos país-idioma la tendencia es opuesta.                         tre los diferentes grupos país-idioma. La
Por lo tanto, aunque los formatos de bate-                       tendencia general es que M1 (escala de 11
ría pueden sufrir del fenómeno de no dife-                       puntos en formato de batería, con dos pun-
renciación (Saris y Gallhofer, 2014), en ge-                     tos de referencia fijos, alta corresponden-
neral recomendamos utilizar una escala de                        cia entre números y etiquetas verbales y
11 puntos presentada en formato de bate-                         sin preguntas en las tarjetas) se desempeña
ría, con dos puntos de referencia fijos, alta                    mejor que M2 y M3. Además, los países del
correspondencia entre números y etiquetas                        centro y norte de Europa presentan, en ge-
verbales, y ninguna pregunta en la tarjeta                       neral, una calidad de medición más alta que
en lugar de los otros dos métodos, para                          sus homólogos del este y del sur.
medir los tres indicadores estudiados para                           Comparando España con los demás,
el concepto «calificación de ingreso o ex-                       España tiene la cuarta calidad más alta para
clusión de inmigrantes».                                         M1 y la décima más alta para M2. Sin em-
    En cuanto a las diferencias entre ras-                       bargo, para M3, España presenta la cuarta
gos, la «tradición cristiana» alcanza la ca-                     calidad más baja. Por lo tanto, existen di-
lidad de medición promedio más alta para                         ferencias importantes entre los métodos
todos los métodos, para España y en pro-                         para España, los cuales deben tenerse en
medio para los demás grupos de países e                          cuenta. Primero, usar una escala de 11
idiomas. Esto es interesante ya que se po-                       puntos presentada en un formato de bate-
dría pensar que sería el rasgo con mayor                         ría, con dos puntos de referencia fijos, alta
propensión a generar sesgos de deseabi-                          correspondencia entre números y etiquetas
lidad social, considerándose la religión un                      verbales, y ninguna pregunta en la tarjeta
tema delicado. Finalmente, las diferen-                          funciona mucho mejor en España que en la
cias entre rasgos son consistentes para                          mayoría de los grupos de países e idiomas.
España y la media de los otros grupos de                         En segundo lugar, una escala de 6 puntos
países e idiomas. Aunque España presenta                         en formato de batería, con un solo punto
diferentes estimaciones de calidad, la re-                       de referencia fijo, alta correspondencia en-
lación entre las estimaciones de calidad y                       tre números y etiquetas verbales, y sin pre-
los rasgos es similar.                                           guntas en la tarjeta, se comporta peor en

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla                                                                                           15

España que en la mayoría de los grupos de                           entre países afectan el tamaño de los erro-
países e idiomas analizados. Esto sugiere                           res de medición asociados con diferentes
que las diferencias culturales y lingüísticas                       métodos.

TABLA 4. Calidad media (q2) de los rasgos agregados, por grupo país-idioma y método

                                            Calidad media de los tres rasgos                          Ranking

                                                M1            M2            M3             M1            M2            M3

Austria                                        0,74          0,67          0,79             20           14             7

Bélgica-Neerlandés                             0,83          0,70          0,74             9            11            13

Bélgica-Francés                                0,87          0,58          0,68             5            25            20

República Checa                                0,79          0,69          0,69             13           13            18

Estonia-Estonio                                0,77          0,58          0,72             16           24            14

Estonia-Ruso                                   0,53          0,63          0,69             27           19            19

Finlandia                                      0,90          0,75          0,74             1             5            12

Francia                                        0,82          0,54          0,67             11           27            21

Alemania                                       0,77          0,80          0,76             15            3            10

Gran Bretaña                                   0,72          0,73          0,71             21            8            15

Hungría                                        0,70          0,61          0,64             22           22            25

Islandia                                       0,88          0,82          0,85             2             1             1

Irlanda                                        0,83          0,61          0,49             10           23            27

Israel-Árabe                                   0,88          0,80          0,78             3             2             8

Israel-Hebreo                                  0,76          0,63          0,62             18           20            26

Italia                                         0,68          0,57          0,84             24           26             2

Lituania                                       0,69          0,63          0,81             23           18             5

Países Bajos                                   0,80          0,65          0,77             12           17             9

Noruega                                        0,84          0,74          0,82             7             6             4

Polonia                                        0,75          0,73          0,71             19            9            22

Portugal                                       0,67          0,61          0,75             25           21            11

Rusia                                          0,66          0,66          0,83             26           15             3

Eslovenia                                      0,79          0,66          0,66             14           16            24

España                                         0,87          0,71          0,66             4            10            23

Suecia                                         0,83          0,74          0,79             8             7             6

Suiza-Francés                                  0,85          0,69          0,71             6            12            16

Suiza-Alemán                                   0,76          0,78          0,70             17            4            17
Fuente: Elaboración propia.

                                    Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
16                                          La calidad de las preguntas de encuesta en España: una comparación transnacional

Implicaciones sustantivas para la                                excepto en Italia. Para España la correlación
investigación transnacional: una ilustración                     pasa de 0,41 a 0,46. Sin embargo, el cam-
                                                                 bio no es homogéneo entre países: mientras
Los resultados demuestran que existen di-                        que para Finlandia la correlación aumenta
ferencias no despreciables entre España y                        0,09 puntos, para Italia se reduce en 0,03
otros grupos país-idioma. Esto puede tener                       puntos. En consecuencia, comparar países
importantes implicaciones en la investiga-                       que utilizan correlaciones sin corrección en
ción transnacional cuando no se tienen en                        lugar de correlaciones con corrección por
cuenta los errores de medición.                                  errores de medición lleva a conclusiones
    La tabla 5 presenta las correlaciones                        sustantivas diferentes. En particular, en tér-
sin y con corrección por errores de medi-                        minos del ranking, sin corrección por errores
ción para cada país, ordenadas de mayor                          de medición, Italia presenta la cuarta corre-
a menor correlación corregida. Además,                           lación más alta mientras que con correc-
presenta el ranking de cada país (1 signi-                       ción, presenta la más baja. Por lo tanto, si
fica la correlación más alta) para correla-                      los investigadores quisieran comparar la co-
ciones sin y con corrección por errores de                       rrelación entre «tradición cristiana» y «cuali-
medición.                                                        ficación laboral» para España e Italia, no co-
   Podemos ver un aumento en las correla-                        rregir por los errores de medición llevaría a
ciones al corregir por errores de medición,                      conclusiones erróneas.

TABLA 5. Coeficientes de correlación y ranking sin y con corrección

                                       Correlación                                             Ranking
                         Sin corrección           Con corrección               Sin corrección          Con corrección
Finlandia                      0,47                     0,56                           1                       1
Suecia                         0,41                     0,47                           2                       2
España                         0,41                     0,46                           3                       3
Noruega                        0,39                     0,44                           5                       4
Portugal                       0,38                     0,43                           6                       5
Alemania                       0,36                     0,42                           7                       6
Francia                        0,35                     0,40                           8                       7
Italia                         0,40                     0,37                           4                       8
Fuente: Elaboración propia.

Discusión y conclusiones                                             En general, para los tres rasgos consi-
                                                                 derados, encontramos que la calidad de
Resultados principales                                           medición varía mucho entre países, desde
                                                                 un promedio (de todos los métodos y ras-
Nuestro principal objetivo ha sido comparar                      gos) de 0,62 en Estonia-Ruso a 0,85 en
la calidad de medición de las preguntas de                       Islandia, lo que significa que en prome-
las encuestas en España con otros países eu-                     dio entre el 62% y el 85% de la varianza
ropeos, ya que la investigación existente cen-                   en las respuestas observadas se debe a
trada en España desde una perspectiva com-                       los conceptos de interés latentes mien-
parativa, aunque relevante, es aún escasa.                       tras que del 15% al 38% se debe a errores

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
Oriol J. Bosch y Melanie Revilla                                                                                           17

de medición. Los países del centro y norte                         nada en similar medida con la creencia de
de Europa presentan, en general, una ma-                           que los inmigrantes que presentan cualifi-
yor calidad de medición. Esto podría es-                           caciones laborales necesarias en dicho país
tar relacionado con el hecho de que los                            están más cualificados para su ingreso. Sin
países con bajos niveles de colectivismo                           embargo, la correlación corregida por erro-
y corrupción son menos propensos a la                              res de medición fue mayor para España que
deseabilidad social (Rammstedt, Danner                             para Italia, lo que apunta a una conclusión
y Bosnjak, 2017) y/o a las diferencias lin-                        sustantiva diferente: aunque España e Italia
güísticas.                                                         tienen un nivel similar de religiosidad (Evans
    Además, la calidad de medición de los                          y Baronavski, 2018), la relación entre la pro-
tres rasgos considerados fue superior para                         veniencia de una tradición cristiana y las
España que para la media de los otros 26                           cualificaciones laborales es más fuerte para
grupos país-idioma analizados. Estos re-                           España. Esta diferencia entre las correlacio-
sultados van en línea con investigaciones                          nes con y sin corrección entre España e Ita-
previas sobre la calidad de medición (Saris                        lia se relaciona principalmente con la dife-
et al., 2010; Revilla, Saris y Krosnick, 2014)                     rencia en la calidad de medición de ambos
basadas también en datos de ESS.                                   países (0,18 puntos menos en España que
                                                                   en Italia), y en menor medida a la diferen-
   Sin embargo, existen diferencias entre
                                                                   cia en CMV (0,04 más alto en España que
los métodos. M1 presenta un rendimiento
                                                                   en Italia). Después de corregir utilizando la
especialmente bueno en España en compa-
                                                                   ecuación 3, España presenta una correla-
ración con la mayoría de los demás países,
                                                                   ción verdadera más alta que Italia. Esto in-
y ocupa el cuarto lugar de los 27 grupos
                                                                   dica que, aunque España presenta un CMV
país-idioma. Sin embargo, para M3, Es-
                                                                   algo más alto, la calidad notablemente más
paña presenta la cuarta estimación de cali-
                                                                   baja en España llevó a una subestimación
dad más baja. Por tanto, aunque en general
                                                                   de la correlación en comparación con la so-
España presenta una calidad de medición
                                                                   breestimación de Italia.
superior, los investigadores no deberían
asumir una calidad superior a la media en
España para cualquier método. Al contrario,
                                                                   Límites y futura investigación
deberían considerar que algunos métodos
pueden funcionar mejor y otros peor en Es-                         Estos resultados presentan algunas limitacio-
paña que en otros países.                                          nes. Primero, estos hallazgos son específicos
    No considerar las potenciales diferen-                         para los temas analizados y los métodos uti-
cias en el tamaño de los errores de medi-                          lizados y no deben ser generalizados a otras
ción al comparar España con otros países                           preguntas o métodos. En segundo lugar, de-
afecta a las conclusiones de fondo. En pri-                        bido al reducido tamaño de la muestra, no se
mer lugar, en nuestra ilustración, las corre-                      pudieron analizar algunos idiomas. En parti-
laciones observadas fueron mayormente                              cular, no hemos podido utilizar a los encues-
subestimadas. Además, los rankings de                              tados de habla catalana, lo que no permite
países con mayor y menor correlación con                           comparar las estimaciones de calidad entre
y sin corrección difirieron substancialmente.                      los idiomas de España. Sin embargo, con-
En particular, sin corrección, España e Ita-                       siderando que otros países presentan dife-
lia presentaron correlaciones similares. Esto                      rentes calidades de medición en función del
sugiere que, para ambos países, la creencia                        idioma de administración, podríamos espe-
de que venir de tradición cristiana es impor-                      rar lo mismo para España. Una investigación
tante para que los inmigrantes estén cualifi-                      adicional podría explorar específicamente las
cados para ingresar al país esta correlacio-                       diferencias entre el catalán y el español. Ade-

                                    Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
18                                          La calidad de las preguntas de encuesta en España: una comparación transnacional

más, los experimentos MTMM no son los                            tes» en España recomendamos utilizar M1
más adecuados para explicar por qué en al-                       (escala de 11 puntos en formato de bate-
gunos países la calidad es más alta que en                       ría, con dos puntos de referencia fijos, alta
otros. Futuras investigaciones podrían cen-                      correspondencia entre números y etiquetas
trarse en encontrar explicaciones. También,                      verbales y ninguna pregunta en las tarjetas
solo hemos ilustrado cómo corregir las corre-                    que se enseñan a los participantes) en lugar
laciones entre dos conceptos simples para                        de M2 y M3.
errores de medición. Sin embargo, la correc-                         Segundo, este estudio de caso ilus-
ción por errores de medición se puede apli-                      tra lo que previamente se había afirmado
car a modelos más complejos (por ejemplo,                        en otras investigaciones (p. ej., Saris y
regresiones). Nos referimos a DeCastellar-                       Gallhofer, 2007), es decir, que: 1) los in-
nau y Saris (2014), Saris y Gallhofer (2014) y                   vestigadores sustantivos deben tener en
Saris y Revilla (2016) para obtener ejemplos                     cuenta que la comparación de relaciones
y pautas sobre cómo hacerlo para otros mo-                       estadísticas estandarizadas entre países
delos. Asimismo, la calidad de la medición                       solo es posible si la calidad de la medición
proporciona información sobre relaciones es-                     es la misma, y 2) incluso en este caso, es
tandarizadas. Los investigadores interesados                     necesario corregir por los errores de medi-
en comparar relaciones no estandarizadas                         ción para estimar adecuadamente las rela-
deben estudiar la equivalencia de medición                       ciones de interés; es decir, las que existen
de constructos entre países (Davidov et al.,                     entre los conceptos, y no entre las varia-
2014). Finalmente, la estimación del tamaño                      bles observadas, que son solo medidas
de los errores de medición también puede                         imperfectas de los conceptos de interés.
verse afectada por errores. Así, incluso las                     Por lo tanto, de acuerdo con investiga-
correlaciones corregidas presentan algunos                       ciones anteriores y los resultados de este
errores.                                                         nuevo estudio, recomendamos corregir
     Para poder sacar conclusiones generales,                    por los errores de medición siempre que
futuras investigaciones deben explorar nue-                      sea posible.
vos temas y métodos para ver si la tendencia
es la misma para diferentes rasgos y escalas.
Sin embargo, no siempre es posible realizar                      Bibliografía
experimentos MTMM. Una alternativa es uti-
lizar el software SQP. Utilizando predicciones                   Alwin, Duane F. (2007). Margins of Error: A Study
de SQP, los investigadores podrían obtener                          of Reliability in Survey Measurement. Hoboken,
                                                                    New Jersey: John Wiley and Sons, Inc.
una imagen más clara del efecto de diferen-
tes métodos para diferentes preguntas (De-                       Andrews, Frank M. (1984). «Construct Validity and
                                                                   Error Components of Survey Measures: A Struc-
Castellarnau y Revilla, 2017). Asimismo, la
                                                                   tural Modelling Approach». Public Opinion Quar-
sensibilidad de los análisis se podría testear                     terly, 48(2): 409-442. doi: 10.1086/268840
utilizando el software SQP para explorar si
                                                                 Beilmann, Mai; Kööts-Ausmees, Liisi y Realo, Anu
las predicciones y estimaciones son similares                       (2018). «The Relationship Between Social Capital
y, de no ser así, cómo las diferencias afectan                      and Individualism-Collectivism in Europe». Social
las correcciones por errores de medición.                           Indicators Research, 137: 641-664. doi: 10.1007/
                                                                    s11205-017-1614-4
                                                                 Beullens, Koen; Loosveldt, Geert; Vandenplas, Ca-
Recomendaciones prácticas                                          roline y Stoop, Ineke (2018). «Response Rates in
                                                                   the European Social Survey: Increasing, Decrea-
Primero, basándonos en nuestros resulta-                           sing or a Matter of Fieldwork Efforts?». Survey
dos, para medir el concepto «calificación                          Methods: Insights from the Field. doi: 10.13094/
para la entrada o exclusión de inmigran-                           SMIF-2018-00003

Reis. Rev.Esp.Investig.Sociol. ISSN-L: 0210-5233. N.º 175, Julio - Septiembre 2021, pp. 3-26
También puede leer