—tomado del Boletín Epidemiológico, Vol. 24 No. 4, diciembre 2003

Glosario de análisis multinivel

Ana V. Diez Roux
Divisiones de Medicina y de Epidemiología de la Universidad Columbia
Nueva York, Nueva York, Estados Unidos

PARTE II

ESTIMACIÓN BAYESIANA EMPÍRICA
Término utilizado para referirse a la estimación de un parámetro correspondiente a un grupo dado o a una unidad de nivel superior (por ejemplo, de la intersección o la pendiente de un grupo dado, como b0j y b1j en la ecuación 1 de la entrada modelos multinivel) que se obtiene combinando la información del propio grupo con la de otros grupos similares (10, 19, 20). Esto es especialmente útil para estimar los parámetros de un grupo en el que hay pocas observaciones. Estas estimaciones son promedios ponderados “óptimamente”, que combinan la información procedente del propio grupo con la media de todos los grupos similares. El promedio ponderado hace que la estimación específica del grupo (derivada de datos exclusivamente de ese grupo) se desplace hacia la media de grupos similares. Cuanto menos precisa sea la estimación específica del grupo y menor sea la variabilidad intergrupal, mayor será el desplazamiento hacia la media general grupal. Esto significa que, para un grupo dado, la estimación no sólo se basa en los datos de dicho grupo, sino que también tiene en cuenta las estimaciones de otros grupos y sus características comunes (20). Las estimaciones bayesianas empíricas de parámetros de un grupo dado pueden derivarse de modelos multinivel mediante estimaciones del error a nivel grupal (por ejemplo, U0j y U1j, véase modelos multinivel) para ese grupo concreto. Las estimaciones bayesianas empíricas se denominan también, a veces, “estimaciones reductoras”, pues “reducen” la estimación específica del grupo hacia la media general (aunque, de hecho, cuando la media general es mayor que la estimación específica del grupo, la estimación bayesiana empírica o estimación “reducida” puede ser realmente mayor que la estimación específica del grupo). En salud pública, la estimación bayesiana empírica puede servir, por ejemplo, para obtener mejores estimaciones de las tasas de mortalidad o morbilidad para zonas pequeñas en las que hay pocas observaciones (21), o para estimar las tasas de resultados de diversos proveedores de atención (hospitales, médicos, etc.) (22). En otras aplicaciones (que no corresponden a individuos dentro de grupos, aunque son análogas), la estimación bayesiana empírica de los coeficientes de regresión se ha empleado para mejorar la estimación de asociaciones, en investigaciones sobre el efecto de exposiciones múltiples (23).

VARIABLES AMBIENTALES
En los estudios ecológicos y en el análisis multinivel se emplea a veces el término “variables ambientales” para referirse a mediciones grupales de exposiciones físicas o químicas. Las variables ambientales, así definidas, se han propuesto como “tipo” de variable grupal, diferente de las variables derivadas y de las variables integrales (11). Estas variables no se derivan agregando las características de los individuos, pero sí tienen análogos grupales e individuales (por ejemplo, horas de insolación en la comunidad e información sobre la exposición individual a la luz solar). Contrariamente a las variables derivadas e integrales, que pueden usarse como indicadores de constructos grupales, las variables ambientales grupales se usan exclusivamente como sustitutos de las exposiciones individuales (que pueden ser más difíciles de medir por razones logísticas o metodológicas) y no como indicadores de una propiedad grupal.

EFECTOS FIJOS / COEFICIENTES FIJOS
Son coeficientes de regresión (intersecciones o efectos de las covariables) que no pueden variar aleatoriamente entre las distintas unidades de nivel superior (véase modelos multinivel). Por ejemplo, si se trata de personas consideradas en sus vecindarios, hay dos opciones para integrar en el modelo los efectos del vecindario. Se puede asignar una variable indicadora a cada vecindario y, en ese caso, los coeficientes de vecindario entran en el modelo como coeficientes fijos (llamados a veces “efectos fijos”). Otro procedimiento es suponer que los vecindarios considerados son una muestra aleatoria de un universo de vecindarios, y que los coeficientes del “efecto de vecindario” varían aleatoriamente en torno a una media general (tal como refleja U0j en la ecuación 2 de la entrada modelos multinivel). En este caso, el efecto correspondiente al vecindario entra en el modelo como aleatorio (y se habla a veces de “efectos aleatorios”; véase modelos de efectos aleatorios). En el mismo ejemplo, los coeficientes de las covariables individuales también pueden incluirse en el modelo como fijos o como aleatorios. Por ejemplo, si no se permite que la relación entre ingreso individual y tensión arterial varíe aleatoriamente entre vecindarios, se modela el coeficiente de ingresos individuales como fijo (“coeficiente fijo”). En cambio, si se permite que el coeficiente de ingreso individual varíe aleatoriamente entre vecindarios en torno a una media general (como refleja U1j en la ecuación 3 de la entrada modelos multinivel), el coeficiente correspondiente al ingreso se modela como aleatorio (y a veces se llama “coeficiente aleatorio”; véase modelos de coeficiente aleatorio). Aunque los términos “efectos fijos” y “coeficientes fijos” se distinguen a veces de esta manera, a menudo se usan indistintamente. Los modelos de efectos fijos o de coeficiente fijo son aquellos en que todos los efectos o coeficientes se modelan como fijos. Véase también efectos aleatorios / coeficientes aleatorios.

VARIABLES GRUPALES
Término utilizado para referirse a las variables que caracterizan a los grupos. A menudo se usan indistintamente los términos “variables grupales”, “macrovariables”, “variables macro” y “variables ecológicas” (2, 6, 11, 14, 24). Las variables grupales pueden usarse como sustitutos de datos individuales no disponibles o poco fiables (por ejemplo, los ingresos medios del vecindario como sustituto de los ingresos individuales de las personas del vecindario) o como indicadores de constructos grupales (por ejemplo, los ingresos medios del vecindario como indicador de características del vecindario que pueden estar relacionadas con resultados individuales, con independencia de los ingresos individuales). Este segundo uso (como indicadores de constructos grupales) es de especial interés en el análisis multinivel. Las variables grupales se han clasificado en dos tipos básicos (11, 13, 24), variables derivadas y variables integrales. A veces se distinguen otros dos tipos de variables grupales, variables estructurales (13) y variables ambientales (11). El término “variables contextuales” se ha empleado en general como sinónimo de variables grupales (6, 13), aunque a veces se reserva para las variables grupales derivadas (11, 14).

MODELOS JERÁRQUICOS (LINEALES)
Véase modelos multinivel

VARIABLES INDIVIDUALES
Término empleado para referirse a variables que caracterizan a los individuos y se refieren a constructos individuales (por ejemplo, la edad o los ingresos personales).

FALACIA INDIVIDUALISTA
Término empleado como sinónimo de la falacia atomista. Ocasionalmente también se usa como sinónimo de falacia psicologista.

VARIABLE INTEGRALES
Son un tipo de variables grupales. Como las variables integrales no son una función matemática de las características de los individuos del grupo, son diferentes de las variables derivadas (otro tipo de variable grupal). Las variables integrales no tienen ningún análogo individual y se refieren necesariamente a constructos grupales. Son ejemplos de variables integrales la existencia de ciertos tipos de leyes, el sistema político o económico, la desorganización social o la densidad de población (11, 13). Las variables integrales también se han denominado variables primarias o globales.

CORRELACIÓN INTRACLASE
Es una medida del grado de semejanza entre unidades de nivel inferior pertenecientes a la misma unidad o agrupación de nivel superior (25). En el caso de individuos que forman parte de un grupo o clase (por ejemplo, vecindarios), la correlación intraclase mide el grado en que la variable dependiente tiene valores similares en los individuos del mismo grupo. La correlación intragrupal o intraclase puede considerarse la correlación promedio entre los valores de dos unidades de nivel inferior (por ejemplo, individuos) tomadas al azar de una misma unidad de nivel superior (por ejemplo, vecindario) también tomada al azar. También puede definirse como la proporción de la varianza de la variable dependiente que corresponde a diferencias entre grupos o unidades de nivel superior. En el caso de un modelo simple de intersección aleatoria (25), el coeficiente de correlación intragrupal es la razón de la varianza poblacional intragrupal (00) a la varianza total (00 + ^2) (véase modelos multinivel). Más difícil y a menudo más complejo es estimar el coeficiente de correlación intraclase en modelos con efectos aleatorios de las covariables o cuando la distribución de las variables dependientes no es gausiana.

MODELOS MARGINALES
Véase modelos de promedio poblacional

MODELOS MIXTOS
Término empleado para referirse a los modelos que contienen tanto efectos fijos (o coeficientes fijos) como efectos aleatorios (o coeficientes aleatorios). En los modelos mixtos solo algunos de los coeficientes de regresión (intersecciones o efectos de los regresores) varían aleatoriamente de unas unidades de nivel superior a otras (véase modelos multinivel). Por ello, los modelos mixtos pueden considerarse un caso particular de los modelos multinivel (aunque el término también se usa alguna vez como sinónimo de modelos multinivel en general). A veces se usa el término “modelos mixtos” para referirse a modelos que tienen en cuenta la correlación entre unidades de nivel inferior de otras maneras (o sea, sin incluir efectos o coeficientes aleatorios como en los modelos multinivel), como son los modelos de patrón de covarianza26, modelos marginales o modelos de promedio poblacional.

ANÁLISIS MULTINIVEL
El análisis de niveles múltiples o análisis multinivel es un enfoque analítico apropiado para datos con fuentes anidadas de variabilidad, es decir, unidades de un nivel inferior o microunidades (por ejemplo, individuos) integradas en unidades de un nivel superior o macrounidades (por ejemplo, grupos como escuelas o vecindarios) (5, 10, 19, 24, 25, 27-30). El análisis multinivel permite estudiar simultáneamente los efectos de variables grupales y variables individuales en los resultados individuales, y a la vez da cuenta de la falta de independencia de las observaciones dentro de cada grupo. El análisis multinivel también permite estudiar la variabilidad intergrupal (entre grupos) e intragrupal (dentro de cada grupo), y la manera en que las variables grupales y las individuales están relacionadas con la variabilidad a ambos niveles. Esto quiere decir que los modelos multinivel pueden servir para hacer inferencias respecto de las causas de variación interindividual (o de la relación entre las variables a nivel grupal y a nivel individual con los resultados individuales), pero también pueden hacerse inferencias acerca de la variación entre grupos (si se halla en los datos y en qué medida se explica por las características grupales e individuales). En el análisis multinivel los grupos o los contextos no se consideran de modo inconexo, sino que se conciben como procedentes de un universo de grupos sobre el que se desea hacer inferencias. Por todo ello, el análisis multinivel permite a los investigadores abordar simultáneamente el micronivel de los individuos y el macronivel de los grupos o contextos (5).

El análisis multinivel tiene una amplia gama de aplicaciones en muchas situaciones con fuentes anidadas de variabilidad aleatoria, como las personas en sus vecindarios (5, 30), los pacientes agrupados según el proveedor de atención sanitaria (31), el metanálisis (observaciones anidadas en varias investigaciones) (19, 32), el análisis longitudinal de datos (mediciones en personas, repetidas en el tiempo) (28, 33, 34), las respuestas multifactoriales (resultados múltiples para la misma persona) (5), el análisis de encuestas transversales repetidas (observaciones múltiples anidadas en periodos temporales) (35), el estudio de variaciones geográficas de tasas (tasas en áreas pequeñas que forman parte de regiones o áreas mayores) (36) y la investigación de efectos debidos al entrevistador (entrevistados agrupados según la persona que los entrevistó) (37). Puede asimismo recurrirse al análisis multinivel en situaciones de contextos anidados múltiples (19, 28) (por ejemplo, varias mediciones sucesivas en individuos considerados en sus vecindarios) y en contextos superpuestos o con clasificaciones cruzadas (por ejemplo, niños que pertenecen a distintos vecindarios y asisten a distintas escuelas sin que haya necesariamente una relación entre el vecindario de residencia y la escuela) (38). Los modelos estadísticos empleados en el análisis multinivel se denominan modelos multinivel (25, 28, 29) o modelos jerárquicos lineales (19, 39).

MODELOS MULTINIVEL
Son los modelos estadísticos empleados en el análisis multinivel (19, 25, 28, 29). A menudo “modelos jerárquicos” y “modelos multinivel” se consideran sinónimos. Estos modelos (o sus variantes) han aparecido en publicaciones de distintos campos científicos con nombres diversos, tales como modelos de efectos aleatorios o modelos de coeficientes aleatorios (40-42), “modelos de componentes de la varianza” o “modelos de componentes de la covarianza” (43, 44) y modelos mixtos (26).

Presentamos a continuación un ejemplo simplificado para el caso de una variable dependiente normalmente distribuida, una única variable predictiva a nivel individual (unidad de nivel inferior) y una única variable predictiva a nivel de grupo (unidad de nivel superior). Pueden formularse modelos análogos para variables dependientes no distribuidas normalmente (10, 28, 39, 45).

En el caso del análisis multinivel con dos niveles (por ejemplo, individuos integrados en grupos), el modelo multinivel puede considerase como un sistema de ecuaciones en dos fases.

En la primera fase (nivel 1), se define una regresión a nivel individual para cada grupo o unidad de nivel superior:
(1) Yij = b0j + b1j Iij +ij
ij ~ N (0, ^2) donde
Yij es la variable dependiente para el individuo i-ésimo en el grupo j-ésimo;
Iij es la variable de nivel individual para el individuo i-ésimo en el grupo j-ésimo;
b0j es la intersección específica de grupo;
b1j es el efecto específico en el grupo j de la variable individual.

Se supone que los errores individuales (eij) son independientes y se distribuyen idénticamente con media 0 y varianza ^2. Generalmente se usan los mismos regresores en todos los grupos, pero los coeficientes de regresión (b0j y b1j) pueden variar de un grupo a otro.

En la segunda fase (nivel 2), cada uno de los coeficientes de regresión específicos del grupo o del contexto definidos en la ecuación (1) (b0j y b1j en este ejemplo) se estiman en función de las variables grupales (de nivel superior).
(2) b0j = 00 + 01Gj + U0j
U0j ~ N (0, 00)

(3) b1j = 10 + 11Gj + U1j
U1j ~ N (0, 11)
cov (U0j, U10) = 10
donde
Gj es la variable grupal;
00 es la intersección común para todos los grupos;
01 es el efecto de la variable predictiva grupal en las intersecciones específicas de grupo;
10 es la pendiente común a todos los grupos asociada con la variable individual;
11 es el efecto de la variable predictiva grupal en las pendientes específicas de grupo.

Los errores en las ecuaciones de nivel 2 (U0j y U1j) —a veces llamados “macroerrores” o “errores macro” se suponen distribuidos normalmente, con media 0 y varianzas respectivas 00 y 11, siendo 01 la covarianza entre la intersección y la pendiente. Por lo tanto, el análisis multinivel resume la distribución de los coeficientes específicos de grupo en dos partes: una parte “fija”, común para los diversos grupos (00 y 01 para la intersección y 10 y 11 para la pendiente) y una parte “aleatoria” (U0j para la intersección y U1j para la pendiente) que puede variar entre grupos (véanse también las entradas coeficientes fijos y coeficientes aleatorios).

Al incluir un término correspondiente al error aleatorio en las ecuaciones grupales (2) y (3), los modelos dan cabida a la variabilidad muestral en los coeficientes específicos de grupo (b0j y b1j). La presencia de errores en el nivel superior también permite que las ecuaciones grupales no sean deterministas (es decir, admiten la posibilidad de que en el modelo no se hayan incluido todas las variables pertinentes del nivel macro). El supuesto subyacente es que las intersecciones y pendientes específicas de grupo son muestras aleatorias de una población normalmente distribuida de intersecciones y pendientes específicas de grupo, o alternativamente, que los macroerrores son intercambiables, es decir, que la variabilidad residual en coeficientes específicos de grupo no es sistemática (10).

Otra manera de presentar el modelo que en el análisis multinivel se ajusta a los datos es sustituir en (1) las ecuaciones (2) y (3) para obtener:
(4) Yij =00 + 01Cj + 10 Iij + 11Cj Iij + U0j + U1jIij + ij

El modelo representado en la ecuación (4) incluye los efectos de las variables grupales (01), las variables individuales (10) y su interacción (11) en el resultado individual ij. Estos coeficientes (00, 10 y 11), comunes a todos los individuos independientemente del grupo al que pertenecen, suelen llamarse efectos o coeficientes fijos. El modelo también tiene un componente de intersección aleatoria (U0j) y un componente de pendiente aleatoria (U1j). Los valores de estos componentes varían aleatoriamente entre grupos, por lo que U0j y U1j se denominan efectos o coeficientes aleatorios. Los parámetros de las ecuaciones anteriores (coeficientes fijos, coeficientes aleatorios, varianza de los efectos aleatorios y varianza residual) se estiman simultáneamente mediante métodos iterativos. Las varianzas de nivel 1 y de nivel 2 (^2, 00, 11 y 10) se llaman componentes de la (co)varianza.

Son posibles muchas variantes del modelo general comentado. Por ejemplo, se pueden incluir como aleatorias únicamente las intersecciones específicas de grupo (b0j) (estos modelos también se han llamado modelos de efectos aleatorios). Los modelos que incorporan como aleatorios los efectos de las covariables (b1j en el ejemplo anterior) se denominan a veces modelos de coeficientes aleatorios. Cuando algunos de los coeficientes son fijos y otros son aleatorios, se habla de “modelos de efectos mixtos” o, simplemente, modelos mixtos. Cuando todos los coeficientes se incluyen en el modelo como fijos (sin ningún error aleatorio en las ecuaciones de nivel 2), el modelo se reduce a un modelo de efectos contextuales tradicional. Los modelos multinivel también pueden ampliarse para permitir más de dos niveles (19, 28). Los modelos multinivel también pueden modificarse para permitir contextos no jerárquicos, superpuestos o de clasificación cruzada (por ejemplo, niños considerados simultáneamente en el vecindario donde residen y en la escuela a la que asisten, sin que haya necesariamente una correspondencia directa entre vecindario y escuela) (38).

Referencias:
NOTA: Las referencias 1-18 se incluyeron en la Parte I del Glosario en Vol. 24, No. 3 (2003) del Boletín Epidemiológico.
(19) Bryk AS, Raudenbush SW. Hierarchichal linear models: applications and data analysis methods.Newbury Park: Sage, 1992.
(20) Rice N, Jones A. Multilevel models and health economics. Health Econ 1997;6:561–75.
(21) Clayton D, Kaldor J. Empirical Bayes estimates of age-standardized relative risks for use in disease mapping. Biometrics 1987;43:671–81.
(22) Thomas N, Lonford N, Rolph J. Empirical Bayes methods for estimating hosptial-specific morality rates. Stat Med1994;13:889–903.
(23) Witte JS, Greenland S, Haile RW, et al. Hierarchical regression analysis applied to a study of multiple dietary exposures and breast cancer. Epidemiology 1994;5:612–21.
(24) Von Korff M, Koepsell T, Curry S, et al. Multi-level research in epidemiologic research on health behaviors and outcomes. Am J Epidemiol 1992;135:1077–82.
(25) Snijders TAB, Bosker RJ. Multilevel analysis: an introduction to basic and advanced multilevel modeling. London: Sage, 1999.
(26) Brown H, Prescott R . Applied mixed models in medicine. New York: Wiley, 2000.
(27) Mason W, Wong G, Entwisle B. Contextual analysis through the multilevel linear model. In: Leinhardt S, ed. Sociological methodology. San Francisco: Josey Bass, 1983–1984: 72–103.
(28) Goldstein H. Multilevel statistical models. New York: Halsted Press, 1995.
(29) Kreft I, deLeeuw J. Introducing multilevel modeling. London: Sage, 1998.
(30) Diez-Roux AV. Multilevel analysis in public health research. Annu Rev Public Health 2000;21:171–92.
(31) Sixma HJ, Spreeuwenberg PM, Pasch MAvd. Patient satisfaction with the general practitioner: a two-level analysis. Med Care 1998;36:212–29.
(32) Hedeker D, Gibbons R, Davis J. Random regression models for multicenter clinical trials data. Psychopharmacol Bull1991;27:73–7.
(33) Rutter C, Elashoff R. Analysis of longitudinal data: random coefficient regression modelling. Stat Med1994;13:1211–31.
(34) Cnaan A, Laird NM, Slasor P. Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data. Stat Med 1997;16:2349–80.
(35) DiPrete T, Grusky D. The multi-level analysis of trends with repeated cross-sectional data. Sociol Methodol 1990;20:337–68.
(36) Langford I, Bentham G, McDonald A. Multi-level modelling of geographically aggregated health data: a case study of malignant melanoma mortality and uv exposure in the European community. Stat Med1998;17:41–57.
(37) Hox JP, de Leeuw ED, Kreft IGG. The effect of interviewer and respondent characteristics on the quality of survey data: a multilevel model. In: Biemer PP, Lyberg LE, Mathiowetz NA, et al, eds. Measurement errors in surveys. New York: Wiley, 1991.
(38) Goldstein H. Multilevel cross-classified models. Sociol Methods Res 1994;22:364–75.

Fuente: Publicado originalmente con el título “A glossary for multilevel analysis” en Journal of Epidemiology and Community Health, 56:588-594, 2002.

 

Regresar al temario de el
Boletín Epidemiológico, Vol. 24 No. 4, diciembre 2003