tomado del Boletín
Epidemiológico, Vol. 24 No. 4, diciembre 2003
Glosario de análisis multinivel
Ana V. Diez Roux
Divisiones de Medicina y de Epidemiología de la Universidad Columbia
Nueva York, Nueva York, Estados Unidos
PARTE II
ESTIMACIÓN BAYESIANA EMPÍRICA
Término utilizado para referirse a la estimación de un parámetro
correspondiente a un grupo dado o a una unidad de nivel superior (por ejemplo,
de la intersección o la pendiente de un grupo dado, como b0j
y b1j en la ecuación 1 de la entrada modelos
multinivel) que se obtiene combinando la información del propio
grupo con la de otros grupos similares (10, 19, 20). Esto es especialmente útil
para estimar los parámetros de un grupo en el que hay pocas observaciones.
Estas estimaciones son promedios ponderados óptimamente,
que combinan la información procedente del propio grupo con la media
de todos los grupos similares. El promedio ponderado hace que la estimación
específica del grupo (derivada de datos exclusivamente de ese grupo)
se desplace hacia la media de grupos similares. Cuanto menos precisa sea la
estimación específica del grupo y menor sea la variabilidad intergrupal,
mayor será el desplazamiento hacia la media general grupal. Esto significa
que, para un grupo dado, la estimación no sólo se basa en los
datos de dicho grupo, sino que también tiene en cuenta las estimaciones
de otros grupos y sus características comunes (20). Las estimaciones
bayesianas empíricas de parámetros de un grupo dado pueden derivarse
de modelos multinivel mediante estimaciones del error a nivel grupal (por ejemplo,
U0j y U1j, véase modelos
multinivel) para ese grupo concreto. Las estimaciones bayesianas empíricas
se denominan también, a veces, estimaciones reductoras, pues
reducen la estimación específica del grupo hacia la
media general (aunque, de hecho, cuando la media general es mayor que la estimación
específica del grupo, la estimación bayesiana empírica
o estimación reducida puede ser realmente mayor que la estimación
específica del grupo). En salud pública, la estimación
bayesiana empírica puede servir, por ejemplo, para obtener mejores estimaciones
de las tasas de mortalidad o morbilidad para zonas pequeñas en las que
hay pocas observaciones (21), o para estimar las tasas de resultados de diversos
proveedores de atención (hospitales, médicos, etc.) (22). En otras
aplicaciones (que no corresponden a individuos dentro de grupos, aunque son
análogas), la estimación bayesiana empírica de los coeficientes
de regresión se ha empleado para mejorar la estimación de asociaciones,
en investigaciones sobre el efecto de exposiciones múltiples (23).
VARIABLES AMBIENTALES
En los estudios ecológicos y en el análisis multinivel se
emplea a veces el término variables ambientales para referirse
a mediciones grupales de exposiciones físicas o químicas. Las
variables ambientales, así definidas, se han propuesto como tipo
de variable grupal, diferente de las variables derivadas
y de las variables integrales (11). Estas variables
no se derivan agregando las características de los individuos, pero sí
tienen análogos grupales e individuales (por ejemplo, horas de insolación
en la comunidad e información sobre la exposición individual a
la luz solar). Contrariamente a las variables derivadas e integrales, que pueden
usarse como indicadores de constructos grupales, las variables ambientales grupales
se usan exclusivamente como sustitutos de las exposiciones individuales (que
pueden ser más difíciles de medir por razones logísticas
o metodológicas) y no como indicadores de una propiedad grupal.
EFECTOS FIJOS / COEFICIENTES FIJOS
Son coeficientes de regresión (intersecciones o efectos de las covariables)
que no pueden variar aleatoriamente entre las distintas unidades de nivel superior
(véase modelos multinivel). Por ejemplo, si se
trata de personas consideradas en sus vecindarios, hay dos opciones para integrar
en el modelo los efectos del vecindario. Se puede asignar una variable indicadora
a cada vecindario y, en ese caso, los coeficientes de vecindario entran en el
modelo como coeficientes fijos (llamados a veces efectos fijos).
Otro procedimiento es suponer que los vecindarios considerados son una muestra
aleatoria de un universo de vecindarios, y que los coeficientes del efecto
de vecindario varían aleatoriamente en torno a una media general
(tal como refleja U0j en la ecuación 2 de la entrada
modelos multinivel). En este caso, el efecto correspondiente
al vecindario entra en el modelo como aleatorio (y se habla a veces de efectos
aleatorios; véase modelos de efectos aleatorios). En el
mismo ejemplo, los coeficientes de las covariables individuales también
pueden incluirse en el modelo como fijos o como aleatorios. Por ejemplo, si
no se permite que la relación entre ingreso individual y tensión
arterial varíe aleatoriamente entre vecindarios, se modela el coeficiente
de ingresos individuales como fijo (coeficiente fijo). En cambio,
si se permite que el coeficiente de ingreso individual varíe aleatoriamente
entre vecindarios en torno a una media general (como refleja U1j
en la ecuación 3 de la entrada modelos multinivel), el coeficiente correspondiente
al ingreso se modela como aleatorio (y a veces se llama coeficiente aleatorio;
véase modelos de coeficiente aleatorio). Aunque los términos efectos
fijos y coeficientes fijos se distinguen a veces de esta manera,
a menudo se usan indistintamente. Los modelos de efectos fijos o de coeficiente
fijo son aquellos en que todos los efectos o coeficientes se modelan como fijos.
Véase también efectos aleatorios / coeficientes aleatorios.
VARIABLES GRUPALES
Término utilizado para referirse a las variables que caracterizan
a los grupos. A menudo se usan indistintamente los términos variables
grupales, macrovariables, variables macro y variables
ecológicas (2, 6, 11, 14, 24). Las variables grupales pueden usarse
como sustitutos de datos individuales no disponibles o poco fiables (por ejemplo,
los ingresos medios del vecindario como sustituto de los ingresos individuales
de las personas del vecindario) o como indicadores de constructos grupales (por
ejemplo, los ingresos medios del vecindario como indicador de características
del vecindario que pueden estar relacionadas con resultados individuales, con
independencia de los ingresos individuales). Este segundo uso (como indicadores
de constructos grupales) es de especial interés en el análisis
multinivel. Las variables grupales se han clasificado en dos tipos básicos
(11, 13, 24), variables
derivadas y variables integrales. A veces se
distinguen otros dos tipos de variables grupales, variables estructurales
(13) y variables ambientales (11). El término
variables contextuales se ha empleado en general como sinónimo
de variables grupales (6, 13), aunque a veces se reserva para las variables
grupales derivadas (11, 14).
MODELOS JERÁRQUICOS (LINEALES)
Véase modelos multinivel
VARIABLES INDIVIDUALES
Término empleado para referirse a variables que caracterizan a los
individuos y se refieren a constructos individuales (por ejemplo, la edad o
los ingresos personales).
FALACIA INDIVIDUALISTA
Término empleado como sinónimo de la falacia atomista. Ocasionalmente
también se usa como sinónimo de falacia psicologista.
VARIABLE INTEGRALES
Son un tipo de variables grupales. Como las variables
integrales no son una función matemática de las características
de los individuos del grupo, son diferentes de las variables derivadas (otro
tipo de variable grupal). Las variables integrales no tienen ningún análogo
individual y se refieren necesariamente a constructos grupales. Son ejemplos
de variables integrales la existencia de ciertos tipos de leyes, el sistema
político o económico, la desorganización social o la densidad
de población (11, 13). Las variables integrales también se han
denominado variables primarias o globales.
CORRELACIÓN INTRACLASE
Es una medida del grado de semejanza entre unidades de nivel inferior pertenecientes
a la misma unidad o agrupación de nivel superior (25). En el caso de
individuos que forman parte de un grupo o clase (por ejemplo, vecindarios),
la correlación intraclase mide el grado en que la variable dependiente
tiene valores similares en los individuos del mismo grupo. La correlación
intragrupal o intraclase puede considerarse la correlación promedio entre
los valores de dos unidades de nivel inferior (por ejemplo, individuos) tomadas
al azar de una misma unidad de nivel superior (por ejemplo, vecindario) también
tomada al azar. También puede definirse como la proporción de
la varianza de la variable dependiente que corresponde a diferencias entre grupos
o unidades de nivel superior. En el caso de un modelo simple de intersección
aleatoria (25), el coeficiente de correlación intragrupal es la razón
de la varianza poblacional intragrupal (
00)
a la varianza total (
00
+
^2) (véase
modelos multinivel). Más difícil y a menudo
más complejo es estimar el coeficiente de correlación intraclase
en modelos con efectos aleatorios de las covariables o cuando la distribución
de las variables dependientes no es gausiana.
MODELOS MARGINALES
Véase modelos de promedio poblacional
MODELOS MIXTOS
Término empleado para referirse a los modelos que contienen tanto
efectos fijos (o coeficientes fijos) como efectos
aleatorios (o coeficientes aleatorios). En los modelos mixtos solo algunos
de los coeficientes de regresión (intersecciones o efectos de los regresores)
varían aleatoriamente de unas unidades de nivel superior a otras (véase
modelos multinivel). Por ello, los modelos mixtos pueden
considerarse un caso particular de los modelos multinivel (aunque el término
también se usa alguna vez como sinónimo de modelos multinivel
en general). A veces se usa el término modelos mixtos para
referirse a modelos que tienen en cuenta la correlación entre unidades
de nivel inferior de otras maneras (o sea, sin incluir efectos o coeficientes
aleatorios como en los modelos multinivel), como son los modelos de patrón
de covarianza26, modelos marginales o modelos de promedio poblacional.
ANÁLISIS MULTINIVEL
El análisis de niveles múltiples o análisis multinivel
es un enfoque analítico apropiado para datos con fuentes anidadas de
variabilidad, es decir, unidades de un nivel inferior o microunidades (por ejemplo,
individuos) integradas en unidades de un nivel superior o macrounidades (por
ejemplo, grupos como escuelas o vecindarios) (5, 10, 19, 24, 25, 27-30). El
análisis multinivel permite estudiar simultáneamente los efectos
de variables grupales y variables individuales en los resultados individuales,
y a la vez da cuenta de la falta de independencia de las observaciones dentro
de cada grupo. El análisis multinivel también permite estudiar
la variabilidad intergrupal (entre grupos) e intragrupal (dentro de cada grupo),
y la manera en que las variables grupales y las individuales
están relacionadas con la variabilidad a ambos niveles. Esto quiere decir
que los modelos multinivel pueden servir para hacer
inferencias respecto de las causas de variación interindividual (o de
la relación entre las variables a nivel grupal y a nivel individual con
los resultados individuales), pero también pueden hacerse inferencias
acerca de la variación entre grupos (si se halla en los datos y en qué
medida se explica por las características grupales e individuales). En
el análisis multinivel los grupos o los contextos no se consideran de
modo inconexo, sino que se conciben como procedentes de un universo de grupos
sobre el que se desea hacer inferencias. Por todo ello, el análisis multinivel
permite a los investigadores abordar simultáneamente el micronivel de
los individuos y el macronivel de los grupos o contextos (5).
El análisis multinivel tiene una amplia gama de aplicaciones
en muchas situaciones con fuentes anidadas de variabilidad aleatoria, como las
personas en sus vecindarios (5, 30), los pacientes agrupados según el
proveedor de atención sanitaria (31), el metanálisis (observaciones
anidadas en varias investigaciones) (19, 32), el análisis longitudinal
de datos (mediciones en personas, repetidas en el tiempo) (28, 33, 34), las
respuestas multifactoriales (resultados múltiples para la misma persona)
(5), el análisis de encuestas transversales repetidas (observaciones
múltiples anidadas en periodos temporales) (35), el estudio de variaciones
geográficas de tasas (tasas en áreas pequeñas que forman
parte de regiones o áreas mayores) (36) y la investigación de
efectos debidos al entrevistador (entrevistados agrupados según la persona
que los entrevistó) (37). Puede asimismo recurrirse al análisis
multinivel en situaciones de contextos anidados múltiples (19, 28) (por
ejemplo, varias mediciones sucesivas en individuos considerados en sus vecindarios)
y en contextos superpuestos o con clasificaciones cruzadas (por ejemplo, niños
que pertenecen a distintos vecindarios y asisten a distintas escuelas sin que
haya necesariamente una relación entre el vecindario de residencia y
la escuela) (38). Los modelos estadísticos empleados en el análisis
multinivel se denominan modelos multinivel (25, 28,
29) o modelos jerárquicos lineales (19, 39).
MODELOS MULTINIVEL
Son los modelos estadísticos empleados en el análisis
multinivel (19, 25, 28, 29). A menudo modelos jerárquicos
y modelos multinivel se consideran sinónimos. Estos modelos
(o sus variantes) han aparecido en publicaciones de distintos campos científicos
con nombres diversos, tales como modelos de efectos aleatorios o modelos
de coeficientes aleatorios (40-42), modelos de componentes de la varianza
o modelos de componentes de la covarianza (43, 44) y modelos
mixtos (26).
Presentamos a continuación un ejemplo simplificado para
el caso de una variable dependiente normalmente distribuida, una única
variable predictiva a nivel individual (unidad de nivel inferior) y una única
variable predictiva a nivel de grupo (unidad de nivel superior). Pueden formularse
modelos análogos para variables dependientes no distribuidas normalmente
(10, 28, 39, 45).
En el caso del análisis multinivel con dos niveles (por
ejemplo, individuos integrados en grupos), el modelo multinivel puede considerase
como un sistema de ecuaciones en dos fases.
En la primera fase (nivel 1), se define una regresión a
nivel individual para cada grupo o unidad de nivel superior:
(1) Yij = b0j + b1j
Iij +
ij
ij
~ N (0,
^2) donde
Yij es la variable dependiente para el individuo i-ésimo
en el grupo j-ésimo;
Iij es la variable de nivel individual para el individuo
i-ésimo en el grupo j-ésimo;
b0j es la intersección específica de grupo;
b1j es el efecto específico en el grupo j de la
variable individual.
Se supone que los errores individuales (eij)
son independientes y se distribuyen idénticamente con media 0 y varianza
^2. Generalmente
se usan los mismos regresores en todos los grupos, pero los coeficientes de
regresión (b0j y b1j) pueden
variar de un grupo a otro.
En la segunda fase (nivel 2), cada uno de los coeficientes de
regresión específicos del grupo o del contexto definidos en la
ecuación (1) (b0j y b1j
en este ejemplo) se estiman en función de las variables grupales (de
nivel superior).
(2) b0j =
00
+
01Gj
+ U0j
U0j ~ N (0,
00)
(3) b1j =
10
+
11Gj
+ U1j
U1j ~ N (0,
11)
cov (U0j, U10) =
10
donde
Gj es la variable grupal;
00
es la intersección común para todos los grupos;
01
es el efecto de la variable predictiva grupal en las intersecciones específicas
de grupo;
10
es la pendiente común a todos los grupos asociada con la variable individual;
11
es el efecto de la variable predictiva grupal en las pendientes específicas
de grupo.
Los errores en las ecuaciones de nivel 2 (U0j
y U1j) a veces llamados macroerrores
o errores macro se suponen distribuidos normalmente, con media 0
y varianzas respectivas
00
y
11,
siendo
01
la covarianza entre la intersección y la pendiente. Por lo tanto, el
análisis multinivel resume la distribución de los coeficientes
específicos de grupo en dos partes: una parte fija, común
para los diversos grupos (
00
y
01
para la intersección y 10 y 11
para la pendiente) y una parte aleatoria (U0j para
la intersección y U1j para la pendiente) que puede
variar entre grupos (véanse también las entradas coeficientes
fijos y coeficientes aleatorios).
Al incluir un término correspondiente al error aleatorio
en las ecuaciones grupales (2) y (3), los modelos dan cabida a la variabilidad
muestral en los coeficientes específicos de grupo (b0j
y b1j). La presencia de errores en el nivel superior
también permite que las ecuaciones grupales no sean deterministas (es
decir, admiten la posibilidad de que en el modelo no se hayan incluido todas
las variables pertinentes del nivel macro). El supuesto subyacente es que las
intersecciones y pendientes específicas de grupo son muestras aleatorias
de una población normalmente distribuida de intersecciones y pendientes
específicas de grupo, o alternativamente, que los macroerrores son intercambiables,
es decir, que la variabilidad residual en coeficientes específicos de
grupo no es sistemática (10).
Otra manera de presentar el modelo que en el análisis multinivel
se ajusta a los datos es sustituir en (1) las ecuaciones (2) y (3) para obtener:
(4) Yij =
00
+
01Cj
+
10
Iij +
11Cj
Iij + U0j + U1jIij
+
ij
El modelo representado en la ecuación (4) incluye los efectos
de las variables grupales (
01),
las variables individuales (
10)
y su interacción (
11)
en el resultado individual
ij.
Estos coeficientes (
00,
10
y
11),
comunes a todos los individuos independientemente del grupo al que pertenecen,
suelen llamarse efectos o coeficientes fijos. El modelo también
tiene un componente de intersección aleatoria (U0j)
y un componente de pendiente aleatoria (U1j). Los valores
de estos componentes varían aleatoriamente entre grupos, por lo que U0j
y U1j se denominan efectos o coeficientes aleatorios.
Los parámetros de las ecuaciones anteriores (coeficientes fijos, coeficientes
aleatorios, varianza de los efectos aleatorios y varianza residual) se estiman
simultáneamente mediante métodos iterativos. Las varianzas de
nivel 1 y de nivel 2 (
^2,
00,
11
y
10)
se llaman componentes de la (co)varianza.
Son posibles muchas variantes del modelo general comentado. Por
ejemplo, se pueden incluir como aleatorias únicamente las intersecciones
específicas de grupo (b0j) (estos modelos también
se han llamado modelos de efectos aleatorios). Los modelos que incorporan
como aleatorios los efectos de las covariables (b1j en
el ejemplo anterior) se denominan a veces modelos de coeficientes aleatorios.
Cuando algunos de los coeficientes son fijos y otros son aleatorios, se habla
de modelos de efectos mixtos o, simplemente, modelos mixtos. Cuando
todos los coeficientes se incluyen en el modelo como fijos (sin ningún
error aleatorio en las ecuaciones de nivel 2), el modelo se reduce a un modelo
de efectos contextuales tradicional. Los modelos multinivel también pueden
ampliarse para permitir más de dos niveles (19, 28). Los modelos multinivel
también pueden modificarse para permitir contextos no jerárquicos,
superpuestos o de clasificación cruzada (por ejemplo, niños considerados
simultáneamente en el vecindario donde residen y en la escuela a la que
asisten, sin que haya necesariamente una correspondencia directa entre vecindario
y escuela) (38).
Referencias:
NOTA: Las referencias 1-18 se incluyeron en la Parte
I del Glosario en Vol. 24, No. 3 (2003) del Boletín Epidemiológico.
(19) Bryk AS, Raudenbush SW. Hierarchichal linear models: applications and data
analysis methods.Newbury Park: Sage, 1992.
(20) Rice N, Jones A. Multilevel models and health economics. Health Econ 1997;6:56175.
(21) Clayton D, Kaldor J. Empirical Bayes estimates of age-standardized relative
risks for use in disease mapping. Biometrics 1987;43:67181.
(22) Thomas N, Lonford N, Rolph J. Empirical Bayes methods for estimating hosptial-specific
morality rates. Stat Med1994;13:889903.
(23) Witte JS, Greenland S, Haile RW, et al. Hierarchical regression analysis
applied to a study of multiple dietary exposures and breast cancer. Epidemiology
1994;5:61221.
(24) Von Korff M, Koepsell T, Curry S, et al. Multi-level research in epidemiologic
research on health behaviors and outcomes. Am J Epidemiol 1992;135:107782.
(25) Snijders TAB, Bosker RJ. Multilevel analysis: an introduction to basic
and advanced multilevel modeling. London: Sage, 1999.
(26) Brown H, Prescott R . Applied mixed models in medicine. New York: Wiley,
2000.
(27) Mason W, Wong G, Entwisle B. Contextual analysis through the multilevel
linear model. In: Leinhardt S, ed. Sociological methodology. San Francisco:
Josey Bass, 19831984: 72103.
(28) Goldstein H. Multilevel statistical models. New York: Halsted Press, 1995.
(29) Kreft I, deLeeuw J. Introducing multilevel modeling. London: Sage, 1998.
(30) Diez-Roux AV. Multilevel analysis in public health research. Annu Rev Public
Health 2000;21:17192.
(31) Sixma HJ, Spreeuwenberg PM, Pasch MAvd. Patient satisfaction with the general
practitioner: a two-level analysis. Med Care 1998;36:21229.
(32) Hedeker D, Gibbons R, Davis J. Random regression models for multicenter
clinical trials data. Psychopharmacol Bull1991;27:737.
(33) Rutter C, Elashoff R. Analysis of longitudinal data: random coefficient
regression modelling. Stat Med1994;13:121131.
(34) Cnaan A, Laird NM, Slasor P. Using the general linear mixed model to analyse
unbalanced repeated measures and longitudinal data. Stat Med 1997;16:234980.
(35) DiPrete T, Grusky D. The multi-level analysis of trends with repeated cross-sectional
data. Sociol Methodol 1990;20:33768.
(36) Langford I, Bentham G, McDonald A. Multi-level modelling of geographically
aggregated health data: a case study of malignant melanoma mortality and uv
exposure in the European community. Stat Med1998;17:4157.
(37) Hox JP, de Leeuw ED, Kreft IGG. The effect of interviewer and respondent
characteristics on the quality of survey data: a multilevel model. In: Biemer
PP, Lyberg LE, Mathiowetz NA, et al, eds. Measurement errors in surveys. New
York: Wiley, 1991.
(38) Goldstein H. Multilevel cross-classified models. Sociol Methods Res 1994;22:36475.
Fuente: Publicado originalmente con el título A
glossary for multilevel analysis en Journal of Epidemiology and Community
Health, 56:588-594, 2002.
Regresar al temario de el
Boletín Epidemiológico,
Vol. 24 No. 4, diciembre 2003