TÉCNICAS AVANZADAS DE REGRESIÓN EN CIENCIAS NATURALES Y SU APLICACIÓN CON R.

Cómo realizarlos, buena praxis e interpretación de los resultados.

Curso impartido en el Museo Nacional de Ciencias Naturales

Madrid, Febrero 2020

Luis M. Carrascal

Dept. Ecología Evolutiva

Museo Nacional de Ciencias Naturales - CSIC

C/ José Gutiérrez Abascal, 2. 28006 Madrid. SPAIN

TEMARIO:

ASPECTOS GENERALES (asignable a muchos de los modelos que se presentarán).

1) Distribuciones, transformaciones y funciones de vínculo con las principales familias (Gaussiana, Gamma, Poisson, Binomial Negativa, Binomial, Frecuencial). Tipos de variables predictoras: covariantes y factores, efectos fijos y aleatorios.

2) Análisis de supuestos canónicos: exploración de los residuos de los modelos, linealidad de efectos, multicolinearidad de variables (índices VIF), puntos influyentes y perdidos, sobredispersión.

3) Poder explicativo y predictivo de los modelos: devianza explicada, partición de la variación en la respuesta (magnitud de efectos parciales), validación cruzada (crossvalidation).

4) Robustez de los resultados: estimas robustas, parametrización por re-muestreo con reemplazo de los datos originales (bootstrapping).

5) Diferentes aproximaciones para la estima de significación. Correcciones “quasi” teniendo en cuenta la sobredispersión. Estimadores HC (heteroskedasticity corrected) para corregir el efecto de la heterocedasticidad de los residuos del modelo.

6) Generación de hipótesis nulas a partir de los propios datos.

7) Corrigiendo patrones de auto-correlación en los residuos (modelos GLS, generalised Least Squares): auto-correlación temporal y espacial.

8) Significación vs. fuerza de la evidencia basada en el criterio de información de Akaike. Comparación rigurosa de modelos competidores. Inferencia multimodelos.

TIPOS DE MODELOS DE ANÁLISIS

1) Modelos generalizados con conteos: regresiones de Poisson.

2) Distribuciones “aumentadas” de ceros: regresión binomial negativa; Hurdle regression para distribuciones infladas de ceros.

3) Variables respuesta nominales: regresiones lógit, logística y multinomiales ordinales (proportional odds regression). Diagramas ROC y criterio AUC.

4) Cuando las relaciones entre las variables predictoras y la respuesta no son lineales: modelos generalizados aditivos (GAM); “atajo” en modelo GLM usando transformaciones polinomiales (centrado de variables).

5) Gestionando la auto-correlación temporal, espacial: modelos GLS.

6) Solventando el problema de la alta correlación entre las variables predictoras: modelos PLS (“Partial Least Square regressions”).

7) Heterogeneidad en las asociaciones respuesta – predictores: regresión de quantiles.

MATERIALES DEL CURSO

Presentación del profesor

Aspectos generales.

Ejemplo de análisis con variables predictoras muy relacionadas - PLS.

Scripts comentados

Construcción de modelos generalizados lineales

Valoración de los residuos del modelo

Resultados del modelo

Modelos nulos para significaciones

Validación cruzada del modelo

Estimaciones robustas del modelo

Bootstrapping del modelo

Comparación de modelos; inferencia multimodelo

Modelos Generalized Least Squares (GLS) (control de la heterocedasticidad y autocorrelación residual)

Modelos generalizados con distribuciones aumentadas de ceros – MODELOS HURDLE y ZERO-INFLATED.

Modelos generalizados Aditivos (GAM).

Modelos por Mínimos Cuadrados Parciales – PLS generales y PCA.

Modelos por Mínimos Cuadrados Parciales – PLS generalizados.

Modelos por Mixtos (lmer, glmer, clmm y gamm).

Regresión por quantiles

Listado de comandos básicos en R

R Reference Card

A short list of the most useful R commands

A short list of some useful R commands

Table of Useful R commands

LITERATURA SELECCIONADA
* Hairston, N.G. (1989). Ecological Experiments: Purpose, Design and Execution. Cambridge Studies in Ecology, Cambridge Univ. Press, Cambridge.
* Scheiner, S.M.; Gurevitch, J. (2001). Design and analysis of ecological experiments. Chapman & Hall, New York.
* Keppel, G. (1991). Design and analysis: a researcher’s handbook. Prentice Hall, New Jersey. Nueva versión.
* Crawley, M.J. (1998). GLIM for Ecologists. Blackwell Science.
* Hastie, T.J.; Tibshirani, R.J. (1997). Generalized Additive Models. Chapman & may.
* Maxwell, S.E.; Delaney, H.D. (1990). Designing Experiments and Analyzing Data. A model comparison perspective. Wadsworth Publishing Company, Belmont, CA. Nueva versión.
* Burnham, K.P.; Anderson, D. (2003). Model Selection and Multi-Model Inference. Springer.
* Davison, A.C.; Hinkley, D.V. (2007). Bootstrap methods and their application. Cambridge Univ. Press. [link]

Actualización: 16/02/2020