Ajuste por mínimos cuadrados: Regresión Lineal
En general
El modelo de regresión lineal simple consiste en construir una recta de forma que para cada valor de la variable X el valor de Y en la recta se acerque lo más posible a la y real. Para calcular los elementos de esta recta necesitas:
- xˉ e yˉ: la media de cada variable.
- sx,y: la desviación típica, se calcula sxy=N∑xiyi−(xˉ⋅yˉ).
- sx2 y sy2: la varianza de cada variable. Se calcula sx2=N∑xi2−xˉ2 y sy2=N∑yi2−yˉ2.
- r: el coeficiente de correlación, se calcula r=sx⋅sysxy.
Método de los mínimos cuadrados ordinarios
La recta de regresión del tipo y=a+bx que minimiza el error cuadrático medio se define como:
ECM=n1i=1∑n(y1−a−bx1)2
Donde a=y−sx2sxyx, b=sx2sxy y y=y+sx2sxy(x−x)
Con esto se llega a la expresión
ECM=sy2(1−sy2sx2sxy2)
Varianza residual
El residuo es la diferencia entre el valor observado y el valor estimado. Cuanto más pequeño sea, más ajustados a la recta están los valores reales.
ECM=n1i=1∑n(yi−yˆi)2
Ejemplo
Calcula la varianza residual de tres puntos que se alejan de la recta de regresión 2, 4 y 5 unidades.
La varianza residual es n1i=1∑n(yi−yˆi)2=322+32+52≈12,67
Coeficiente de determinación
Para comparar el nivel de ajuste entre la recta y los valores reales, se usa el coeficiente de determinación R2. Mide la proporción de la variabilidad explicada por la recta de regresión. Es el cuadrado del coeficiente de correlación.
R2=sy2syˆ2=sx2⋅sy2sxy2
Ejemplo
Una tienda anota el número de paraguas que vende cada día y la precipitación en centímetros de lluvia durante una semana.
paraguas vendidos
| | | | | | | |
lluvia
| | | | | | | |
Traza una recta de regresión que estime la venta de paraguas según la precipitación del día. ¿Cuántos paraguas se estima que venderán cuando llueva 3,5 cm? Calcula el error cuadrático medio.
La media de paraguas vendidos es yˉ=37,86 y la media de lluvia es xˉ=1,89. La desviación típica es sxy=33,74 y la varianza de x es sx=1,28 y la de y es sy=26,51. La recta de rgresión es:
y−37,86=1,28233,74(x−1,89)⟹y=20,59x−38,92+37,86⟹y=20,59x−1,06
Por lo tanto, un dıˊa que llueva 3,5 cm se espera que venda y=20,59⋅3,5−1,06≈71 paraguas.
El error cuadrático medio es ECM=sy2(1−sy2sx2sxy2)=7,96
La recta de regresión lineal se representa: