Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Correlación y regresión lineal
1. 1
Tema: Correlación y Regresión Lineal.
Docente: Lic. Denís Leonor Mendoza Rivas
ESTADÍSTICA I
2. 2
DIAGRAMA DE DISPERSIÓN O NUBE DE
PUNTOS
La primera forma de describir una distribución
bidimensional es representar los pares de
valores (x, y) en el plano cartesiano. El
gráfico obtenido recibe el nombre de nube de
puntos o diagrama de dispersión.
Altura
en
cm
. 162 154 180 158 171 169 166 176 163
…
Peso en
Kg
. 61 60 78 62 66 60 54 84 68
…
3. 3
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersión o nube de puntos
Mide187cm.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersión.
4. 4
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersión.
Parece que el peso aumenta con la altura
5. 5
Incorrelación
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Relación directa e inversa
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media
tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelación.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relación inversa o
decreciente.
•Para los valores de X mayores que la media le
corresponden valores de Y mayores también.
•Para los valores de X menores que la media le
corresponden valores de Y menores también.
•Esto se llama relación directa.
6. 6
La covarianza entre dos variables, Sxy, nos indica si la
posible relación entre dos variables es directa o
inversa.
Directa: Sxy>0
Inversa: Sxy<0
Incorreladas: Sxy=0
El signo de la covarianza nos dice si el aspecto de la
nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relación entre las variables.
Covarianza de dos variables X e Y
))((
1
yyxx
n
S i
i
ixy −−= ∑
7. 7
Coef. de correlación lineal de Pearson
La coeficiente de correlación lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
tiene el mismo signo que Sxy por tanto de su signo
obtenemos el que la posible relación sea directa o
inversa.
r es útil para determinar si hay relación lineal entre
dos variables, pero no servirá para otro tipo de
relaciones (cuadrática, logarítmica,...)
yx
xy
SS
S
r =
8. 8
Es adimensional
Sólo toma valores en [-1,1]
Las variables son incorreladas r=0
Relación lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
Siempre que no existan observaciones anómalas.
Propiedades de r
-1 +10
Relación
inversa
perfecta
Relación
directa
casi
perfecta
Variables
incorreladas
12. 12
coeficiente o índice de correlación de
Pearson (r):
Para medir la correlación lineal simple
utilizaremos el coeficiente o índice de
correlación de Pearson (r):
( ) ( )
2 22 2
*
xy
x y
S n xy x y
r
S S
n x x n y y
−
= =
− −
∑ ∑ ∑
∑ ∑ ∑
13. 13
Regresión
El análisis de regresión sirve para predecir una
medida en función de otra medida (o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa
¿Es posible descubrir una relación?
Y = a + bX + e
Donde: el error es aleatorio, pequeño, y no depende de X
14. 14
Encontramos a los siguientes parámetros:
“a” es el valor de la ordenada donde la línea
de regresión se intercepta con el eje Y.
“b” es el coeficiente de regresión poblacional
(pendiente de la línea recta), b Está
expresado en las mismas unidades de Y por
cada unidad de X. Indica el número de
unidades en que varía Y cuando se produce
un cambio, en una unidad, en X (pendiente de
la recta de regresión). Un valor negativo de b
sería interpretado como la magnitud del
decremento en Y por cada unidad de
aumento en X.
e es el error
15. 15
Interpretación del coeficiente de regresión b
El coeficiente b es la pendiente o el coeficiente de la
regresión lineal. La constante a es la ordenada en el
origen.
Si b >O, entonces, la tendencia lineal es creciente, es
decir, a mayores valores de X corresponden mayores
valores de Y. También, a menores valores de X
corresponden menores valores de Y.
Si b < O, entonces, la tendencia lineal es decreciente,
es decir, a mayores valores de X corresponden menores
valores de Y. También, a menores valores de X
corresponden mayores valores de Y.
Si b = 0, entonces, Y = a. Luego, Y permanece
estacionario para cualquier valor de X. En este caso se
dice que, no hay regresión.
16. 16
NOTA.
“b” también se interpreta es el cambio
promedio en Y = a + bX cuando X
cambia una unidad. Esto es, si x¡ se
incrementa 1, entonces y¡ se incrementa
en promedio b unidades.
17. 17
Determinación De Los Parámetros De La Recta De
Regresión A Y B
X
Y
Error= 2
2 4 6 8 10 12 14
10
8
6
4
2
•
•
Error= -6
•
Línea de
estimación
.
.
Y
error=Yˆ-
i
Y
( )∑
2
i Yˆ-YMin
18. 18
Lo que lleva a los siguientes resultados:
22
( , )
( )
i j i j
i i
n x y x yCov x y
b
V x n x x
−
= =
−
∑ ∑ ∑
∑ ∑
a Y bX= −
19. 19
Coeficiente de determinación
La medida de bondad de un ajuste de
regresión, también conocido como
coeficiente de determinación r2, es el que
determinará si la línea de regresión
estimada es adecuada.
( ) ( )
2
2
2 22 2
*
n xy x y
r
n x x n y y
− =
− −
∑ ∑ ∑
∑ ∑ ∑
20. 20
Más sobre r2:
La bondad de un ajuste de un modelo de regresión se
mide usando el coeficiente de determinación r2
r2 es una cantidad que sólo puede tomar valores en
[0, 1].
Cuando un ajuste es bueno, r2 será cercano a uno.
Cuando un ajuste es malo r2 será cercano a cero.
A r2también se le denomina porcentaje de variabilidad
explicado por el modelo de regresión.
r2 puede ser pesado de calcular en modelos de
regresión general, pero en el modelo lineal simple, la
expresión es de lo más sencilla.
21. 21
CASO PRÁCTICO:
Generalmente cada peculiaridad en un hombre es
compartida por sus descendientes, pero en un grado
menor, por lo que tenemos la curiosidad en conocer si la
estatura de los padres (X, cm) influye en la estatura de los
hijos (Y, cm). Se ha recogido la altura de 60 varones, junto
a las de su padre.
Estatura del
Padre 180 160 165 181 177 165 176 154 187 174 196 170 170 180 173 182 174 154 165 196
Estatura del
hijo 175 168 166 174 173 165 179 164 179 168 181 168 171 176 171 168 167 164 166 181
22. 22
En primer lugar debemos graficar el diagrama de dispersión
Observando los puntos vemos que ellos tienen una tendencia lineal.
Diagrama de dispersión del la estatura del padre y del hijo
160
170
180
190
145 155 165 175 185 195 205
Edad del Padre
EdaddelHijo
24. 24
El coeficiente de correlación, y los parámetros de la ecuación:
( ) ( )
[ ]
( ) ( )
2 2 222 2
20*596700-3479*3424
0.8634
20*607779- 3479 * 20*586806- 3424*
n xy x y
r
n x x n y y
−
= = =
− −
∑ ∑ ∑
∑ ∑ ∑
Luego procedemos hallar los coeficientes de regresión estimados,
utilizando las formulas dadas:
( )
2 22
20*596700-3479*3424
0.420
20*607779- 3479
i j i j
i i
n x y x y
b
n x x
−
= = =
−
∑ ∑ ∑
∑ ∑
3479
173.95
20
x
X
n
= = =
∑ 3424
171.2
20
y
Y
n
= = =
∑
3424 0.420*173.95=98.12a Y bX= − = −
Entonces la ecuación de la regresión lineal simple es:
98.12 + 0.420*Xy =
25. 25
Interpretando b:
En quinto lugar interpretamos b=0.420; quiere decir
que por cada unidad que se incremente en la estatura
del padre, la estatura del hijo aumentará
aproximadamente en 0.420 cm.
coeficiente de determinación:
( ) ( )
[ ]
( ) ( )
2 2
2
2 2 222 2
20*596700-3479*3424
0.7455
20*607779- 3479 * 20*586806- 3424*
n xy x y
r
n x x n y y
− = = =
− −
∑ ∑ ∑
∑ ∑ ∑
r2=0.7455, este valor nos indica que existe un alto grado de linealidad
entre las variables, lo cual quiere decir que el 74.55% de las
variaciones en la estatura del hijo esta explicado por la estatura del
padre.
26. 26
Luego procedemos a graficar la línea de regresión estimada
sobre el diagrama de dispersión:
Diagrama de dispersión del la estatura del padre y del hijo
y = 0.4201x + 98.122
R
2
= 0.7455
160
170
180
190
145 155 165 175 185 195 205
Edad del Padre
EdaddelHijo
Es decir:
x=165, entonces:Y=98.12+0.420*165=167.42 cm
Finalmente
podemos llevar
a cabo la
predicción para
determinar la
estatura de un
hijo, cuando el
padre tiene 165
cm de talla.
27. En una fábrica de cierta marca de refresco ha tomado al azar 10
semanas del año, observando la temperatura media correspondiente en
grados centígrados a cada una de ellas y la cantidad de los refrescos
pedidos durante cada uno de dichos períodos.
La información obtenida es la siguiente:
27
Temperatur
a media (°C) 10 28 12 31 30 19 24 5 9
15
Cantidad de
refrescos 21 65 19 72 75 39 67 11 12
24
Calcular:
- La recta de ajuste, grado de dependencia de la temperatura (x) sobre la
cantidad de refrescos.
- El coeficiente de determinación y correlación. ¿con este coeficiente podria
planificarse la producción?