jueves, 7 de noviembre de 2013

ANÁLISIS DE DATOS DE DOS VARIABLES

REPRESENTACIÓN DE DATOS DE DOS VARIABLES.

Datos de dos variables: Estos datos constan de valores diferentes que se obtienen del mismo elemento de la población.

Cada una de las dos variables puede ser naturaleza cualitativa o cuantitativa. Como resultado, los datos de dos variables pueden formarse mediante tres combinaciones de tipos de variables:

* Ambas variables son cualitativas (de atributo): Cuando los datos bivariados resultan de dos variables cualitativas (de atributo o categóricas), a menudo los datos se disponen en una tabla de clasificación o de contingencia

* Una variable es cualitativa (de atributo) y otra es cuantitativa (numérica): Cuando los datos se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa.

* Ambas variables son cuantitativas (numéricas):Cuando los datos son resultados de dos variables cuantitativas, los datos suelen expresarse matemáticamente como pares ordenados (X, Y), donde X es la variable de entrada (algunas veces se denomina variable independiente) y Y es la variable de salida (algunas veces se denomina variable dependiente). Se dice que los datos están ordenados porque siempre se escribe primero un valor X, y se explica que están pareados porque para cada valor X existe un valor Y correspondiente que proviene de la misma fuente.

Tabla de Contingencia

La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.

La tabla de contingencia se define por el número de atributos o variables que se analizan conjuntamente y el número de modalidades o niveles de los mismos.

Las tablas de contingencia tienen dos objetivos fundamentales:

* Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas).

* A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la modalidad o nivel que adopte la otra.

Diagrama de Dispersión

Es la grafica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados. La variable de entrada, X, se grafica en el eje horizontal; la variable, Y, se grafica en el eje vertical.

Un diagrama de dispersión se emplea cuando existe una variable que está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de X y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables.

CORRELACIÓN LINEAL

Es la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1:

Diagrama de Dispersión y Análisis de Correlación

Representación gráfica del grado de relación de dos variables cuantitativas.

Características principales:

* Impacto visual: Un diagrama de dispersión muestra la posibilidad de la existencia de correlación entre dos variables de un vistazo.

* Comunicación: Simplifica el análisis de situaciones numéricas complejas.

* Guía de investigación: El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio basadas en la necesidad de conjugar datos y procesos en su utilización.

* Análisis de correlación: Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

Ejemplo

Treinta estudiantes de la universidad fueron identificados y clasificados aleatoriamente según dos variables 1) genero (masculino/femenino) 2) especialización (filosofía y letras/administración/tecnología)

Las frecuencias observadas se representan en la siguiente tabla de contingencias:

ESPECIALIZACIÓN

Masculino | 5 | 6 | 7 | 18 |

Femenino | 6 | 4 | 2 | 12 |

Total | 11 | 10 | 9 | 30 |

Frecuencias marginales

De acuerdo con el ejemplo anterior la hipótesis que se planea es determinar si las opiniones son independientes de acuerdo a las materias de cada especialización o no son independientes. La llamamos hipótesis nula (Ho).

Se basa en que se adjuntan las frecuencias observadas en cada una de las seis celdas y las frecuencias que se esperan para cada celda bajo la posición de que la Ho es verdadera o no.

Para encontrar las frecuencias esperadas debemos hacer lo siguiente:

F: personas seleccionadas que estudian filosofía y letras

A: personas seleccionadas que estudian administración

T: personas seleccionadas que estudian tecnología

M: personas seleccionadas masculinas

F: personas seleccionadas femeninas

Al utilizar las frecuencias marginales podemos escribir las siguientes estimaciones.

P (FL)= 11/30

P (A)= 10/30

P (T)= 9/30 SON LAS PROBABILIDADES MARGINALES

P (M)= 18/30

P (F)= 12/30

Suponiendo que la Ho es verdadera y que las dos variable son independientes entonces:

P (FLnM) = P(FL) * P(M) = 11/30 * 18/30 = 0.22

P (FLnF) = P(FL) * P(F) = 11/30 * 12/30 = 0.1466

P (AnM) = P(A) * P(M) = 10/30 * 18/30 = 0.20 PROBABILIDAD DE

P (AnF) = P(A) * P(F) = 10/30 * 12/30 = 0.1333 LA CELDA

P (TnM) = P(T) * P(M) = 9/30 * 18/30 = 0.18

P (TnF) = P(T) * P(F) = 9/30 * 12/30 = 0.12

Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el número total de observación. Frecuencias esperadas se da con la siguiente fórmula:

Frecuencia esperada (e)= (frecuencia obtenida en e1)(frecuencia obtenida en e2)

Total de observaciones

e= (total de renglón)(total de columna)

Total general

Considerando todo l anterior la tabla queda de la siguiente manera.

Total | 11 | 10 | 9 | 30 |

F.O= frecuencia observada F.e= frecuencia esperada

* Prueba de independencia ; consiste en determinar si:

x² > x²∞

Si es así entonces la Ho se rechaza en el nivel de significancia ∞ de lo contrario se acepta.

Para calcular x² utilizamos la siguiente formula:

x² = ∑i(Oij – eij)²

eij

Y para calcular x²∞ utilizamos la tabla de distribución ji y cuadrada

Nota: para efectos de este curso el valor de x²∞ lo determina el maestro porque este tipo de distribución no se establece en el programa de este curso.

Al aplicar este criterio a este ejemplo se encuentra que da la tabla de distribución ji cuadrada resulta que:

x² =(1.23) para los grados de libertad este dato lo tomaremos como x²∞ y para encontrar el valor de x² aplicaremos la formula anteriormente escrita:

x² = (5 – 6.6)² + (6 - 6)² + (7 – 5.4)² + (6 – 4.4)² + (4 -4)² + (2 – 3.6)²

6.6 6 5.4 4.4 4 3.6

x² = 0.3878 + 0 + 0.4740 + 0.5818 + 0 + 0.7111

x² = 2.1547

De acuerdo a la prueba de independencia si x² > x²∞ se rechaza y como en este ejemplo se cumple esta condición

x² = 2.1547 y x²= 1.23

Entonces decimos que la hipótesis nulo Ho = las decisiones son independientes de la materia que desean escoger por lo tanto se concluye que la opinión de un estudiante referente a sus materias de especialización son independientes.

Medidas de tendencia central

Medidas de de tendencia central

La medidas de centralización nos indican en torno a qué valor
(centro) se distribuyen los datos.

La medidas de centralización son:

Moda

La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por M_o_.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Hallar la moda de la distribución:

2, 3, 3, 4, 4, 4, 5, 5 M_o= 4

Si en un grupo hay dos o varias puntuaciones con la
misma frecuencia y esa frecuencia es la máxima,
la distribución es bimodal o multimodal, es decir, tienevarias modas.

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9M_o= 1, 5, 9

Cuando todas las puntuaciones de un grupo
tienen la misma frecuencia, no haymoda.

2, 2, 3, 3, 6, 6, 9, 9

Si dos puntuaciones adyacentes tienen la frecuencia máxima,
la moda es el promedio de las dos puntuaciones adyacentes.

0, 1, 3, 3, 5, 5, 7, 8Mo = 4

Cálculo de la moda para datos agrupados

1º Todos los intervalos tienen la misma amplitud.

L_i es el límite inferior de la clase modal.

f_i es la frecuencia absoluta de la clase modal.

f_i--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.

f_i-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.

a_i es la amplitud de la clase.

También se utiliza otra fórmula de la moda que da un valor
aproximado de ésta:

Ejemplo

Calcular la moda de una distribución estadística que viene
dada por la siguiente tabla:

	f_i
[60, 63)	5
[63, 66)	18
[66, 69)	42
[69, 72)	27
[72, 75)	8
	100

2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

La fórmula de la moda aproximada cuando existen distintas amplitudes es:

Ejemplo

En la siguiente tabla se muestra las calificaciones
(suspenso, aprobado, notable y sobresaliente) obtenidas
por un grupo de 50 alumnos. Calcular la moda.

	f_i	h_i
[0, 5)	15	3
[5, 7)	20	10
[7, 9)	12	6
[9, 10)	3	3
	50

Mediana

Es el valor que ocupa el lugar central de
todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por M_e_.

La mediana se puede hallar sólo para variables cuantitativas.

Cálculo de la mediana

1 Ordenamos los datos de menor a mayor.

2 Si la serie tiene un número impar de medidas la mediana
es la puntuación central de la misma.

2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5

3 Si la serie tiene un número par de puntuaciones la mediana
es la media entre las dos puntuaciones centrales.

7, 8, 9, 10, 11, 12Me= 9.5

Cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia
acumulada llega hasta la mitad de la suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre

L_i es el límite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas.

F_i-1 es la frecuencia acumulada anterior a la clase mediana.

a_i es la amplitud de la clase.

La mediana es independiente de las amplitudes de los intervalos.

Ejemplo

Calcular la mediana de una distribución estadística que
viene dada por la siguiente tabla:

	f_i	F_i
[60, 63)	5	5
[63, 66)	18	23
[66, 69)	42	65
[69, 72)	27	92
[72, 75)	8	100
	100

100 / 2 = 50

Clase modal: [66, 69)

Media aritmética

La media aritmética es el valor obtenido al sumar
todos los datos y dividir el resultado entre el número total de datos.

es el símbolo de la media aritmética.

Ejemplo

Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

Media aritmética para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias,
la expresión de la mediaes:

Ejercicio de media aritmética

En un test realizado a un grupo de 42 personas se han
obtenido las puntuaciones que muestra la tabla. Calcula la puntuación media.

	x_i	f_i	x_i · f_i
[10, 20)	15	1	15
[20, 30)	25	8	200
[30,40)	35	10	350
[40, 50)	45	9	405
[50, 60	55	8	440
[60,70)	65	4	260
[70, 80)	75	2	150
		42	1 820

Propiedades de la media aritmética

1 La suma de las desviaciones de todas las
puntuaciones de una distribución respecto a la media de la misma igual a cero.

Las suma de las desviaciones de los números 8, 3, 5, 12, 10
de su media aritmética 7.6 es igual a 0:

8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 =

= 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0

2 La media aritmética de los cuadrados de las desviaciones
de los valores de la variable con respecto a un número cualquiera se hace mínima cuando dicho númerocoincide con la media aritmética.

3 Si a todos los valores de la variable se les suma un mismo número,
la media aritmética queda aumentada en dicho número.

4 Si todos los valores de la variable se multiplican por un mismo
número lamedia aritmética queda multiplicada por dicho número.

Observaciones sobre la media aritmética

1 La media se puede hallar sólo para variables cuantitativas.

2 La media es independiente de las amplitudes de los intervalos.

3 La media es muy sensible a las puntuaciones extremas.
Si tenemos una distribución con los siguientes pesos:

65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.

La media es igual a 74 kg, que es una medida de
centralización poco representativa de la distribución.

4 La media no se puede calcular si hay un intervalo
con una amplitud indeterminada.

	x_i	f_i
[60, 63)	61.5	5
[63, 66)	64.5	18
[66, 69)	67.5	42
[69, 72)	70.5	27
[72, ∞ )		8
		100

En este caso no es posible hallar la media porque no
podemos calcular la marca de clase de último intervalo.

martes, 5 de noviembre de 2013

MEDIA ARITMETICA

La Media Aritmética

El método largo

Clases	Fi		Xi	FiXi
8 a menos de 11	10		9.5	95.0
11 a menos de 14	8		12.5	100.0
14 a menos de 17	11		15.5	170.5
17 a menos de 20	9		18.5	166.5
20 a menos de 23	10		21.5	215.0
23 a menos de 26	4		24.5	98.0
26 a menos de 29	1		27.5	27.5
29 a menos de 32	7		30.5	213.5
Total		N=60		1086

Clases	Fi		Xi	FiXi	d´=(Xi-Ms)	d´fi
8 a menos de 11	10		9.5	95.0	-12	-120
11 a menos de 14	8		12.5	100.0	19	-72
14 a menos de 17	11		12.5	170.5	16	-66
17 a menos de 20	9		18.5	166.5	13	-27
20 a menos de 23	10		21.5	215.0	0	0
23 a menos de 26	4		24.5	98.0	3	+12
26 a menos de 29	1		27.5	27.5	6	+6
29 a menos de 32	7		30.5	213.5	9	+63
Total		N=60

Clases	Fi	Xi	D´	d´fi
8 - 11	10	9.5	-1	-10
11- 14	8	12.5	0	+0
14 - 17	11	12.5	+1	+11
17 - 20	9	18.5	+2	+18
20 - 23	10	21.5	+3	+30
23 - 26	4	24.5	+4	+16
26 - 29	1	27.5	+5	+5
29 - 32	7	30.5	+6	+42
Total	N=60

La Mediana

Propiedades

Es influida o afectada por el número de valores que tenga la serie de datos.
Su cálculo no tiene sentido para datos cualitativos.
Se usa mucho su cálculo en distribuciones de frecuencias donde hallan clases abiertas.
Las desviaciones absolutas que s realizan con ella son iguales a un mínimo.
Es afectada por la posición de los valores en la serie de datos.

Cálculo de la Mediana para Datos Simples

Que la serie de datos sea par.

Que la serie de datos sea impar.

Cálculo de la Mediana para Datos Agrupados

Clases	Fi	Fa
2-4	2	2
4-6	3	2
6-8	5	10
8-10	8	18
10-12	6	24
12-14	4	28
14-16	2	30
Total	N=30

La Moda

Propiedades

En una serie de datos monomodal no agrupados, la moda será siempre un valor de la serie.
En una serie discreta cualquier valor puede ser moda excepto que el número de apariciones no excede a otro valor adyacente.
Es un valor hasta cierto punto inestable, pues cambia radicalmente si no se modifica el método de redondeo de datos.

La Moda para Datos Simples

Moda

La Moda para Datos Agrupados

Clases	Fi
70-75	8
75-80	12
80-85	15
85-90	18
90-95	10
95-100	6
100-105	6
Total	N=75