jueves, 7 de noviembre de 2013

ANÁLISIS DE DATOS DE DOS VARIABLES

 REPRESENTACIÓN DE DATOS DE DOS VARIABLES.
Datos de dos variables: Estos datos constan de valores diferentes que se obtienen del mismo elemento de la población.
Cada una de las dos variables puede ser naturaleza cualitativa o cuantitativa. Como resultado, los datos de dos variables pueden formarse mediante tres combinaciones de tipos de variables:
* Ambas variables son cualitativas (de atributo): Cuando los datos bivariados resultan de dos variables cualitativas (de atributo o categóricas), a menudo los datos se disponen en una tabla de clasificación o de contingencia
* Una variable es cualitativa (de atributo) y otra es cuantitativa (numérica): Cuando los datos se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa.
* Ambas variables son cuantitativas (numéricas):Cuando los datos son resultados de dos variables cuantitativas, los datos suelen expresarse matemáticamente como pares ordenados (X, Y), donde X es la variable de entrada (algunas veces se denomina variable independiente) y Y es la variable de salida (algunas veces se denomina variable dependiente). Se dice que los datos están ordenados porque siempre se escribe primero un valor X, y se explica que están pareados porque para cada valor X existe un valor Y correspondiente que proviene de la misma fuente.
Tabla de Contingencia

La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.


La tabla de contingencia se define por el número de atributos o variables que se analizan conjuntamente y el número de modalidades o niveles de los mismos.
Las tablas de contingencia tienen dos objetivos fundamentales:



* Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas).
* A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la modalidad o nivel que adopte la otra.


 Diagrama de Dispersión
Es la grafica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados. La variable de entrada, X, se grafica en el eje horizontal; la variable, Y, se grafica en el eje vertical.
Un diagrama de dispersión se emplea cuando existe una variable que está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de X y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. 


CORRELACIÓN LINEAL

Es la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1:

 Diagrama de Dispersión y Análisis de Correlación

Representación gráfica del grado de relación de dos variables cuantitativas.


Características principales:


* Impacto visual: Un diagrama de dispersión muestra la posibilidad de la existencia de correlación entre dos variables de un vistazo.
* Comunicación: Simplifica el análisis de situaciones numéricas complejas.
* Guía de investigación: El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio basadas en la necesidad de conjugar datos y procesos en su utilización.
* Análisis de correlación: Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.


Ejemplo


Treinta estudiantes de la universidad fueron identificados y clasificados aleatoriamente según dos variables 1) genero (masculino/femenino) 2) especialización (filosofía y letras/administración/tecnología) 

Las frecuencias observadas se representan en la siguiente tabla de contingencias:

ESPECIALIZACIÓN
genero | Filosofía y letras | Administración | Tecnología | Total |
Masculino | 5 | 6 | 7 | 18 |
Femenino | 6 | 4 | 2 | 12 |
Total | 11 | 10 | 9 | 30 |

Frecuencias marginales

De acuerdo con el ejemplo anterior la hipótesis que se planea es determinar si las opiniones son independientes de acuerdo a las materias de cada especialización o no son independientes. La llamamos hipótesis nula (Ho). 
Se basa en que se adjuntan las frecuencias observadas en cada una de las seis celdas y las frecuencias que se esperan para cada celda bajo la posición de que la Ho es verdadera o no.
Para encontrar las frecuencias esperadas debemos hacer lo siguiente:
F: personas seleccionadas que estudian filosofía y letras 
A: personas seleccionadas que estudian administración 
T: personas seleccionadas que estudian tecnología
M: personas seleccionadas masculinas
F: personas seleccionadas femeninas
Al utilizar las frecuencias marginales podemos escribir las siguientes estimaciones.


P (FL)= 11/30
P (A)= 10/30 
P (T)= 9/30 SON LAS PROBABILIDADES MARGINALES
P (M)= 18/30
P (F)= 12/30



Suponiendo que la Ho es verdadera y que las dos variable son independientes entonces:


P (FLnM) = P(FL) * P(M) = 11/30 * 18/30 = 0.22
P (FLnF) = P(FL) * P(F) = 11/30 * 12/30 = 0.1466
P (AnM) = P(A) * P(M) = 10/30 * 18/30 = 0.20 PROBABILIDAD DE 
P (AnF) = P(A) * P(F) = 10/30 * 12/30 = 0.1333 LA CELDA 
P (TnM) = P(T) * P(M) = 9/30 * 18/30 = 0.18
P (TnF) = P(T) * P(F) = 9/30 * 12/30 = 0.12



Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el número total de observación. Frecuencias esperadas se da con la siguiente fórmula:

Frecuencia esperada (e)= (frecuencia obtenida en e1)(frecuencia obtenida en e2)

Total de observaciones

e= (total de renglón)(total de columna)

Total general



Considerando todo l anterior la tabla queda de la siguiente manera.
Genero | Filosofía y letra | Administración | Tecnológico | Total |
Masculino | F.O= 5P(FLnM)= 0.22F.e= 6.6 | F.O=6P(AnM)=0.20F.e= 6 | F.O= 7P(TnM)= 0.18F.e= 5.4 | 18 |
Femenino | F.O= 6P(FLnF)= 0.1466F.e= 4.4 | F.O=4P(AnF)=0.1333F.e= 4 | F.O= 2P(TnF)= 0.12F.e= 3.6 | 12 |
Total | 11 | 10 | 9 | 30 |


F.O= frecuencia observada F.e= frecuencia esperada

* Prueba de independencia ; consiste en determinar si:
x² > x²∞



Si es así entonces la Ho se rechaza en el nivel de significancia ∞ de lo contrario se acepta.
Para calcular x² utilizamos la siguiente formula:
x² = ∑i(Oij – eij)²
eij


Y para calcular x²∞ utilizamos la tabla de distribución ji y cuadrada 
Nota: para efectos de este curso el valor de x²∞ lo determina el maestro porque este tipo de distribución no se establece en el programa de este curso.


Al aplicar este criterio a este ejemplo se encuentra que da la tabla de distribución ji cuadrada resulta que:
x² =(1.23) para los grados de libertad este dato lo tomaremos como x²∞ y para encontrar el valor de x² aplicaremos la formula anteriormente escrita:
x² = (5 – 6.6)² + (6 - 6)² + (7 – 5.4)² + (6 – 4.4)² + (4 -4)² + (2 – 3.6)² 

6.6 6 5.4 4.4 4 3.6

x² = 0.3878 + 0 + 0.4740 + 0.5818 + 0 + 0.7111

x² = 2.1547

De acuerdo a la prueba de independencia si x² > x²∞ se rechaza y como en este ejemplo se cumple esta condición
x² = 2.1547 y x²= 1.23
Entonces decimos que la hipótesis nulo Ho = las decisiones son independientes de la materia que desean escoger por lo tanto se concluye que la opinión de un estudiante referente a sus materias de especialización son independientes.

Medidas de tendencia central

Medidas de de tendencia central

La medidas de centralización nos indican en torno a qué valor
 (centro) se distribuyen los datos.
La medidas de centralización son:

Moda

La moda es el valor que tiene mayor frecuencia absoluta.
Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas.
Hallar la moda de la distribución:
2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay dos o varias puntuaciones con la
misma frecuencia y esa frecuencia es la máxima,
 la distribución es bimodal o multimodal, es decir, tienevarias modas.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9
Cuando todas las puntuaciones de un grupo
tienen la misma frecuenciano haymoda.
2, 2, 3, 3, 6, 6, 9, 9
Si dos puntuaciones adyacentes tienen la frecuencia máxima,
 la moda es el promedio de las dos puntuaciones adyacentes.
0, 1, 3, 3, 5, 5, 7, 8Mo = 4

Cálculo de la moda para datos agrupados

1º Todos los intervalos tienen la misma amplitud.

fórmula de la moda
Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.
También se utiliza otra fórmula de la moda que da un valor
 aproximado
 de ésta:
moda

Ejemplo

Calcular la moda de una distribución estadística que viene
dada por la siguiente tabla:
fi
[60, 63)5
[63, 66)18
[66, 69)42
[69, 72)27
[72, 75)8
100
moda
moda

2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.
alturas
La clase modal es la que tiene mayor altura.
moda

La fórmula de la moda aproximada cuando existen distintas amplitudes es:
moda

Ejemplo

En la siguiente tabla se muestra las calificaciones
(suspenso, aprobado, notable y sobresaliente) obtenidas
por un grupo de 50 alumnos. Calcular la moda.
fihi
[0, 5)153
[5, 7)2010
[7, 9)126
[9, 10)33
50
moda
moda

Mediana

Es el valor que ocupa el lugar central de
todos los datos cuando éstos están ordenados de menor a mayor.
La mediana se representa por Me.
La mediana se puede hallar sólo para variables cuantitativas.

Cálculo de la mediana

Ordenamos los datos de menor a mayor.
Si la serie tiene un número impar de medidas la mediana
es la puntuación central de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5
Si la serie tiene un número par de puntuaciones la mediana
es la media entre las dos puntuaciones centrales.
7, 8, 9, 10, 11, 12Me= 9.5

Cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia
acumulada
 llega hasta la mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre cociente.
mediana
Li es el límite inferior de la clase donde se encuentra la mediana.
cociente es la semisuma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos.

Ejemplo

Calcular la mediana de una distribución estadística que
viene dada por la siguiente tabla:
fiFi
[60, 63)55
[63, 66)1823
[66, 69)4265
[69, 72)2792
[72, 75)8100
100
100 / 2 = 50
Clase modal: [66, 69)
mediana

Media aritmética

La media aritmética es el valor obtenido al sumar
todos los datos y dividir el resultado entre el número total de datos.
símbolo de la media aritmética es el símbolo de la media aritmética.
fórmula de la media
media

Ejemplo

Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
media aritmética

Media aritmética para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias,
la expresión de la mediaes:
media
media

Ejercicio de media aritmética

En un test realizado a un grupo de 42 personas se han
obtenido las puntuaciones que muestra la tabla. Calcula la puntuación media.
xifixi · fi
[10, 20)15115
[20, 30)258200
[30,40)3510350
[40, 50)459405
[50, 60558440
[60,70)654260
[70, 80)752150
421 820
media

Propiedades de la media aritmética

La suma de las desviaciones de todas las
 puntuaciones de una distribución respecto a la media de la misma igual a cero.
expresión
Las suma de las desviaciones de los números 8, 3, 5, 12, 10
de su media aritmética 7.6 es igual a 0:
8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 =
= 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0
La media aritmética de los cuadrados de las desviaciones
de los valores de la variable con respecto a un número cualquiera se hace mínima cuando dicho númerocoincide con la media aritmética.
mínimo
Si a todos los valores de la variable se les suma un mismo número,
la media aritmética queda aumentada en dicho número.
Si todos los valores de la variable se multiplican por un mismo
número lamedia aritmética queda multiplicada por dicho número.

Observaciones sobre la media aritmética

La media se puede hallar sólo para variables cuantitativas.
La media es independiente de las amplitudes de los intervalos.
La media es muy sensible a las puntuaciones extremas.
Si tenemos una distribución con los siguientes pesos:
65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.
La media es igual a 74 kg, que es una medida de
centralización
 poco representativa de la distribución.
La media no se puede calcular si hay un intervalo
con una amplitud indeterminada.
xifi
[60, 63)61.55
[63, 66)64.518
[66, 69)67.542
[69, 72)70.527
[72, ∞ )8
100
En este caso no es posible hallar la media porque no
podemos calcular la marca de clase de último intervalo.

martes, 5 de noviembre de 2013

MEDIA ARITMETICA

    La Media Aritmética para Datos Simples

    X = X1/n (no están agrupados)
    Ejemplo: Sea la serie X=1,4,5,7,8,10
    X =35/6=5.83
    8.1.3. La Media Aritmética para Datos Agrupados
    Existen tres métodos para calcular la media aritmética en una serie de datos agrupados que son:
     El método largo: X=Fi*Xi
                                                       n
    ClasesFiXiFiXi
    8 a menos de 11109.595.0
    11 a menos de 14812.5100.0
    14 a menos de 171115.5170.5
    17 a menos de 20918.5166.5
    20 a menos de 231021.5215.0
    23 a menos de 26424.598.0
    26 a menos de 29127.527.5
    29 a menos de 32730.5213.5
    TotalN=601086
    X= 1086=18.10
             60
    La interpretación de este cálculo es que estos estudiantes promedian una edad en conjunto de 18 años y 1 mes.


    8.1.3.2. El método Abreviado en Unidades Originales
    X = Ms + (d´fi/n)
    Este método parte de la propiedad que dice que las desviaciones con relación a la media son iguales a cero. Lo primero que debe hacerse es elegir una medida supuesta (Ms), que no sea la media aritmética. Esto es un punto cualquiera de los puntos medios o marcas de clases. Como ejemplo, se elige como MS el punto 21.5.
    Las desviaciones con relación a la media supuesta, las obtendrá restando cada punto medio o marca de clases menos la media supuesta. Esto es, 9.5-21.5=-12.
    Edades de una población de 60 personas

    Clases
    FiXiFiXid´=(Xi-Ms)
    d´fi
    8 a menos de 11109.595.0
    -12
    -120
    11 a menos de 14812.5100.0
    19
    -72
    14 a menos de 171112.5170.5
    16
    -66
    17 a menos de 20918.5166.5
    13
    -27
    20 a menos de 231021.5215.0
    0
    0
    23 a menos de 26424.598.0
    3
    +12
    26 a menos de 29127.527.5
    6
    +6
    29 a menos de 32730.5213.5
    9
    +63
    TotalN=60

     -285

                  -204
     +81


    X=21.5+(-204/60)=21.5+(-3.4)=18.10
    8.1.3.3. Método Abreviado por Intervalos de Clases
    Este método se parece bastante al anterior, diferenciándose en que aquí se hace uso del intervalo de la distribución. Cuando la distribución esta formada, el intervalo de la misma se obtiene restando dos límites superiores sucesivos o dos límites inferiores sucesivos.
    Ejemplo:
    a) 23-20=3
    b) 11-8= 3
    X= Ms+(d´fi/n)i

    Clases
    FiXi
    d´fi
    8 - 11
    10
    9.5
    -1
    -10
    11- 14
    8
    12.5
    0
    +0
    14 - 17
    11
    12.5
    +1
    +11
    17 - 20
    9
    18.5
    +2
    +18
    20 - 23
    10
    21.5
    +3
    +30
    23 - 26
    4
    24.5
    +4
    +16
    26 - 29
    1
    27.5
    +5
    +5
    29 - 32
    7
    30.5
    +6
    +42
    TotalN=60







    Tenemos por ejemplo el punto medio 12.5, o sea (Ms9. Las desviaciones se obtendrán contando positivamente por debajo de la media supuesta y negativamente por encima. Luego multiplica las desviaciones por las frecuencias de clases, luego divide por el total de frecuencias (60) y lo que le dé lo multiplica por el intervalo de clases (3). Luego el resultado de este factor de corrección lo suma a la media supuesta elegida anteriormente, o sea, 12.5.

    X =12.5+ (112/60)3
    X =12.5+5.6 = 18.10

      • La Mediana

      Es una medida de posición dentro del conjunto de medidas de tendencia central, esto así, porque se calcula localizando un valor en la serie de datos. La mediana se comporta de tal manera que divide la serie de datos en partes dos iguales, de tal manera que la mitad son mayores que ella y la otra mitad son menores que ella.
      • Propiedades

      • Es influida o afectada por el número de valores que tenga la serie de datos.
      • Su cálculo no tiene sentido para datos cualitativos.
      • Se usa mucho su cálculo en distribuciones de frecuencias donde hallan clases abiertas.
      • Las desviaciones absolutas que s realizan con ella son iguales a un mínimo.
      • Es afectada por la posición de los valores en la serie de datos.
      • Cálculo de la Mediana para Datos Simples

      Me=Mediana
      Se presentan dos casos:
      • Que la serie de datos sea par.
      Ejemplo: X=1,2,3,4,5,6,7,8.
      Me= a la semisuma de los valores que dividen la serie en partes iguales o sea,
      Me= 4+5=9=4.5
      • 2
      • Que la serie de datos sea impar.
      Ejemplo: X=1,2,3,4,5.
      Aquí la mediana se localiza de forma directa o sea, Me=3, es decir, el valor que divide la serie en dos partes iguales.
      • Cálculo de la Mediana para Datos Agrupados

      Fórmula
      Me = Li + [(n/2 – Fa-i)/Fi]
      Me =Mediana
      Li =Límite inferior de la clase mediana
      n/2 = Punto que sirve para localizar la clase mediana.
      Fa – 1= Total de Frecuencias acumuladas antes de la clase mediana.
      Fi= Frecuencia simple de la clase mediana
      I= Intervalo de clase de la distribución.

      Calculemos la mediana con estos datos: n/2= 30/2=15. Este punto o valor se ubica en la columna de frecuencias acumuladas. En algunos casos este punto es igual a un valor acumulado, en otro caso, usted elegirá el valor acumulado que excede al punto n/2. Como se puede observar de acuerdo al punto n/2=15 la clase mediana será (8-10), tomará de esta clase los datos que le interesan para completar la fórmula.

      Clases
      FiFa
      2-4
      2
      2
      4-6
      3
      2
      6-8
      5
      10
      8-10
      8
      18
      10-12
      6
      24
      12-14
      4
      28
      14-16
      2
      30
      TotalN=30
      Me= 8 + [(30/2 – 10)/8]2                 
      Me= 8 + [(15-10)/8]2
      Me= 8 + (5/8)2
      Me= 8 + (0.625) 2
      Me= 8+ 1.25 = 9.25
      • La Moda

      Es el valor que más se repite en una serie de datos. Al igual que la media aritmética y la median es un buen indicador para describir y resumir una serie de datos.
      • Propiedades

      • En una serie de datos monomodal no agrupados, la moda será siempre un valor de la serie.
      • En una serie discreta cualquier valor puede ser moda excepto que el número de apariciones no excede a otro valor adyacente.
      • Es un valor hasta cierto punto inestable, pues cambia radicalmente si no se modifica el método de redondeo de datos.
      • La Moda para Datos Simples

      Mo = Moda
      Ejemplo: X = 2, 3, 4, 5, 5, 6,7. (Pesos en libras de un grupo de niños que acaba de nacer). La moda es el 5, ya que es el valor que más se repite.
      • La Moda para Datos Agrupados

      Mo=Li+[Δ1/Δ1+Δ2]i
      Li= Límite inferior de clase.
      Δ1= Frecuencia simple premodal menos la frecuencia modal (no se toma en cuenta el signo).
      Δ2= Frecuencia simple de la clase modal menos la frecuencia simple posmodal.
      i= Intervalo de clase.
      Clases
      Fi
      70-75
      8
      75-80
      12
      80-85
      15
      85-90
      18
      90-95
      10
      95-100
      6
      100-105
      6
      TotalN=75
      La clase modal se obtiene escogiendo aquella que tenga la frecuencia simple más alta.
      Δ1=15-18, o sea, la frecuencia premodal menos la modal (sin tomar en cuenta los signos).
      Δ2=(-3), o sea, 3.
      Δ2=18-10, o sea, la frecuencia modal menos la posmodal, es decir, 18-10=8.
      Mo= 85+ [(3)/ (3+8)]5 = 85+ (3/10)5= 86.36
      Imaginando que estos datos muestran lo que gana cada uno de esos muchachos que están en los semáforos diariamente, se determina que ganan diariamente una cantidad que fluctúa entre los 85-90 pesos.