REPRESENTACIÓN DE DATOS DE DOS VARIABLES.
Datos de dos variables: Estos datos constan de valores diferentes que se obtienen del mismo elemento de la población.
Cada una de las dos variables puede ser naturaleza cualitativa o cuantitativa. Como resultado, los datos de dos variables pueden formarse mediante tres combinaciones de tipos de variables:
* Ambas variables son cualitativas (de atributo): Cuando los datos bivariados resultan de dos variables cualitativas (de atributo o categóricas), a menudo los datos se disponen en una tabla de clasificación o de contingencia
* Una variable es cualitativa (de atributo) y otra es cuantitativa (numérica): Cuando los datos se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa.
* Ambas variables son cuantitativas (numéricas):Cuando los datos son resultados de dos variables cuantitativas, los datos suelen expresarse matemáticamente como pares ordenados (X, Y), donde X es la variable de entrada (algunas veces se denomina variable independiente) y Y es la variable de salida (algunas veces se denomina variable dependiente). Se dice que los datos están ordenados porque siempre se escribe primero un valor X, y se explica que están pareados porque para cada valor X existe un valor Y correspondiente que proviene de la misma fuente.
Tabla de Contingencia
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.
La tabla de contingencia se define por el número de atributos o variables que se analizan conjuntamente y el número de modalidades o niveles de los mismos.
Las tablas de contingencia tienen dos objetivos fundamentales:
* Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas).
* A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la modalidad o nivel que adopte la otra.
Diagrama de Dispersión
Es la grafica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados. La variable de entrada, X, se grafica en el eje horizontal; la variable, Y, se grafica en el eje vertical.
Un diagrama de dispersión se emplea cuando existe una variable que está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de X y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables.
CORRELACIÓN LINEAL
Es la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1:
Diagrama de Dispersión y Análisis de Correlación
Representación gráfica del grado de relación de dos variables cuantitativas.
Características principales:
* Impacto visual: Un diagrama de dispersión muestra la posibilidad de la existencia de correlación entre dos variables de un vistazo.
* Comunicación: Simplifica el análisis de situaciones numéricas complejas.
* Guía de investigación: El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio basadas en la necesidad de conjugar datos y procesos en su utilización.
* Análisis de correlación: Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.
Ejemplo
Treinta estudiantes de la universidad fueron identificados y clasificados aleatoriamente según dos variables 1) genero (masculino/femenino) 2) especialización (filosofía y letras/administración/tecnología)
Las frecuencias observadas se representan en la siguiente tabla de contingencias:
genero | Filosofía y letras | Administración | Tecnología | Total |
Masculino | 5 | 6 | 7 | 18 |
Femenino | 6 | 4 | 2 | 12 |
Total | 11 | 10 | 9 | 30 |
Frecuencias marginales
Se basa en que se adjuntan las frecuencias observadas en cada una de las seis celdas y las frecuencias que se esperan para cada celda bajo la posición de que la Ho es verdadera o no.
Para encontrar las frecuencias esperadas debemos hacer lo siguiente:
F: personas seleccionadas que estudian filosofía y letras
A: personas seleccionadas que estudian administración
T: personas seleccionadas que estudian tecnología
M: personas seleccionadas masculinas
F: personas seleccionadas femeninas
Al utilizar las frecuencias marginales podemos escribir las siguientes estimaciones.
P (FL)= 11/30
P (A)= 10/30
P (T)= 9/30 SON LAS PROBABILIDADES MARGINALES
P (M)= 18/30
P (F)= 12/30
Suponiendo que la Ho es verdadera y que las dos variable son independientes entonces:
P (FLnM) = P(FL) * P(M) = 11/30 * 18/30 = 0.22
P (FLnF) = P(FL) * P(F) = 11/30 * 12/30 = 0.1466
P (AnM) = P(A) * P(M) = 10/30 * 18/30 = 0.20 PROBABILIDAD DE
P (AnF) = P(A) * P(F) = 10/30 * 12/30 = 0.1333 LA CELDA
P (TnM) = P(T) * P(M) = 9/30 * 18/30 = 0.18
P (TnF) = P(T) * P(F) = 9/30 * 12/30 = 0.12
Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el número total de observación. Frecuencias esperadas se da con la siguiente fórmula:
Frecuencia esperada (e)= (frecuencia obtenida en e1)(frecuencia obtenida en e2)
Frecuencia esperada (e)= (frecuencia obtenida en e1)(frecuencia obtenida en e2)
Total de observaciones
e= (total de renglón)(total de columna)
Total general
Considerando todo l anterior la tabla queda de la siguiente manera.
Genero | Filosofía y letra | Administración | Tecnológico | Total |
Masculino | F.O= 5P(FLnM)= 0.22F.e= 6.6 | F.O=6P(AnM)=0.20F.e= 6 | F.O= 7P(TnM)= 0.18F.e= 5.4 | 18 |
Femenino | F.O= 6P(FLnF)= 0.1466F.e= 4.4 | F.O=4P(AnF)=0.1333F.e= 4 | F.O= 2P(TnF)= 0.12F.e= 3.6 | 12 |
Total | 11 | 10 | 9 | 30 |
* Prueba de independencia ; consiste en determinar si:
x² > x²∞
Si es así entonces la Ho se rechaza en el nivel de significancia ∞ de lo contrario se acepta.
Para calcular x² utilizamos la siguiente formula:
x² = ∑i(Oij – eij)²
eij
Nota: para efectos de este curso el valor de x²∞ lo determina el maestro porque este tipo de distribución no se establece en el programa de este curso.
x² =(1.23) para los grados de libertad este dato lo tomaremos como x²∞ y para encontrar el valor de x² aplicaremos la formula anteriormente escrita:
x² = (5 – 6.6)² + (6 - 6)² + (7 – 5.4)² + (6 – 4.4)² + (4 -4)² + (2 – 3.6)²
6.6 6 5.4 4.4 4 3.6
x² = 2.1547 y x²= 1.23
Entonces decimos que la hipótesis nulo Ho = las decisiones son independientes de la materia que desean escoger por lo tanto se concluye que la opinión de un estudiante referente a sus materias de especialización son independientes.