Aquí hay algunos tutoriales que me encargue de subir x))
Espero que les sirvan :D
Moda . . .
martes, 1 de octubre de 2013
Organización y representación de datos
El propósito fundamental de la estadística descriptiva es resumir y organizar una gran cantidad de datos referentes a una muestra (lo más habitual) o a una población. Se supone que los datos resumidos y organizados permiten describir adecuadamente la muestra o la población a los efectos de conocerla y, eventualmente, utilizarlos en la estadística inferencial para obtener conclusiones a partir de ellos.
Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados técnicas descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribución de frecuencias) permiten agruparlos, los gráficos permiten visualizarlos, y las medidas estadísticas y las medidas de simetría y curtosis permiten resumirlos reduciéndolos a un solo dato.
Secuencia para organizar y resumir datos individuales
A medida que se van utilizando estos procedimientos, los datos van quedando cada vez más resumidos y organizados. El empleo de dichos procedimientos propios de la estadística descriptiva sigue un orden determinado, como puede apreciarse en el siguiente esquema:
Como puede verse:
a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc.
b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la información en unas pocas páginas).
c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la información en una sola página).
d) Los datos quedan visualizados mediante gráficos.
e) Los datos quedan sintetizados mediante las medidas estadísticas y otras (lo cual permite resumir la información en uno o dos renglones).
Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un gráfico o con medidas estadísticas, etc, la muestra o la población (conjuntos de datos) puede quedar adecuadamente descrita.
Estas sucesivas abstracciones estadísticas implican: a) la reducción del espacio físico donde queda guardada la nueva información, y b) la desaparición de considerable información irrelevante.
Debe distinguirse el fin o propósito perseguido (por ejemplo ordenar los datos), del medio utilizado para ello, que e la técnica descriptiva (por ejemplo, la matriz de datos).
2.2 ORDENAMIENTO Y AGRUPACIÓN DE LOS DATOS: MATRICES Y TABLAS
Una vez que los datos han sido recolectados, se procede a continuación a ordenarlos en una matriz de datos y luego a agruparlos en una tabla de frecuencias.
La forma de ordenarlos y agruparlos dependerá del tipo de variable considerada. Por ejemplo, si son datos relativos a variables cualitativas (niveles de medición nominal y ordinal), no podremos utilizar tablas de frecuencias por intervalos. El siguiente cuadro indica de qué manera se pueden ordenar y agrupar los datos según cada nivel de medición de la variable:
Una vez confeccionada la matriz de datos, se procede luego a resumir aún más esta información mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de este último tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de difícil manejo para procesar la información. Sea de la forma que fuere, los datos ordenados según sus frecuencias suelen denominarse distribución de frecuencias (13).
Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamaño de la muestra y los intervalos (en este último caso sólo para variables cuantitativas).
a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por ejemplo: la frecuencia 2 indica que el dato „católico‟ se repite dos veces, la frecuencia 3 que el dato “clase media” se repite tres veces, y la frecuencia 8 que el dato “17 años” se repite ocho veces.
A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente tabla ilustrativa:
Tipos de frecuencias que pueden indicarse en una tabla de frecuencias x (edad)
|
f
|
f%
|
F
|
F%
|
fr
|
Fr
| |||||
15
|
3
|
15%
|
3
|
15%
|
0.15
|
0.15
| |||||
16
|
7
|
35%
|
10
|
50%
|
0.35
|
0.50
| |||||
17
|
8
|
40%
|
18
|
90%
|
0.40
|
0.90
| |||||
18
|
2
|
10%
|
20
|
100%
|
0.10
|
1
| |||||
n = 20
|
n = 100%
|
------
|
------
|
n = 1
|
------
| ||||||
Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades 16 y 15. La última de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el tamaño de la muestra.
Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas.
Frecuencia relativa (fr).- A veces también llamada proporción, es el cociente entre la frecuencia de un dato x y la frecuencia total o tamaño de la muestra. En la práctica, el tamaño de la muestra se considera como 1, a diferencia del tamaño de la muestra en la frecuencia porcentual, que se considera 100%.
Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades están comprendidas entre 15 y 17 años.
Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las relativas pueden ser frecuencias parciales o una frecuencia total, siendo ésta última la suma de todas frecuencias parciales.
Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en términos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir 200, pero en „proporción‟, las mujeres votaron más (la tercera parte del total) que los hombres (la quinta parte del total). Esta información se obtiene al convertir las frecuencias absolutas en frecuencias porcentuales o en frecuencias relativas (o proporciones).
2) Tamaño de la muestra.- Otro concepto importante es el tamaño de la muestra (n), que designa la cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el tamaño n de la muestra, por lo que el tamaño de la muestra coincide con la frecuencia total.
3) Intervalos.- Un intervalo, también llamado intervalo de clase, es cada uno de los grupos de valores ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila se están considerando las edades de 15 a 16 años. La frecuencia correspondiente a un intervalo es igual a la suma de frecuencias de los valores en él incluidos (2).
Los intervalos presentan algunas características, que son las siguientes:
Tamaño del intervalo (a).- También llamado amplitud o anchura del intervalo, es la cantidad de valores de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 años tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20-25 años tiene una amplitud de 6, puesto que se consideran seis valores.
En general, puede calcularse el tamaño de un intervalo restando el límite superior y el inferior y sumando al resultado el número 1. Por ejemplo, 25 menos 20 da 5, y sumándole 1 da 6.
Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrán encontrarse valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se encontrarán valores intermedios entre 16 y 17 años.
Téngase presente que: a) preferiblemente los intervalos deben tener un tamaño constante, de manera tal que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaños; y b) los intervalos han de ser mutuamente excluyentes, de manera tal que cuando se trata de variables discretas, no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 años está en ambos intervalos y no se podrá saber con seguridad en qué intervalo ubicar dicho valor.
Se pueden sintetizar algunas reglas importantes para la construcción de intervalos de la siguiente manera:
a) Los intervalos deben ser mutuamente excluyentes.
b) Cada intervalo debe incluir el mismo número de valores (constancia de tamaño).
c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser incluidos en algún intervalo).
d) El intervalo superior debe incluir el mayor valor observado
e) El intervalo inferior debe incluir al menor valor observado
f) En variables continuas, es aconsejable expresar los límites aparentes de los intervalos, que los límites reales.
2.3 VISUALIZACIÓN DE LOS DATOS: GRÁFICOS
Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando organizándolos, desde allí, de otras maneras diferentes y con distintos propósitos. Una de estas maneras es la utilización de representaciones gráficas, algunas de las cuales son aptas para representar variables cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas visuales, los gráficos permiten apreciar de un „golpe de vista‟ la información obtenida.
Sector circular
Representación gráfica de forma circular donde cada porción de la „torta‟ representa una frecuencia. Para confeccionarlo se parte de una tabla de frecuencias donde están especificadas las frecuencias en grados (f°), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas (f).
Por ejemplo, si 825 es a 360°, entonces 310 es igual a 360° x 310 dividido por 825, lo cual da un resultado de 135°. Por lo tanto, para representar la frecuencia 310 deberá trazarse un ángulo de 135°.
Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares distintos, uno para varones y otro para mujeres: x
(patología)
|
Sexo
|
Total
|
f°
(varones)
|
f°
(mujeres)
| |||||
Varones
|
Mujeres
| ||||||||
Angina
|
310
|
287
|
597
|
135°
|
113°
| ||||
Bronquitis
|
297
|
429
|
726
|
130°
|
169°
| ||||
Sarampión
|
123
|
120
|
243
|
54°
|
47°
| ||||
Otras
|
95
|
80
|
175
|
41°
|
31°
| ||||
Total
|
825
|
916
|
1691
|
360°
|
360°
| ||||
Diagrama de barras
Representación gráfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De esta manera, las barras „más altas‟ tienen mayor frecuencia.
Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las barras superpuestas y las barras adyacentes. Los dos últimos tipos dan información sobre dos variables al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen:
Las barras también pueden disponerse horizontalmente.
Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas.
Histograma de Pearson
Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este gráfico se compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente:
Como puede apreciarse, en las abscisas se indican los límites inferiores de los intervalos.
Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las alturas (h). Esta última se obtiene dividiendo la frecuencia parcial por el tamaño del intervalo correspondiente.
Suscribirse a:
Comentarios (Atom)