ADMINISTRACION: Estadistica Descriptiva parte I

Organización de Datos

El objetivo de la organización de datos es acomodar un conjunto de datos en forma útil para revelar sus características y simplificar ciertos análisis

Nos disponemos a ver algunas técnicas de organización de datos, tales como el diagrama de “tallo y hojas” y la “tabla de distribución de frecuencia” y otras técnicas de presentación gráfica de datos, como son: el “Histograma”, el “Polígono de frecuencias”, la “Ojiva” y el “Gráfico Circular”

Diagrama de tallo y hojas

Diagrama de tallo y hojas: técnica estadística que permite analizar un conjunto de datos y en la cual cada valor numérico se divide en dos partes: los dígitos principales (decenas) constituyen el tallo y los dígitos secundarios (unidades) forman las hojas.

Ejemplo

El estudiante Colin obtuvo en doce exámenes de este semestre las siguientes calificaciones: 86, 79, 92, 84, 69, 88, 91, 83, 96, 78, 82, 85. Construya un diagrama de tallo y hojas para los datos anteriores.

Ejemplo (Solución)

El tallo estaría constituído por las decenas, es decir desde 6 hasta 9

Ejercicio

• Elaborar un diagrama de tallo y hojas con los datos que se muestran a continuación:

• Los datos representan el número de preguntas contestadas correctamente en un prueba de aptitud en 50 aplicaciones

Ejercicio (solución)

El primer intento (sin ordenar) quedaría así:

Ordenando las hojas quedaría así:

FRECUENCIA

Es en número de veces que aparece un dato

Cuando representamos una serie de datos ordenados de menor a mayor en forma tabla con su frecuencia, entonces formamos una distribución de frecuencias

Distribución de frecuencia
• Distribución de frecuencia: es una tabla que indica el número de ocurrencias (frecuencia) de cada uno de los valores existentes o el número de datos (frecuencia) que hay en cada grupo de valores o clase.

• Si la tabla indica el número de ocurrencias (frecuencia) de cada uno de los valores existentes se le llama distribución de frecuencia NO AGRUPADA.

• Si los datos están repartidos en grupos, clases o intervalos, la distribución de frecuencia se llama AGRUPADA.

Ejemplo 1:
La muestra de datos siguiente representa el número de tiros libres fallados por un equipo de basquetbol durante los últimos 7 juegos.

7 2 8 4 2 7 2

x f

2 3

4 1

7 2

8 1

Ejemplo 2:

Encuesta a 25 personas sobre la preferencia algún refresco, los resultados se muestran a continuación

Pepsi	Sprite	Coca	Coca	Coca
Coca	Sprite	Mirinda	Pepsi	Pepsi
Coca	Trisoda	Sprite	Coca	Trisoda
Coca	Sprite	Coca	Coca	Pepsi
Trisoda	Coca	Sprite	Sprite	Coca

X f

Pepsi 4

Coca 11

Trisoda 3

Sprite 6

Mirinda 1

Frecuencia Acumulada ( fa ). Es la suma de frecuencias

Frecuencia Relativa ( fr ). Es dividir la frecuencia entre el número total de datos

Frecuencia Relativa Acumulada ( fra ). Es la suma de frecuencias relativas o es dividir la frecuencia acumulada entre el número total de datos

Podemos formar distribuciones utilizando la frecuencia, frecuencia acumulada, frecuencia relativa, frecuencia relativa acumulada.

X f fa fr fra

Pepsi 4 4 4/25 4/25

Coca 11 15 11/25 15/25

Trisoda 3 18 3/25 18/25

Sprite 6 24 6/25 24/25

Mirinda 1 25 1/25 25/25

La frecuencia relativa y la frecuencia relativa acumulada se pueden expresar en quebrado, decimal o porcentaje.

X f fa fr fra

Pepsi 4 4 .16 16%

Coca 11 15 .44 60%

Trisoda 3 18 .12 72%

Sprite 6 24 .25 97%

Mirinda 1 25 .04 100%

Las distribuciones de frecuencia NO AGRUPADA se usan principalmente para datos (o variables) cualitativos. También se pueden usar para datos cuantitativos discretos, cuando existe un número de valores relativamente pequeño.

Por ejemplo: si vamos a hacer una distribución de frecuencias de los resultados de una encuesta aplicada a 55 personas, en la cual se pregunta por la religión profesada , sus resultados se podrían ordenar con una distribución de frecuencia NO AGRUPADA.

Las tablas (distribución) de frecuencias como en la diapositiva anterior, se denominan apropiadamente tablas (distribuciones) de frecuencias no agrupadas porque cada medida tiene la frecuencia correspondiente.

Cuando los datos son cuantitativos (continuos o discretos) es la distribución de frecuencia agrupada la que se utiliza para ordenarlos.

Una tabla de frecuencias agrupadas, en contraste, presenta las frecuencias de acuerdo con grupos o clases de medidas.

Se usan comúnmente para resumir grandes cantidades de datos continuos que contienen relativamente pocas repeticiones.

Cualquier tabla de frecuencias agrupadas debería poseer las tres características siguientes:

Uniformidad
Unicidad
Completez

Características de una distribución de frecuencia agrupada

Uniformidad. Todos los grupos o clases deben ser del mismo tamaño

Unicidad. Cualquiera de los datos debe pertenecer solo a un grupo o clase. No debe haber ambigüedad en la ubicación de los datos

Completez. El intervalo cubierto por todas las clases o grupos, debe ser suficiente para que se puedan ubicar todos los datos y que ninguno quede fuera de dicho intervalo

Procedimiento para la construcción de una distribución de frecuencia agrupada

1.- Determinar el número de clases de la distribución.

2.- Calcular el tamaño o intervalo de cada clase.

3.- Definir los límites (inferior y superior) de cada una de las clases.

4.- Hacer un conteo de los datos que pertenecen a cada clase.

5.- Presentar los resultados en una tabla.

Determinación del numero de clases
La mayoría de los autores recomienda que el número de clases sea entre 5 y 15 clases, inclusive; aunque algunos dicen que debe estar entre 5 y 20.

También existen varios procedimientos para determinar el número de clases aunque todos ellos se basan en el número total de datos.

El más sencillo de esos procedimientos es el de tomar un número de clases igual al entero más cercano a la raíz cuadrada del número de datos, es decir, si “n” es el número de datos y “k” el número de clases entonces tenemos que:

Nota.- k siempre debe ser el entero más cercano al resultado de la raíz cuadrada de n. Si este valor resulta menor que 5, se deberá hacer igual a 5. Análogamente, si es mayor que 15, se hará igual a 15.

Ejemplo.- Si tenemos 40 datos, el número de clases sería de 6, ya que la raíz cuadrada de 40 es 6.32

Ejemplo.- Si tenemos 50 datos, el número de clases sería de 7, ya que la raíz cuadrada de 50 es 7.07

Otro procedimiento es el de elegir el número más bajo (k) para el número de clases de modo que 2k sea mayor que el número de datos, es decir, si “n” es el número de datos y “k” el número de clases entonces tenemos que:

Ejemplo.- Si se tienen 50 datos, el valor de k para este caso sería de 6 pues 2^6 = 64 y 64 es mayor que 50. Si dijéramos que fuera igual a 5 el resultado sería menor que “n”, es decir 2^5 = 32 y no cumpliría con la regla.

Ejemplo.- Si se tienen 80 datos, el valor de k para este caso sería de 7 pues 2^7 = 128 y éste es mayor que 80. Si dijéramos que fuera igual a 6 el resultado sería menor que “n”, es decir 2^6 = 64 y no cumpliría con la regla.

Un tercer procedimiento es la regla de Sturges la cual dice que el número de clases se calcula así:

k = 3.3(log n) + 1

Ejemplo.- Si se tienen 50 datos, el valor de k para este caso sería de 7 pues 3.3(log 50) es igual a 5.6 mas 1 daría 6.6, lo cual se redondea a 7.

Ejemplo.- Si se tienen 40 datos, el valor de k para este caso sería de 6 pues3.3(log 40) es igual a 5.28 mas 1 tenemos 6.28 que se redondea a 6.

Sin embargo, optaremos por utilizar el más sencillo de los procedimientos, o sea, el de tomar un número de clases igual al entero más cercano a la raíz cuadrada del número de datos

Ya que prácticamente no ocupamos la calculadora, pues una raíz cuadrada es relativamente fácil de calcular.

Ejercicio

•Utilizamos los siguientes datos para elaborar una distribución de frecuencias agrupada y aplicamos la regla de raíz cuadrada de n

•Por lo que el número de grupos o clases en este caso será de 7

Calcular el tamaño o intervalo de cada clase.

Ya que una distribución de frecuencia debe ser uniforme, dividimos el intervalo total de los datos entre el número de clases obtenido en el paso anterior.

Determinemos el intervalo de los datos ( rango ) encontrando el dato mayor y el dato menor.

El dato mayor es 141 y el menor es 68, por lo tanto, el intervalo total de los datos (o rango) es 141-68 =73.

Haciendo la división 73/7 obtenemos 10.42857…. lo cual no resulta práctico, pues este valor tiene muchos decimales y así no lo podemos utilizar.

Analizando ésto podríamos decidir tomar un intervalo de clase de 10, pero si lo hacemos, nuestra distribución no tendría COMPLETEZ, ya que si tenemos 7 clases con un intervalo de 10 cada una, estaremos cubriendo un intervalo total de 7x10 = 70, mientras que el intervalo total de los datos ( rango ) es de 73. Es decir, si sólo cubrimos un intervalo de 70 con las 7 clases, habrá algunos datos que quedarán fuera de dicho intervalo y no tendría COMPLETEZ.

Por otro lado, si decidimos hacer el intervalo de 11, cubriríamos un intervalo total de 7x11 = 77, en el cual cabrían todos los datos, sin embargo, la última clase quedaría un poco vacía.

Lo que vamos a hacer es redondear el resultado obtenido (10.42857) a un NÚMERO INMEDIATO SUPERIOR pero que tenga, a lo más, un decimal más de los que tienen los datos; es decir, si nuestros datos no tienen decimales, entonces el tamaño de clase deberá ser 10.5 ya que éste es un número inmediato superior a 10.42857 con un sólo decimal. Así, de este modo, el intervalo cubierto por las clases es lo más cercano al intervalo de los datos.

Definir los límites (inferior y superior) de cada una de las clases.

Ya decidimos que nuestra distribución sea de 7 clases de 10.5 unidades de tamaño cada una. Ahora vamos a definir los límites de cada una de ellas. El límite inferior de la primera clase lo haremos igual al dato menor (68) y el superior será entonces igual a 68 + 10.5, es decir, 78.5. A su vez, éste último es el límite inferior de la segunda clase y el superior de la misma será: 78.5 + 10.5 = 89, y así sucesivamente. En resumen, tenemos:

Aparentemente estamos listos para el siguiente paso que es el CONTEO, pero nuestra tabla, así como está ahora, no tiene la característica de UNICIDAD.
Supongamos que tenemos un dato igual a 110, así como está planteada nuestra tabla, ese dato quedaría ubicado en la clase IV y a la vez en la V

Para evitar la ambigüedad, le vamos a agregar unos símbolos de desigualdad a los límites de clase, de tal manera que se especifique perfectamente la ubicación de cada dato.

Así, la tabla de distribución estará como se muestra ahora
En la primera clase entran todos los datos (X) que sean mayores o iguales que 68 (68≤X ), pero que sean menores que 78.5 ( X< 78.5). Si queremos ubicar ahora al supuesto dato de 110, notaremos que SÓLO cabe en la clase V, ya que en ésta, estarán los datos mayores o iguales que 110 y menores que 120.5.