---
title: "Descripción, exploración y comparación de datos"
---

## ¿Qué compañía tiene la mejor velocidad de transferencia de datos?

El conjunto de datos *"velocidades de datos en aeropuertos"* lista las velocidades de transferencia de datos 

- Medidos por la compañía RootMetrics - En 50 aeropuertos de EUA. 

- Considera las 4 principales compañias proveedoras del servicio (Verizon, Sprint, AT&T y T-Mobile) 

- La unidad de medida es unidades de megabits (1 millón de bits) por segundo (Mbps)


## Gráfica de las velocidades de datos

![Figura 1. Gráfica de puntos de las velocidades de datos para smartphone](mbps.png)

El análisis del gráfico sugiere que Verizon tiene el mejor desempeño global, con velocidades de datos que tienden a ser más altas que de las otras tres compañías.

¿Es correcta esta interpretación? ¿Por qué podría ser subjetiva?

::: {.callout-caution collapse="true"}
## Ejercicio: Expande para replicar la gráfica

Replica la gráfica descargando el conjunto de datos <https://media.pearsoncmg.com/aw/aw_triola_elemstats_13_2018/datasets/Excel.zip>

Carga la base de datos

```{r}
library(readxl)
velocidades <- read_excel("32 - Airport Data Speeds.xlsx")
```

Utiliza un gráfico de puntos

```{r warning=FALSE}
# Carga librería
library (ggplot2)
# Conoce tus datos
summary(velocidades)
# Renombra
names(velocidades)[names(velocidades) == "AIRPORT CODE"] <- "airport"
names(velocidades)[names(velocidades) == "AT&T"] <- "ATT"
names(velocidades)[names(velocidades) == "T-MOBILE"] <- "TMOBILE"
# Convierte a data frame
#velocidades<-data.frame(velocidades)
# Convierte la variable airport en nombre de fila
rownames(velocidades)<-velocidades$airport
velocidades<-subset(velocidades,select=-airport)
# Grafica

stripchart(velocidades,xlim=c(0.700,77.8), method="jitter", ylab=("Compañias telefónicas"), pch=8)

library (gridExtra)
par(mfrow = c(4, 1))
#grid.arrange(verizon,sprint,att,tmobile, ncol=1, top="Velocidad de transferencia de datos (megabits por segundo)")
```

:::


## Estadísticos descriptivos

La media, la mediana, la desviación estándar y la varianza se encuentran entre los datos estadísticos más importantes en el estudio de la estadística.

Permiten *describir*, *explorar* y *comparar*

::: {.callout-important appearance="simple"}

## Importante

- Memorizar fórmulas o realizar cálculos manuales de aritmética no es esencial para el curso.

- Es posible obtener resultados con una calculadora o software.

- Lo importante es concentrarse en el sentido práctico de los resultados a través del *pensamiento crítico*.

:::

## ¿Cuáles son los estadísticos descriptivos?

Resumen o describen las características relevantes de los datos.

- Medidas de tendencia central
- Medidas de variación
- Medidas de posición relativa

### Medidas de tendencia central

  -   Medir el centro de los datos mediante la determinación de la media, mediana, moda y mitad de rango.
  -   Determinar si un valor atípico tiene un efecto sustancial sobre la media y la mediana.

### Medidas de variación 

- Medir la variación de un conjunto de datos muestrales mediante la determinación de los valores del rango, varianza y desviación estándar. 

- Interpretar los valores de la desviación estándar aplicando la **regla práctica del rango** para determinar si un valor es **significativamente bajo** o **significativamente alto**

### Medidas de posición

- Calcular una puntuación Z y utiliar el resultado para determinar si un valor dado *x* es **significativamente bajo** o **significativamente alto**

- Identificar valores de los percentiles y cuartiles de un conjunto de datos.

- Construir gráficas de caja a partir de un conjunto de datos.

## Medidas de tendencia central

La media, moda, mediana y mitad de rango se utilizan como medidas de tendencia central para proporcionar valores representativos que "resumen" los conjuntos de datos.

::: {.callout-tip}
## Medida de tendencia central

Valor en medio o en el centro de un conjunto de datos.

:::

### Media

La media ( o moda aritmética) es la más importante de las mediciones numéricas usadas para describir datos [la mayoría de las personas le llama *promedio*]

::: {.callout-tip}
## Media

La medida de tendencia central que se encuentra al sumar todos los valores de los datos y dividir el total por el número de datos.

:::

#### Propiedades de la media

- Las medias muestrales de una misma población tienden a variar menos que otras medidas de tendencia central.

- La media de un conjunto de datos utiliza todos los valores de los datos.

- Una desventaja de la media es que un solo valor extremo (atípico) puede cambiar el valor de la media en forma sustancial. 

::: {.callout-tip}

#### Resistencia de un estadístico

Un dato estadístico es resistente si la presencia de valores extremos (atípicos) no ocasiona que éste cambie mucho.

:::

#### Calcular medidas de tendencia central

## Medidas de variación

Existen tres medidas de variación: el rango, la desviación estándar y la varianza. Es importante desarrollar la capacidad de interpretarlos y comprenderlos.

¿Los tiempos de espera con la línea única tienen *menos* variación que los tiempos de espera con múltiples líneas de atención?

![Tiempos de espera en institución financiera](filas.png)

Ambos conjuntos de tiempos de espera tienen la misma media de 100 segundos, la misma mediana de 100 segundos y la misma moda de 100 segundos.

Se cambiaron de múltiples líneas a una sola línea no porque los hiciera más eficientes, no porque los tiempos de espera de los clientes se redujeran, sino porque los clientes son más felices con tiempos de espera con menos variación. 

El cambio no afectó las medidas de tendencia central, pero los bancos instituyeron el cambio para reducir la variación. Un objetivo importante de los negocios y la industria es el siguiente: Mejorar la calidad al reducir la variación.


#### Calcular medidas de variación

::: {.callout-tip}

Desviación estándar es un conjunto de valores muestrales, expresados por *s*, es una medida de cuánto se desvían los valores de datos de la media.

:::

![Regla práctica del rango para estimar un valor de la desviación estándar s](rango.png)

- Los valores **significativamente bajos** son 

$$ 
u-2σ
$$ 
o inferiores

- Los valores **significativamente altos** son 

$$ 
u+2σ
$$ 
o superiores

- Los valores **no significativos** están 

$$
(u-2σ)y(u+2σ)
$$
Entre la media poblacional y hasta -2 desv. est y entre la media poblacional y hasta +2 desv. est.

##### Ejemplo

Si se consideran las 50 velocidades de datos de Verizon listadas en el conjunto de datos “Velocidades de datos en aeropuertos”, la media es 17.59 Mbps

```{r}
mean(velocidades$VERIZON)
```
 y la desviación estándar es 16.02 Mbps. 
```{r}
sapply(velocidades,sd)
``` 
 
 Utilice la regla práctica del rango para encontrar los límites que separan los valores significativamente bajos o significativamente altos; después determine si la velocidad de datos de 77.8 Mbps es significativamente alta.

::: {.callout-caution collapse="true"}
Con una media de 17.60 y una desviación estándar de 16.02, utilizamos la regla práctica del rango para encontrar los límites que separan los valores significativamente bajos o significativamente altos, de la siguiente manera: 

- Los valores significativamente bajos son (17.60 2 2 3 16.02) o inferiores. Por lo tanto, los valores significativamente bajos son 214.44 Mbps o menores.

- Los valores significativamente altos son (17.60 1 2 3 16.02) o superiores. Por lo tanto, los valores significativamente altos son 49.64 o mayores.

- Los valores no significativos están entre 214.44 Mbps y 49.64 Mbps.

::: {.callout-warning}

Con base en estos resultados, esperamos que las velocidades de datos típicas en aeropuertos para Verizon estén **entre –14.44 Mbps y 49.64 Mbps**. 

Debido a que el valor dado de 77.8 Mbps queda por encima de 49.64 Mbps, podemos considerarlo significativamente alto.

:::

#### Tu turno

Descarga el conjunto de datos de Urdinez y Cruz <https://arcruz0.github.io/libroadp/00-archivos/datos_carga_adp.zip>

Realiza una visualización inicial de las variables en **desiguales**

```{r}
library(readr)
desiguales <- read.csv("desiguales.csv")
skimr::skim(desiguales)
```

Crea una matriz de correlación de Pearson de las variables
```{r}
# install.packages("ggcorrplot")
library(ggplot2)
library(ggcorrplot)
library(magrittr)
library(tidyverse)

corr_selected <- desiguales %>% 
  select(sexo,zona,macrozona,region,edad,p1_anyo,p1_mes,p2,p3) %>% 
  # calcular la matriz de correlación y redondear a un decimal
  cor(use = "pairwise") %>% 
  round(1)

ggcorrplot(corr_selected, type = "lower", lab = T, show.legend = F)


```
## Medidas de posición


#### Calcular medidas de posición

#### Realizar gráficos de caja

```{r}
#Boxplots
boxplot(velocidades$`T-MOBILE`,velocidades$VERIZON,velocidades$SPRINT,velocidades$`AT&T`, names = c("Verizon", "Sprint", "AT&T", "T-MOBILE"),main = "Velocidades", las = 1, cex.axis = 0.5)
```
