Introducción

Este informe es una revisión sobre estadísticas básicas en estudios de dos o más características. Principalmente se muestran:
- Tablas de frecuencias
- Representaciones de gráficos estadísticos
Este informe se ha creado con la ayuda del “lenguaje R”, del entorno de desarrollo “RStudio”, y con ayuda de las librerías R: flexdashboard, DT, ggplot2, tidyverse, ggpubr, scales, patchwork, etc.
Autor: Pedro Luis Luque Calvo.
Última actualización: 11 de marzo de 2020.

Cargar los paquetes

library(fBasics)
library(knitr)
library(kableExtra)
library(rio)
library(janitor)
library(tidyverse) # carga: dplyr,ggplot2,... 
library(readxl)

Los siguientes paquetes también se han utilizado para algunas partes de este documento:

library(flexdashboard)
library(DT)
library(patchwork)
library(scales)
library(ggpubr)

Se cargan los paquetes R que se van a utilizar.

Enlaces a la información consultada

A continuación se muestran algunas de las páginas consultadas para crear este informe:

Datos de Salud

Inputs

Se ilustra el proceso de importación y se muestra la información contenida en “datosSalud”.

Importar: “datosSalud”

#download.file(url="http://destio.us.es/calvo/descargas/datosp101.csv",destfile = "datosp101.csv")
#datosSalud = read.csv(file="http://destio.us.es/calvo/descargas/datosp101.csv") 
datosSalud = read.csv(file = "datosp101.csv")
names(datosSalud)

 [1] "X"                "estado.salud"     "hizo.ejercicio"   "cobertura.medica"
 [5] "fumado.100cig"    "altura.cm"        "peso.kilos"       "peso.deseado"    
 [9] "edad"             "sexo"

Puede verse el data.frame: “datosSalud” y los nombres de las columnas que contiene.

Mostrar: “datosSalud”

Pueden verse los datos que contiene: “datosSalud”.

Observaciones:

La característica o atributo “estado.salud” es de tipo “ordinal” sin embargo R ha ordenado las modalidades por orden alfabético.

Mostrar: “datosSalud” corregidos

Observaciones:

Los niveles del atributo “estado.salud” (ordinal) se han definido para que aparezcan en el orden adecuado.

levels(datosSalud$estado.salud) = 
  c("Mala","Regular","Buena",
    "Muy buena","Excelente")

Datos de Salarios

Inputs

Se ilustra el proceso de importación y se muestra la información contenida en “datosSalarios”.

Importar: “datosSalarios”

#download.file(url="http://destio.us.es/calvo/descargas/datos_salarios.csv",destfile = "datos_salarios.csv")
#datosSalarios = read.csv2(file="http://destio.us.es/calvo/descargas/datos_salarios.csv") 
datosSalarios = read.csv2(file = "datos_salarios.csv")
names(datosSalarios)

 [1] "X"               "ano.inicio"      "edad"            "estado.civil"   
 [5] "raza"            "nivel.educacion" "tipo.trabajo"    "salud"          
 [9] "seguro.medico"   "log.salario"     "salario"

Puede verse el data.frame: “datosSalarios” y los nombres de las columnas que contiene.

Mostrar: “datosSalarios”

Observaciones:

El atributo “nivel.educación” es de tipo “ordinal” y R ha ordenado las modalidades por orden alfabético.

Mostrar: “datosSalarios” corregidos

Observaciones:

Los niveles del atributo “nivel.educacion” (en R se llaman: “factor”) se han definido para que aparezcan en el orden adecuado.
También se han personalizado el orden en el que aparecen las modalidades del atributo nominal: “estado.civil”.

datosSalarios$nivel.educacion = 
  factor(datosSalarios$nivel.educacion,
      levels = c("No tiene bachillerato",
                  "Bachillerato",
                  "Algun Curso Universidad",
                  "Graduado Universitario",
                  "Master Universitario"))
levels(datosSalarios$estado.civil) = 
  c("casado","soltero","viudo",
    "divorciado","separado")

Cualitativa-Cualitativa

Inputs

Se muestran tablas de frecuencias en los que aparece un atributo o característica cualitativa frente a otra característica cualitativa.

Se utilizará “datosSalud” y las características:
- “estado.salud” (cualititativa ordinal)
- “hizo.ejercicio” (cualitativa nominal)

Tabla conjunta de frecuencias absolutas

 estado.salud No  Si
         Mala 84 198
      Regular 33 208
        Buena 14  14
    Muy buena 66 278
    Excelente 52  53

Observaciones:

La función tabyl() nos ha ayudado a crear esta tabla conjunta de frecuencias absolutas.

datosSalud %>%
  tabyl(estado.salud,hizo.ejercicio)

Comentarios sobre la tabla conjunta de frecuencias absolutas:
- La mayor frecuencia absoluta es 278 asociada a: “estado.salud==‘Muy buena’” y “hizo.ejercicio==Si”.
- La menor frecuencia absoluta es 14 la tienen dos parejas de observaciones: (“estado.salud==‘Buena’”,“hizo.ejercicio==Si”) y (“estado.salud==‘Buena’”,“hizo.ejercicio==No”).

Tabla conjunta de frecuencias relativas

 estado.salud    No    Si
         Mala 0.084 0.198
      Regular 0.033 0.208
        Buena 0.014 0.014
    Muy buena 0.066 0.278
    Excelente 0.052 0.053

datosSalud %>%
  tabyl(estado.salud,hizo.ejercicio) %>%
   adorn_percentages("all")

Observaciones:

Se ha utilizado all en la función adorn_percentages().
Comentarios sobre la tabla conjunta de frecuencias relativas:
- La mayor frecuencia relativa es 0.278 asociada a: “estado.salud==Muy buena” y “hizo.ejercicio==Si”.
- La menor frecuencia relativa es 0.014 asociada a: “estado.salud==Buena” y “hizo.ejercicio==No y Si”.

Tabla conjunta de porcentajes

 estado.salud    No     Si
         Mala 8.40% 19.80%
      Regular 3.30% 20.80%
        Buena 1.40%  1.40%
    Muy buena 6.60% 27.80%
    Excelente 5.20%  5.30%

datosSalud %>%
  tabyl(estado.salud,hizo.ejercicio) %>% 
   adorn_percentages("all") %>%
   adorn_pct_formatting(digits = 2)

Observaciones:

Se ha utilizado all en la función adorn_percentages().
Comentarios sobre la tabla conjunta de porcentajes:
- El mayor porcentaje conjunto es 27.80% asociado a: “estado.salud==Muy buena” y “hizo.ejercicio==Si”.
- El menor porcentaje conjunto es 1.40% asociado a: “estado.salud==Buena” y “hizo.ejercicio==No y Si”.

Tabla condicionada en porcentajes por filas

 estado.salud     No     Si
         Mala 29.79% 70.21%
      Regular 13.69% 86.31%
        Buena 50.00% 50.00%
    Muy buena 19.19% 80.81%
    Excelente 49.52% 50.48%

datosSalud %>%
  tabyl(estado.salud,hizo.ejercicio) %>%
   adorn_percentages("row") %>%
   adorn_pct_formatting(digits = 2)

Observaciones:

En esta “Tabla condicionada en porcentajes por filas” se está estudiando la característica “hizo.ejercicio” al condicionar a cada una de las modalidades de “estado.salud”: Mala, Regular, …
Se ha utilizado row en la función adorn_percentages().
Puede observarse que en cada fila, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
- Cuando nos restringimos a “estado.salud==Mala”, el porcentaje de individuos con “hizo.ejercicio==No” es de un 29.79% y con “hizo.ejercicio==Si” es de un 70.21% (suman 100%).
- Se obtiene el mayor porcentaje en “hizo.ejercicio==Si” con un 86.31%, cuando nos restringimos a “estado.salud==Regular”.

Tabla condicionada en porcentajes por columnas

 estado.salud     No     Si
         Mala 33.73% 26.36%
      Regular 13.25% 27.70%
        Buena  5.62%  1.86%
    Muy buena 26.51% 37.02%
    Excelente 20.88%  7.06%

datosSalud %>%
  tabyl(estado.salud,hizo.ejercicio) %>%
   adorn_percentages("col") %>%
   adorn_pct_formatting(digits = 2)

Observaciones:

En esta “Tabla condicionada en porcentajes por columnas” se está estudiando la característica “estado.salud” al condicionar a cada una de las modalidades de “hizo.ejercicio”: para “No” y para “Si”.
Se ha utilizado col en la función adorn_percentages().
Puede observarse que en cada columna, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
- Cuando nos restringimos a “hizo.ejercicio==No”, el porcentaje de individuos con “estado.salud==Mala” es de un 33.73%, con “estado.salud==Regular” es de un 13.25%, … (todos suman 100%).
- Puede observarse que los porcentajes cuando condicionamos a que el “hizo.ejercicio==No” son valores muy diferentes (aparece un 5.62% y un 33.73%), al igual que cuando nos restringimos a que el “hizo.ejercicio==Si”. Es decir, el reparto de los porcentajes al estudiar “estado.salud” es diferente al cambiar de modalidad en “hizo.ejercicio” (alejado de la independencia).

Cualitativa-Discreta

Inputs

Se muestran tablas de frecuencias conjuntas y gráficos estadísticos comparativos en los que aparece un atributo o característica cualitativa frente a otra característica cualitativa.

Se utilizará “datosSalarios” y las características:
- “ano.inicio” (discreta)
- “seguro.medico” (cualitativa)

Tabla conjunta de frecuencias absolutas

 ano.inicio  no  si
       2003 162 351
       2004 141 344
       2005 132 315
       2006 113 279
       2007 126 260
       2008 124 264
       2009 119 270

 datosSalarios %>%
  tabyl(ano.inicio,seguro.medico)

Observaciones:

La función tabyl() nos ha ayudado a crear esta tabla conjunta de frecuencias absolutas.
Comentarios sobre la tabla conjunta de frecuencias absolutas:
- La mayor frecuencia absoluta es 351 asociada a: “ano.inicio==2003” y “seguro.medico==si”.
- La menor frecuencia absoluta es 113 asociada a: “ano.inicio==2006” y “seguro.medico==no”.

Tabla conjunta de frecuencias relativas

 ano.inicio         no         si
       2003 0.05400000 0.11700000
       2004 0.04700000 0.11466667
       2005 0.04400000 0.10500000
       2006 0.03766667 0.09300000
       2007 0.04200000 0.08666667
       2008 0.04133333 0.08800000
       2009 0.03966667 0.09000000

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
   adorn_percentages("all")

Observaciones:

Se ha utilizado all en la función adorn_percentages().
Comentarios sobre la tabla conjunta de frecuencias relativas:
- La mayor frecuencia relativa es 0.117 asociada a: “ano.inicio==2003” y “seguro.medico==si”.
- La menor frecuencia relativa es 0.03766667 asociada a: “ano.inicio==2006” y “seguro.medico==no”.

Tabla conjunta de porcentajes

 ano.inicio    no     si
       2003 5.40% 11.70%
       2004 4.70% 11.47%
       2005 4.40% 10.50%
       2006 3.77%  9.30%
       2007 4.20%  8.67%
       2008 4.13%  8.80%
       2009 3.97%  9.00%

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
   adorn_percentages("all") %>%
   adorn_pct_formatting(digits = 2)

Observaciones:

Se ha utilizado all en la función adorn_percentages().
Comentarios sobre la tabla conjunta de porcentajes:
- El mayor porcentaje conjunto es 11.70% asociada a: “ano.inicio==2003” y “seguro.medico==si”.
- El menor porcentaje conjunto es 3.77% asociada a: “ano.inicio==2006” y “seguro.medico==no”.

Tabla condicionada en porcentajes por filas

 ano.inicio     no     si
       2003 31.58% 68.42%
       2004 29.07% 70.93%
       2005 29.53% 70.47%
       2006 28.83% 71.17%
       2007 32.64% 67.36%
       2008 31.96% 68.04%
       2009 30.59% 69.41%

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
   adorn_percentages("row") %>%
   adorn_pct_formatting(digits = 2)

Observaciones:

En esta “Tabla condicionada en porcentajes por filas” se está estudiando la característica “seguro.medico” al condicionar a cada uno de las modalidades de “ano.inicio”: para 2003, para 2004, …
Se ha utilizado row en la función adorn_percentages().
Puede observarse que en cada fila, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
- Cuando nos restringimos a “ano.inicio==2003”, el porcentaje de individuos con “seguro.medico==no” es de un 31.58% y con “seguro.medico==no” es de un 68.42% (suman 100%).
- Se obtiene el mayor porcentaje en “seguro.medico==si” con un 71.17%, cuando nos restringimos a “ano.inicio==2006”.

Tabla condicionada en porcentajes por columnas

 ano.inicio     no     si
       2003 17.67% 16.85%
       2004 15.38% 16.51%
       2005 14.39% 15.12%
       2006 12.32% 13.39%
       2007 13.74% 12.48%
       2008 13.52% 12.67%
       2009 12.98% 12.96%

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
   adorn_percentages("col") %>%
   adorn_pct_formatting(digits = 2)

Observaciones:

En esta “Tabla condicionada en porcentajes por columnas” se está estudiando la característica “ano.inicio” al condicionar a cada una de las modalidades de “seguro.medico”: para “no” y para “si”.
Se ha utilizado col en la función adorn_percentages().
Puede observarse que en cada columna, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
- Cuando nos restringimos a “seguro.medico==no”, el porcentaje de individuos con “ano.inicio==2003” es de un 17.67%, con “ano.inicio==2004” es de un 15.38%, … (todos suman 100%).
- Puede observarse que los porcentajes cuando condicionamos a que el “seguro.medico==no” son prácticamente los mismos que cuando nos restringimos a que el “seguro.medico==si”. Es decir, el reparto de los porcentajes al estudiar “ano.inicio” casi no cambia al cambiar de modalidad en “seguro.medico” (cercano a la independencia).

Otras formas de representar las tablas de frecuencias con `tabyl` (conjuntas)

Modelo 1

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
  adorn_totals("row") %>% 
  adorn_totals("col") %>% 
  adorn_percentages("all") %>%
  adorn_pct_formatting(digits = 2)

 ano.inicio     no     si   Total
       2003  5.40% 11.70%  17.10%
       2004  4.70% 11.47%  16.17%
       2005  4.40% 10.50%  14.90%
       2006  3.77%  9.30%  13.07%
       2007  4.20%  8.67%  12.87%
       2008  4.13%  8.80%  12.93%
       2009  3.97%  9.00%  12.97%
      Total 30.57% 69.43% 100.00%

Modelo 2

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
  adorn_totals("row") %>% 
  adorn_totals("col") %>% 
  adorn_percentages("all") %>%
  adorn_pct_formatting(digits = 2) %>% 
  adorn_ns() %>%
  adorn_title()

            seguro.medico                             
 ano.inicio            no            si          Total
       2003   5.40% (162) 11.70%  (351)  17.10%  (513)
       2004   4.70% (141) 11.47%  (344)  16.17%  (485)
       2005   4.40% (132) 10.50%  (315)  14.90%  (447)
       2006   3.77% (113)  9.30%  (279)  13.07%  (392)
       2007   4.20% (126)  8.67%  (260)  12.87%  (386)
       2008   4.13% (124)  8.80%  (264)  12.93%  (388)
       2009   3.97% (119)  9.00%  (270)  12.97%  (389)
      Total  30.57% (917) 69.43% (2083) 100.00% (3000)

Otras formas de representar las tablas de frecuencias con `tabyl` (condicionadas por filas)

Modelo 3

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
  adorn_totals("row") %>% 
  adorn_totals("col") %>% 
  adorn_percentages("row") %>%
  adorn_pct_formatting(digits = 2)

 ano.inicio     no     si   Total
       2003 31.58% 68.42% 100.00%
       2004 29.07% 70.93% 100.00%
       2005 29.53% 70.47% 100.00%
       2006 28.83% 71.17% 100.00%
       2007 32.64% 67.36% 100.00%
       2008 31.96% 68.04% 100.00%
       2009 30.59% 69.41% 100.00%
      Total 30.57% 69.43% 100.00%

Modelo 4

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
  adorn_totals("row") %>% 
  adorn_totals("col") %>% 
  adorn_percentages("row") %>%
  adorn_pct_formatting(digits = 2) %>% 
  adorn_ns() %>%
  adorn_title()

            seguro.medico                             
 ano.inicio            no            si          Total
       2003  31.58% (162) 68.42%  (351) 100.00%  (513)
       2004  29.07% (141) 70.93%  (344) 100.00%  (485)
       2005  29.53% (132) 70.47%  (315) 100.00%  (447)
       2006  28.83% (113) 71.17%  (279) 100.00%  (392)
       2007  32.64% (126) 67.36%  (260) 100.00%  (386)
       2008  31.96% (124) 68.04%  (264) 100.00%  (388)
       2009  30.59% (119) 69.41%  (270) 100.00%  (389)
      Total  30.57% (917) 69.43% (2083) 100.00% (3000)

Otras formas de representar las tablas de frecuencias con `tabyl` (condicionadas por columnas)

Modelo 5

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
  adorn_totals("row") %>% 
  adorn_totals("col") %>% 
  adorn_percentages("col") %>%
  adorn_pct_formatting(digits = 2)

 ano.inicio      no      si   Total
       2003  17.67%  16.85%  17.10%
       2004  15.38%  16.51%  16.17%
       2005  14.39%  15.12%  14.90%
       2006  12.32%  13.39%  13.07%
       2007  13.74%  12.48%  12.87%
       2008  13.52%  12.67%  12.93%
       2009  12.98%  12.96%  12.97%
      Total 100.00% 100.00% 100.00%

Modelo 6

datosSalarios %>%
  tabyl(ano.inicio,seguro.medico) %>%
  adorn_totals("row") %>% 
  adorn_totals("col") %>% 
  adorn_percentages("col") %>%
  adorn_pct_formatting(digits = 2) %>% 
  adorn_ns() %>%
  adorn_title()

            seguro.medico                              
 ano.inicio            no             si          Total
       2003  17.67% (162)  16.85%  (351)  17.10%  (513)
       2004  15.38% (141)  16.51%  (344)  16.17%  (485)
       2005  14.39% (132)  15.12%  (315)  14.90%  (447)
       2006  12.32% (113)  13.39%  (279)  13.07%  (392)
       2007  13.74% (126)  12.48%  (260)  12.87%  (386)
       2008  13.52% (124)  12.67%  (264)  12.93%  (388)
       2009  12.98% (119)  12.96%  (270)  12.97%  (389)
      Total 100.00% (917) 100.00% (2083) 100.00% (3000)

Cualitativa-Cualitativa

Inputs

Se muestran gráficos estadísticos comparativos en los que aparece un atributo o característica cualitativa frente a otra característica cualitativa.

Se utilizará “datosSalud” y las características:
- “estado.salud” (cualititativa ordinal)
- “hizo.ejercicio” (cualitativa nominal)

Diagrama de Barras comparativo (frecuencias conjuntas absolutas)

Observaciones:

En este gráfico de barras se muestra para cada “estado.salud” cómo se reparten las frecuencias absolutas conjuntas de “hizo.ejercicio”.
Comentarios:
- El número de personas que sí hacen ejercicio (“hizo.ejercicio==Si”) el valor más alto se alcanza en “estado.salud==Muy buena” y el más bajo en “Buena”.
- El número de personas que no hacen ejercicio (“hizo.ejercicio==No”) el valor más alto se alcanza en “estado.salud==Mala” y el más bajo en “Buena”.
- Siempre el volumen de personas que sí hacen ejercicio es más grande que el que no hacen ejercicio, aunque para “Buena” y “Excelente” hay valores parecidos.
La tabla conjunta de frecuencias absolutas es:

              hizo.ejercicio    
 estado.salud             No  Si
         Mala             84 198
      Regular             33 208
        Buena             14  14
    Muy buena             66 278
    Excelente             52  53

Diagrama de Barras Comparativo Separado (frecuencias conjuntas absolutas)

Observaciones:

En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
- El número de personas que sí hacen ejercicio (“hizo.ejercicio==Si”) el valor más alto se alcanza en “estado.salud==Muy buena” y el más bajo en “Buena”.
- El número de personas que no hacen ejercicio (“hizo.ejercicio==No”) el valor más alto se alcanza en “estado.salud==Mala” y el más bajo en “Buena”.
- Siempre el volumen de personas que sí hacen ejercicio es más grande que el que no hacen ejercicio, aunque para “Buena” y “Excelente” hay valores parecidos.
La tabla conjunta de frecuencias absolutas es:

              hizo.ejercicio    
 estado.salud             No  Si
         Mala             84 198
      Regular             33 208
        Buena             14  14
    Muy buena             66 278
    Excelente             52  53

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Observaciones:

En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
- El número de personas que sí hacen ejercicio (“hizo.ejercicio==Si”) el valor más alto se alcanza en “estado.salud==Muy buena” y el más bajo en “Buena”.
- El número de personas que no hacen ejercicio (“hizo.ejercicio==No”) el valor más alto se alcanza en “estado.salud==Mala” y el más bajo en “Buena”.
- Siempre el volumen de personas que sí hacen ejercicio es más grande que el que no hacen ejercicio, aunque para “Buena” y “Excelente” hay valores parecidos.
La tabla conjunta de frecuencias con totales por fila

              hizo.ejercicio          
 estado.salud             No  Si Total
         Mala             84 198   282
      Regular             33 208   241
        Buena             14  14    28
    Muy buena             66 278   344
    Excelente             52  53   105

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Observaciones:

La tabla conjunta de frecuencias con totales por columna

              hizo.ejercicio    
 estado.salud             No  Si
         Mala             84 198
      Regular             33 208
        Buena             14  14
    Muy buena             66 278
    Excelente             52  53
        Total            249 751

Este gráfico es difícil de comentar.
El número de estudiados con seguro médico es más del doble que los que no lo tienen.

Diagrama de Barras Apiladas con porcentajes condicionados a ‘estado.salud’

Observaciones:

En este gráfico los comentarios no pueden ser los mismos que en los diagramas anteriores de frecuencias absolutas, ya que en este caso se calculan porcentajes respecto al total de personas que había para cada “estado.salud”.
La tabla de frecuencias condicionadas por filas

              hizo.ejercicio               
 estado.salud             No     Si   Total
         Mala         29.79% 70.21% 100.00%
      Regular         13.69% 86.31% 100.00%
        Buena         50.00% 50.00% 100.00%
    Muy buena         19.19% 80.81% 100.00%
    Excelente         49.52% 50.48% 100.00%

Comentarios:
- El comportamiento del porcentaje de personas que sí hacen ejercicio respecto a las personas en cada estado de salud, si cambian al considerar los distintos estados de salud, los valores se encuentran entre: 50.48% y 86.31%. Con el porcentaje de personas que no hacen ejercicio, oscilan entre: 13.69% y 50.00%.
- Si nos restringimos a las personas del estudio en cada estado de salud, el porcentaje de personas que hacen ejercicio es mayor que los que no hacen ejercicio, excepto en “Buena” y “Excelente” en el que están muy próximos.
- Para los que sí hacen ejercicio, el porcentaje se alcanza en el estado “Regular”, seguido de “Muy buena”.

Diagrama de Barras Comparativo con porcentajes condicionados a ‘estado.salud’

Observaciones:

Pueden hacerse los mismos comentarios que en el diagrama de barras apiladas con distribuciones condicionadas, pero parece más fácil ver las diferencias (se calculan los porcentajes respecto al total de personas que había para cada “estado.salud”).
La tabla de frecuencias condicionadas por filas

              hizo.ejercicio               
 estado.salud             No     Si   Total
         Mala         29.79% 70.21% 100.00%
      Regular         13.69% 86.31% 100.00%
        Buena         50.00% 50.00% 100.00%
    Muy buena         19.19% 80.81% 100.00%
    Excelente         49.52% 50.48% 100.00%

Comentarios:
- El comportamiento del porcentaje de personas que sí hacen ejercicio respecto a las personas en cada estado de salud, si cambian al considerar los distintos estados de salud, los valores se encuentran entre: 50.48% y 86.31%. Con el porcentaje de personas que no hacen ejercicio, oscilan entre: 13.69% y 50.00%.
- Si nos restringimos a las personas del estudio en cada estado de salud, el porcentaje de personas que hacen ejercicio es mayor que los que no hacen ejercicio, excepto en “Buena” y “Excelente” en el que están muy próximos.
- Para los que sí hacen ejercicio, el porcentaje se alcanza en el estado “Regular”, seguido de “Muy buena”.

Diagrama de Barras Comparativo Separado con porcentajes condicionados a ‘estado.salud’

Observaciones:

En este gráfico, puede verse como el diagrama de barras si que cambia con respecto al “estado.salud” (“hizo.ejercicio” no es independendiente de “estado.salud”).

Diagrama de Barras Comparativo con porcentajes condicionados a ‘hizo.ejercicio’

Observaciones:

La tabla condicionada por filas

              hizo.ejercicio        
 estado.salud             No      Si
         Mala         33.73%  26.36%
      Regular         13.25%  27.70%
        Buena          5.62%   1.86%
    Muy buena         26.51%  37.02%
    Excelente         20.88%   7.06%
        Total        100.00% 100.00%

Comentarios:
- Si nos restringimos a las personas que sí hacen ejercicio (barras de color verde), puede observarse que el porcentaje más alto se alcanza en “Muy buena”, y el procentaje mínimo se alcanza en “Buena”.

Diagrama de Barras Comparativo con porcentajes condicionados a ‘hizo.ejercicio’ (se muestran)

Observaciones:

Es el mismo gráfico que antes, pero muestra los porcentajes condicionados sobre las barras para facilitar su lectura.
La tabla con porcentajes condicionados a las modalidades de ‘hizo.ejercicio’:

              hizo.ejercicio        
 estado.salud             No      Si
         Mala         33.73%  26.36%
      Regular         13.25%  27.70%
        Buena          5.62%   1.86%
    Muy buena         26.51%  37.02%
    Excelente         20.88%   7.06%
        Total        100.00% 100.00%

Cualitativa-Discreta

Inputs

Se muestran gráficos estadísticos comparativos en los que aparece un atributo o característica cualitativa frente a otra característica cuantitativa (discreta).

Se utilizará “datosSalarios” y las características:
- “ano.inicio” (discreta)
- “seguro.medico” (cualitativa)

Diagrama de Barras comparativo (frecuencias conjuntas absolutas)

Observaciones:

En este gráfico de barras se muestra para cada “ano.inicio” cómo se reparten las frecuencias absolutas conjuntas de “seguro.medico”.
Comentarios:
- El número de personas que sí tienen seguro médico (“seguro.medico==si”) empieza en 2003 con el valor más alto y con el paso del tiempo va disminuyendo progresivamente hasta el 2007, y en 2008 de nuevo empieza a crecer el número de personas que sí tienen seguro médico.
- Para las personas que no tienen seguro médico (“seguro.medico==no”), empieza en 2003 con el valor más alto y empieza a disminuir hasta el 2006. Sube en 2007 pero de nuevo empieza el descenso.
- Siempre el volumen de personas que sí tienen seguro médico es bastante más grande que el de personas que no tienen seguro médico.
La tabla conjunta de frecuencias absolutas es:

            seguro.medico    
 ano.inicio            no  si
       2003           162 351
       2004           141 344
       2005           132 315
       2006           113 279
       2007           126 260
       2008           124 264
       2009           119 270

Diagrama de Barras Comparativo Separado (frecuencias conjuntas absolutas)

Observaciones:

En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
- El número de personas que sí tienen seguro médico (“seguro.medico==si”) empieza en 2003 con el valor más alto y con el paso del tiempo va disminuyendo progresivamente hasta el 2007, y en 2008 de nuevo empieza a crecer el número de personas que sí tienen seguro médico.
- Para las personas que no tienen seguro médico (“seguro.medico==no”), empieza en 2003 con el valor más alto y empieza a disminuir hasta el 2006. Sube en 2007 pero de nuevo empieza el descenso.
- Siempre el volumen de personas que sí tienen seguro médico es bastante más grande que el de personas que no tienen seguro médico.
La tabla conjunta de frecuencias absolutas es:

            seguro.medico    
 ano.inicio            no  si
       2003           162 351
       2004           141 344
       2005           132 315
       2006           113 279
       2007           126 260
       2008           124 264
       2009           119 270

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Observaciones:

En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
- El número de personas que sí tienen seguro médico (“seguro.medico==si”) empieza en 2003 con el valor más alto y con el paso del tiempo va disminuyendo progresivamente hasta el 2007, y en 2008 de nuevo empieza a crecer el número de personas que sí tienen seguro médico.
- Para las personas que no tienen seguro médico (“seguro.medico==no”), empieza en 2003 con el valor más alto y empieza a disminuir hasta el 2006. Sube en 2007 pero de nuevo empieza el descenso.
- Siempre el volumen de personas que sí tienen seguro médico es bastante más grande que el de personas que no tienen seguro médico.
La tabla conjunta de frecuencias con totales por fila

            seguro.medico          
 ano.inicio            no  si Total
       2003           162 351   513
       2004           141 344   485
       2005           132 315   447
       2006           113 279   392
       2007           126 260   386
       2008           124 264   388
       2009           119 270   389

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Observaciones:

La tabla conjunta de frecuencias con totales por columna

            seguro.medico     
 ano.inicio            no   si
       2003           162  351
       2004           141  344
       2005           132  315
       2006           113  279
       2007           126  260
       2008           124  264
       2009           119  270
      Total           917 2083

Este gráfico es difícil de comentar.
El número de estudiados con seguro médico es más del doble que los que no lo tienen.

Diagrama de Barras Apiladas con porcentajes condicionados a ‘ano.inicio’

Observaciones:

En este gráfico los comentarios no pueden ser los mismos que en los diagramas anteriores de frecuencias absolutas, ya que en este caso se calculan porcentajes respecto al total de personas que había para cada “ano.inicio”.
La tabla de frecuencias condicionadas por filas

            seguro.medico               
 ano.inicio            no     si   Total
       2003        31.58% 68.42% 100.00%
       2004        29.07% 70.93% 100.00%
       2005        29.53% 70.47% 100.00%
       2006        28.83% 71.17% 100.00%
       2007        32.64% 67.36% 100.00%
       2008        31.96% 68.04% 100.00%
       2009        30.59% 69.41% 100.00%

Comentarios:
- El comportamiento del porcentaje de personas que sí tienen seguro médico respecto a las personas en cada año, apenas cambia a lo largo de los años, los valores se encuentran entre: 67.36% y 71.17%. Con el porcentaje de personas que no tienen seguro médico, oscilan entre: 28.83% y 32.64%.
- Si nos restringimos a las personas del estudio en cada año, el porcentaje de asegurados es algo más del doble que el de no asegurados.
- Se puede observar que desde el 2003 al 2006 el porcentaje de personas en cada año con seguro tiende a aumentar, pero en 2007 disminuye para a continuación seguir creciendo suavemente.
- Para los no asegurados se podría decir lo contrario.

Diagrama de Barras Comparativo con porcentajes condicionados a ‘ano.inicio’

Observaciones:

Pueden hacerse los mismos comentarios que en el diagrama de barras apiladas con distribuciones condicionadas, pero parece más fácil ver las diferencias (se calculan los porcentajes respecto al total de personas que había para cada “ano.inicio”).
La tabla de frecuencias condicionadas por filas

            seguro.medico               
 ano.inicio            no     si   Total
       2003        31.58% 68.42% 100.00%
       2004        29.07% 70.93% 100.00%
       2005        29.53% 70.47% 100.00%
       2006        28.83% 71.17% 100.00%
       2007        32.64% 67.36% 100.00%
       2008        31.96% 68.04% 100.00%
       2009        30.59% 69.41% 100.00%

Comentarios:
- El comportamiento del porcentaje de personas que sí tienen seguro médico respecto a las personas en cada año, apenas cambia a lo largo de los años, los valores se encuentran entre: 67.36% y 71.17%. Con el porcentaje de personas que no tienen seguro médico, oscilan entre: 28.83% y 32.64%.
- Si nos restringimos a las personas del estudio en cada año, el porcentaje de asegurados es algo más del doble que el de no asegurados.
- Se puede observar que desde el 2003 al 2006 el porcentaje de personas en cada año con seguro tiende a aumentar, pero en 2007 disminuye para a continuación seguir creciendo suavemente.
- Para los no asegurados se podría decir lo contrario.

Diagrama de Barras Comparativo Separado con porcentajes condicionados a ‘ano.inicio’

Observaciones:

En este gráfico, puede verse como el diagrama de barras apenas cambia con respecto al “ano.inicio” (“seguro.medico” es casi independencia de “ano.inicio”).

Diagrama de Barras Comparativo con porcentajes condicionados a ‘seguro.medico’

Observaciones:

La tabla condicionada por filas

            seguro.medico        
 ano.inicio            no      si
       2003        17.67%  16.85%
       2004        15.38%  16.51%
       2005        14.39%  15.12%
       2006        12.32%  13.39%
       2007        13.74%  12.48%
       2008        13.52%  12.67%
       2009        12.98%  12.96%
      Total       100.00% 100.00%

Comentarios:
- Si nos restringimos a las personas que sí tienen seguro (barras de color verde), puede observarse que partiendo del porcentaje más alto en 2003, empieza a descender hasta 2007, donde alcanza el mínimo, para luego comenzar a subir desde 2008.

Diagrama de Barras Comparativo con porcentajes condicionados a ‘seguro.medico’ (se muestran)

Observaciones:

Es el mismo gráfico que antes, pero muestra los porcentajes condicionados sobre las barras para facilitar su lectura.
La tabla con porcentajes condicionados a las modalidades de ‘seguro.medico’:

            seguro.medico        
 ano.inicio            no      si
       2003        17.67%  16.85%
       2004        15.38%  16.51%
       2005        14.39%  15.12%
       2006        12.32%  13.39%
       2007        13.74%  12.48%
       2008        13.52%  12.67%
       2009        12.98%  12.96%
      Total       100.00% 100.00%

Continua-Cualitativa-Discreta

Inputs

Se muestran gráficos estadísticos comparativos en los que aparece una variable continua frente a una característica cualitativa o discreta (con pocas modalidades o categorizada).

Se utilizará “datosSalud” y las características:
- “altura.cm” (continua)
- “sexo” (cualitativa nominal) o “estado.salud” (cualitativa ordinal) o “edad” (discreta categorizada)

Diagramas de cajas y bigotes o boxplot (continua frente a cualitativa)

Observaciones:

En este gráfico con cajas y bigotes sobre la variable continua “altura.cm” para cada modalidad del atributo “sexo”.
Comentarios:
- Observando la mediana (segmento interior de la caja) de los dos diagramas de caja y bigotes se puede decir que la altura mediana de los hombres (aproximadamente 178cm) es mayor que la altura mediana de las mujeres (aproximadamente 163cm).
- Existen observaciones “outliers” en “altura.cm” para ambos sexos.
La tabla conjunta de frecuencias absolutas es:

# A tibble: 2 x 4
  sexo      Q1 Mediana    Q3
  <fct>  <dbl>   <dbl> <dbl>
1 hombre  173.    178.  173.
2 mujer   160.    163.  160.

Diagramas de cajas y bigotes o boxplot (continua frente a dos cualitativas)

Observaciones:

En este gráfico con cajas y bigotes sobre la variable continua “altura.cm” para cada modalidad de la combinación de los atributos “sexo” y “estado.salud”.
Comentarios:
- Observando la mediana (segmento interior de la caja) de los diagramas de caja y bigotes se puede decir:
  - La altura mediana de las mujeres es muy parecida para todos los estados de salud.
  - La altura mediana de los hombres parece que toma los valores mayores en estado de salud: “Mala” y “Muy buena”, y el menor en el estado: “Excelente”.
  - También está claro que la altura mediana de los hombres es mayor que la de las mujeres.
- Existen observaciones “outliers” en “altura.cm” para ambos sexos.
Parte de los valores necesarios para representar los diagramas de cajas y bigotes son:

# A tibble: 10 x 5
# Groups:   sexo [2]
   sexo   estado.salud    Q1 Mediana    Q3
   <fct>  <fct>        <dbl>   <dbl> <dbl>
 1 hombre Mala          173.    178.  183.
 2 hombre Regular       173.    178.  183.
 3 hombre Buena         168.    175.  180.
 4 hombre Muy buena     173.    178.  183.
 5 hombre Excelente     170.    175.  180.
 6 mujer  Mala          157.    163.  168.
 7 mujer  Regular       160.    164.  170.
 8 mujer  Buena         157.    163.  168.
 9 mujer  Muy buena     157.    163.  168.
10 mujer  Excelente     160.    163.  168.

También se podría haber realizado como:

O también:

Diagramas de densidad-histogramas (continua frente a cualitativa)

Observaciones:

En este gráfico se representan las densidades (polígono de frecuencias sobre el histograma) sobre la variable continua “altura.cm” para cada modalidad del atributo “sexo”.
Comentarios:
- Puede observarse que por los hombres son por lo general más altos que las mujeres. En términos centrales (media o mediana cerca del máximo en la curva) es claramente mayor en los hombres que en las mujeres.
- Aproximadamente, las alturas de las mujeres se encuentran entre 135cm y 185cm, y las alturas de los hombres entre 150cm y 205cm.
- Para los dos sexos, las dos distribuciones son aproximadamente simétricas. Aunque la de las mujeres es una curva más apuntada (curtosis) que la de los hombres.

Continua-Continua (con categoricas)

Inputs

Se muestran gráficos estadísticos en los que se representan dos variables continuas

Se utilizará “datosSalud” y las características:
- “altura.cm” (continua)
- “peso.kilos” (continua)
- “sexo” (cualitativa nominal)

Diagrama de dispersión o nube de puntos (continua frente a continua con categórica)

Observaciones:

Se ha representado un diagrama de dispersión o nube de puntos con las variables “peso.kilos” (en eje X) y “altura.cm” (en eje Y), coloreando de forma diferente los hombres y las mujeres.
Comentarios:
- Sobre la nube de puntos puede imaginarse una línea de tendencia creciente, de lo que puede decirse que predomina la relación directa (a mayor peso mayor altura).
- Parece que mayoritarimente los hombres tienen mayor peso y altura que las mujeres (la nube de puntos verde está más desplazada a la derecha y hacia arriba).
- Existen observaciones “outliers” (o extremas), por ejemplo, existe un hombre con altura mayor que 180 cm y peso mayor que 200 kg.
Datos de las características implicadas de los primeros individuos:

  peso.kilos altura.cm   sexo
1      79.38    177.80 hombre
2      56.70    162.56  mujer
3      47.63    152.40  mujer
4      59.87    167.64  mujer
5      68.04    154.94  mujer
6      51.71    162.56  mujer

Otra variante es:

Para practicar cómo comentar tablas

Row

Ejemplo 1

              cobertura.medica       
 estado.salud               No     Si
         Mala            3.60% 24.60%
      Regular            2.90% 21.20%
        Buena            0.10%  2.70%
    Muy buena            3.40% 31.00%
    Excelente            2.10%  8.40%

Ejemplo 2

              fumado.100cig       
 estado.salud            No     Si
         Mala        26.52% 30.20%
      Regular        26.70% 21.01%
        Buena         1.47%  4.38%
    Muy buena        36.83% 31.51%
    Excelente         8.47% 12.91%

Ejemplo 3

                nivel.educacion                                     
     raza No tiene bachillerato Bachillerato Algun Curso Universidad
 asiatica                 7.89%       16.32%                   9.47%
   blanca                 8.51%       33.15%                  21.45%
    negra                10.58%       35.84%                  31.40%
     otra                29.73%       35.14%                  21.62%
                                            
 Graduado Universitario Master Universitario
                 34.74%               31.58%
                 23.23%               13.67%
                 13.65%                8.53%
                  8.11%                5.41%

Ejemplo 4

                         tipo.trabajo          
         nivel.educacion   Industrial Servicios
   No tiene bachillerato       12.31%     5.36%
            Bachillerato       41.19%    23.01%
 Algun Curso Universidad       22.15%    21.15%
  Graduado Universitario       17.75%    28.23%
    Master Universitario        6.61%    22.25%

Introducción

Introducción

Cargar los paquetes

Enlaces a la información consultada

Datos de Salud

Inputs

Importar: “datosSalud”

Mostrar: “datosSalud”

Mostrar: “datosSalud” corregidos

Datos de Salarios

Inputs

Importar: “datosSalarios”

Mostrar: “datosSalarios”

Mostrar: “datosSalarios” corregidos

Cualitativa-Cualitativa

Inputs

Tabla conjunta de frecuencias absolutas

Tabla conjunta de frecuencias relativas

Tabla conjunta de porcentajes

Tabla condicionada en porcentajes por filas

Tabla condicionada en porcentajes por columnas

Cualitativa-Discreta

Inputs

Tabla conjunta de frecuencias absolutas

Tabla conjunta de frecuencias relativas

Tabla conjunta de porcentajes

Tabla condicionada en porcentajes por filas

Tabla condicionada en porcentajes por columnas

Otras formas de representar las tablas de frecuencias con tabyl (conjuntas)

Modelo 1

Modelo 2

Otras formas de representar las tablas de frecuencias con tabyl (condicionadas por filas)

Modelo 3

Modelo 4

Otras formas de representar las tablas de frecuencias con tabyl (condicionadas por columnas)

Modelo 5

Modelo 6

Cualitativa-Cualitativa

Inputs

Diagrama de Barras comparativo (frecuencias conjuntas absolutas)

Diagrama de Barras Comparativo Separado (frecuencias conjuntas absolutas)

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Diagrama de Barras Apiladas con porcentajes condicionados a ‘estado.salud’

Diagrama de Barras Comparativo con porcentajes condicionados a ‘estado.salud’

Diagrama de Barras Comparativo Separado con porcentajes condicionados a ‘estado.salud’

Diagrama de Barras Comparativo con porcentajes condicionados a ‘hizo.ejercicio’

Diagrama de Barras Comparativo con porcentajes condicionados a ‘hizo.ejercicio’ (se muestran)

Cualitativa-Discreta

Inputs

Diagrama de Barras comparativo (frecuencias conjuntas absolutas)

Diagrama de Barras Comparativo Separado (frecuencias conjuntas absolutas)

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Diagrama de Barras Apiladas con frecuencias conjuntas absolutas

Diagrama de Barras Apiladas con porcentajes condicionados a ‘ano.inicio’

Diagrama de Barras Comparativo con porcentajes condicionados a ‘ano.inicio’

Diagrama de Barras Comparativo Separado con porcentajes condicionados a ‘ano.inicio’

Diagrama de Barras Comparativo con porcentajes condicionados a ‘seguro.medico’

Diagrama de Barras Comparativo con porcentajes condicionados a ‘seguro.medico’ (se muestran)

Continua-Cualitativa-Discreta

Inputs

Diagramas de cajas y bigotes o boxplot (continua frente a cualitativa)

Diagramas de cajas y bigotes o boxplot (continua frente a dos cualitativas)

Diagramas de densidad-histogramas (continua frente a cualitativa)

Continua-Continua (con categoricas)

Inputs

Diagrama de dispersión o nube de puntos (continua frente a continua con categórica)

Para practicar cómo comentar tablas

Row

Ejemplo 1

Ejemplo 2

Ejemplo 3

Ejemplo 4

Para practicar cómo comentar gráficos

Row

Ejemplo 1 (Barras Apilado: statista - coronavirus)

Ejemplo 2

Ejemplo 3

Ejemplo 4

Ejemplo 5

Otras formas de representar las tablas de frecuencias con `tabyl` (conjuntas)

Otras formas de representar las tablas de frecuencias con `tabyl` (condicionadas por filas)

Otras formas de representar las tablas de frecuencias con `tabyl` (condicionadas por columnas)