Este informe es una revisión sobre estadísticas básicas en estudios de dos o más características. Principalmente se muestran:
Este informe se ha creado con la ayuda del “lenguaje R”, del entorno de desarrollo “RStudio”, y con ayuda de las librerías R: flexdashboard, DT, ggplot2, tidyverse, ggpubr, scales, patchwork, etc.
Autor: Pedro Luis Luque Calvo.
Última actualización: 11 de marzo de 2020.
library(fBasics)
library(knitr)
library(kableExtra)
library(rio)
library(janitor)
library(tidyverse) # carga: dplyr,ggplot2,...
library(readxl)
Se cargan los paquetes R que se van a utilizar.
A continuación se muestran algunas de las páginas consultadas para crear este informe:
Se ilustra el proceso de importación y se muestra la información contenida en “datosSalud”.
#download.file(url="http://destio.us.es/calvo/descargas/datosp101.csv",destfile = "datosp101.csv")
#datosSalud = read.csv(file="http://destio.us.es/calvo/descargas/datosp101.csv")
datosSalud = read.csv(file = "datosp101.csv")
names(datosSalud)
[1] "X" "estado.salud" "hizo.ejercicio" "cobertura.medica"
[5] "fumado.100cig" "altura.cm" "peso.kilos" "peso.deseado"
[9] "edad" "sexo"
Puede verse el data.frame: “datosSalud” y los nombres de las columnas que contiene.
Pueden verse los datos que contiene: “datosSalud”.
Observaciones:
Se ilustra el proceso de importación y se muestra la información contenida en “datosSalarios”.
#download.file(url="http://destio.us.es/calvo/descargas/datos_salarios.csv",destfile = "datos_salarios.csv")
#datosSalarios = read.csv2(file="http://destio.us.es/calvo/descargas/datos_salarios.csv")
datosSalarios = read.csv2(file = "datos_salarios.csv")
names(datosSalarios)
[1] "X" "ano.inicio" "edad" "estado.civil"
[5] "raza" "nivel.educacion" "tipo.trabajo" "salud"
[9] "seguro.medico" "log.salario" "salario"
Puede verse el data.frame: “datosSalarios” y los nombres de las columnas que contiene.
Observaciones:
Observaciones:
Los niveles del atributo “nivel.educacion” (en R se llaman: “factor”) se han definido para que aparezcan en el orden adecuado.
También se han personalizado el orden en el que aparecen las modalidades del atributo nominal: “estado.civil”.
Se muestran tablas de frecuencias en los que aparece un atributo o característica cualitativa frente a otra característica cualitativa.
Se utilizará “datosSalud” y las características:
estado.salud No Si
Mala 84 198
Regular 33 208
Buena 14 14
Muy buena 66 278
Excelente 52 53
Observaciones:
tabyl()
nos ha ayudado a crear esta tabla conjunta de frecuencias absolutas.Comentarios sobre la tabla conjunta de frecuencias absolutas:
La mayor frecuencia absoluta es 278 asociada a: “estado.salud==‘Muy buena’” y “hizo.ejercicio==Si”.
La menor frecuencia absoluta es 14 la tienen dos parejas de observaciones: (“estado.salud==‘Buena’”,“hizo.ejercicio==Si”) y (“estado.salud==‘Buena’”,“hizo.ejercicio==No”).
estado.salud No Si
Mala 0.084 0.198
Regular 0.033 0.208
Buena 0.014 0.014
Muy buena 0.066 0.278
Excelente 0.052 0.053
Observaciones:
Se ha utilizado all
en la función adorn_percentages()
.
Comentarios sobre la tabla conjunta de frecuencias relativas:
La mayor frecuencia relativa es 0.278 asociada a: “estado.salud==Muy buena” y “hizo.ejercicio==Si”.
La menor frecuencia relativa es 0.014 asociada a: “estado.salud==Buena” y “hizo.ejercicio==No y Si”.
estado.salud No Si
Mala 8.40% 19.80%
Regular 3.30% 20.80%
Buena 1.40% 1.40%
Muy buena 6.60% 27.80%
Excelente 5.20% 5.30%
datosSalud %>%
tabyl(estado.salud,hizo.ejercicio) %>%
adorn_percentages("all") %>%
adorn_pct_formatting(digits = 2)
Observaciones:
Se ha utilizado all
en la función adorn_percentages()
.
Comentarios sobre la tabla conjunta de porcentajes:
El mayor porcentaje conjunto es 27.80% asociado a: “estado.salud==Muy buena” y “hizo.ejercicio==Si”.
El menor porcentaje conjunto es 1.40% asociado a: “estado.salud==Buena” y “hizo.ejercicio==No y Si”.
estado.salud No Si
Mala 29.79% 70.21%
Regular 13.69% 86.31%
Buena 50.00% 50.00%
Muy buena 19.19% 80.81%
Excelente 49.52% 50.48%
datosSalud %>%
tabyl(estado.salud,hizo.ejercicio) %>%
adorn_percentages("row") %>%
adorn_pct_formatting(digits = 2)
Observaciones:
En esta “Tabla condicionada en porcentajes por filas” se está estudiando la característica “hizo.ejercicio” al condicionar a cada una de las modalidades de “estado.salud”: Mala, Regular, …
Se ha utilizado row
en la función adorn_percentages()
.
Puede observarse que en cada fila, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
Cuando nos restringimos a “estado.salud==Mala”, el porcentaje de individuos con “hizo.ejercicio==No” es de un 29.79% y con “hizo.ejercicio==Si” es de un 70.21% (suman 100%).
Se obtiene el mayor porcentaje en “hizo.ejercicio==Si” con un 86.31%, cuando nos restringimos a “estado.salud==Regular”.
estado.salud No Si
Mala 33.73% 26.36%
Regular 13.25% 27.70%
Buena 5.62% 1.86%
Muy buena 26.51% 37.02%
Excelente 20.88% 7.06%
datosSalud %>%
tabyl(estado.salud,hizo.ejercicio) %>%
adorn_percentages("col") %>%
adorn_pct_formatting(digits = 2)
Observaciones:
En esta “Tabla condicionada en porcentajes por columnas” se está estudiando la característica “estado.salud” al condicionar a cada una de las modalidades de “hizo.ejercicio”: para “No” y para “Si”.
Se ha utilizado col
en la función adorn_percentages()
.
Puede observarse que en cada columna, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
Cuando nos restringimos a “hizo.ejercicio==No”, el porcentaje de individuos con “estado.salud==Mala” es de un 33.73%, con “estado.salud==Regular” es de un 13.25%, … (todos suman 100%).
Puede observarse que los porcentajes cuando condicionamos a que el “hizo.ejercicio==No” son valores muy diferentes (aparece un 5.62% y un 33.73%), al igual que cuando nos restringimos a que el “hizo.ejercicio==Si”. Es decir, el reparto de los porcentajes al estudiar “estado.salud” es diferente al cambiar de modalidad en “hizo.ejercicio” (alejado de la independencia).
Se muestran tablas de frecuencias conjuntas y gráficos estadísticos comparativos en los que aparece un atributo o característica cualitativa frente a otra característica cualitativa.
Se utilizará “datosSalarios” y las características:
ano.inicio no si
2003 162 351
2004 141 344
2005 132 315
2006 113 279
2007 126 260
2008 124 264
2009 119 270
Observaciones:
La función tabyl()
nos ha ayudado a crear esta tabla conjunta de frecuencias absolutas.
Comentarios sobre la tabla conjunta de frecuencias absolutas:
La mayor frecuencia absoluta es 351 asociada a: “ano.inicio==2003” y “seguro.medico==si”.
La menor frecuencia absoluta es 113 asociada a: “ano.inicio==2006” y “seguro.medico==no”.
ano.inicio no si
2003 0.05400000 0.11700000
2004 0.04700000 0.11466667
2005 0.04400000 0.10500000
2006 0.03766667 0.09300000
2007 0.04200000 0.08666667
2008 0.04133333 0.08800000
2009 0.03966667 0.09000000
Observaciones:
Se ha utilizado all
en la función adorn_percentages()
.
Comentarios sobre la tabla conjunta de frecuencias relativas:
La mayor frecuencia relativa es 0.117 asociada a: “ano.inicio==2003” y “seguro.medico==si”.
La menor frecuencia relativa es 0.03766667 asociada a: “ano.inicio==2006” y “seguro.medico==no”.
ano.inicio no si
2003 5.40% 11.70%
2004 4.70% 11.47%
2005 4.40% 10.50%
2006 3.77% 9.30%
2007 4.20% 8.67%
2008 4.13% 8.80%
2009 3.97% 9.00%
datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_percentages("all") %>%
adorn_pct_formatting(digits = 2)
Observaciones:
Se ha utilizado all
en la función adorn_percentages()
.
Comentarios sobre la tabla conjunta de porcentajes:
El mayor porcentaje conjunto es 11.70% asociada a: “ano.inicio==2003” y “seguro.medico==si”.
El menor porcentaje conjunto es 3.77% asociada a: “ano.inicio==2006” y “seguro.medico==no”.
ano.inicio no si
2003 31.58% 68.42%
2004 29.07% 70.93%
2005 29.53% 70.47%
2006 28.83% 71.17%
2007 32.64% 67.36%
2008 31.96% 68.04%
2009 30.59% 69.41%
datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_percentages("row") %>%
adorn_pct_formatting(digits = 2)
Observaciones:
En esta “Tabla condicionada en porcentajes por filas” se está estudiando la característica “seguro.medico” al condicionar a cada uno de las modalidades de “ano.inicio”: para 2003, para 2004, …
Se ha utilizado row
en la función adorn_percentages()
.
Puede observarse que en cada fila, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
Cuando nos restringimos a “ano.inicio==2003”, el porcentaje de individuos con “seguro.medico==no” es de un 31.58% y con “seguro.medico==no” es de un 68.42% (suman 100%).
Se obtiene el mayor porcentaje en “seguro.medico==si” con un 71.17%, cuando nos restringimos a “ano.inicio==2006”.
ano.inicio no si
2003 17.67% 16.85%
2004 15.38% 16.51%
2005 14.39% 15.12%
2006 12.32% 13.39%
2007 13.74% 12.48%
2008 13.52% 12.67%
2009 12.98% 12.96%
datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_percentages("col") %>%
adorn_pct_formatting(digits = 2)
Observaciones:
En esta “Tabla condicionada en porcentajes por columnas” se está estudiando la característica “ano.inicio” al condicionar a cada una de las modalidades de “seguro.medico”: para “no” y para “si”.
Se ha utilizado col
en la función adorn_percentages()
.
Puede observarse que en cada columna, la suma de los porcentajes es igual a 100%.
Comentarios sobre la tabla condicionada en porcentajes por filas:
Cuando nos restringimos a “seguro.medico==no”, el porcentaje de individuos con “ano.inicio==2003” es de un 17.67%, con “ano.inicio==2004” es de un 15.38%, … (todos suman 100%).
Puede observarse que los porcentajes cuando condicionamos a que el “seguro.medico==no” son prácticamente los mismos que cuando nos restringimos a que el “seguro.medico==si”. Es decir, el reparto de los porcentajes al estudiar “ano.inicio” casi no cambia al cambiar de modalidad en “seguro.medico” (cercano a la independencia).
tabyl
(conjuntas)datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_totals("row") %>%
adorn_totals("col") %>%
adorn_percentages("all") %>%
adorn_pct_formatting(digits = 2)
ano.inicio no si Total
2003 5.40% 11.70% 17.10%
2004 4.70% 11.47% 16.17%
2005 4.40% 10.50% 14.90%
2006 3.77% 9.30% 13.07%
2007 4.20% 8.67% 12.87%
2008 4.13% 8.80% 12.93%
2009 3.97% 9.00% 12.97%
Total 30.57% 69.43% 100.00%
datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_totals("row") %>%
adorn_totals("col") %>%
adorn_percentages("all") %>%
adorn_pct_formatting(digits = 2) %>%
adorn_ns() %>%
adorn_title()
seguro.medico
ano.inicio no si Total
2003 5.40% (162) 11.70% (351) 17.10% (513)
2004 4.70% (141) 11.47% (344) 16.17% (485)
2005 4.40% (132) 10.50% (315) 14.90% (447)
2006 3.77% (113) 9.30% (279) 13.07% (392)
2007 4.20% (126) 8.67% (260) 12.87% (386)
2008 4.13% (124) 8.80% (264) 12.93% (388)
2009 3.97% (119) 9.00% (270) 12.97% (389)
Total 30.57% (917) 69.43% (2083) 100.00% (3000)
tabyl
(condicionadas por filas)datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_totals("row") %>%
adorn_totals("col") %>%
adorn_percentages("row") %>%
adorn_pct_formatting(digits = 2)
ano.inicio no si Total
2003 31.58% 68.42% 100.00%
2004 29.07% 70.93% 100.00%
2005 29.53% 70.47% 100.00%
2006 28.83% 71.17% 100.00%
2007 32.64% 67.36% 100.00%
2008 31.96% 68.04% 100.00%
2009 30.59% 69.41% 100.00%
Total 30.57% 69.43% 100.00%
datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_totals("row") %>%
adorn_totals("col") %>%
adorn_percentages("row") %>%
adorn_pct_formatting(digits = 2) %>%
adorn_ns() %>%
adorn_title()
seguro.medico
ano.inicio no si Total
2003 31.58% (162) 68.42% (351) 100.00% (513)
2004 29.07% (141) 70.93% (344) 100.00% (485)
2005 29.53% (132) 70.47% (315) 100.00% (447)
2006 28.83% (113) 71.17% (279) 100.00% (392)
2007 32.64% (126) 67.36% (260) 100.00% (386)
2008 31.96% (124) 68.04% (264) 100.00% (388)
2009 30.59% (119) 69.41% (270) 100.00% (389)
Total 30.57% (917) 69.43% (2083) 100.00% (3000)
tabyl
(condicionadas por columnas)datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_totals("row") %>%
adorn_totals("col") %>%
adorn_percentages("col") %>%
adorn_pct_formatting(digits = 2)
ano.inicio no si Total
2003 17.67% 16.85% 17.10%
2004 15.38% 16.51% 16.17%
2005 14.39% 15.12% 14.90%
2006 12.32% 13.39% 13.07%
2007 13.74% 12.48% 12.87%
2008 13.52% 12.67% 12.93%
2009 12.98% 12.96% 12.97%
Total 100.00% 100.00% 100.00%
datosSalarios %>%
tabyl(ano.inicio,seguro.medico) %>%
adorn_totals("row") %>%
adorn_totals("col") %>%
adorn_percentages("col") %>%
adorn_pct_formatting(digits = 2) %>%
adorn_ns() %>%
adorn_title()
seguro.medico
ano.inicio no si Total
2003 17.67% (162) 16.85% (351) 17.10% (513)
2004 15.38% (141) 16.51% (344) 16.17% (485)
2005 14.39% (132) 15.12% (315) 14.90% (447)
2006 12.32% (113) 13.39% (279) 13.07% (392)
2007 13.74% (126) 12.48% (260) 12.87% (386)
2008 13.52% (124) 12.67% (264) 12.93% (388)
2009 12.98% (119) 12.96% (270) 12.97% (389)
Total 100.00% (917) 100.00% (2083) 100.00% (3000)
Se muestran gráficos estadísticos comparativos en los que aparece un atributo o característica cualitativa frente a otra característica cualitativa.
Se utilizará “datosSalud” y las características:
Observaciones:
En este gráfico de barras se muestra para cada “estado.salud” cómo se reparten las frecuencias absolutas conjuntas de “hizo.ejercicio”.
Comentarios:
El número de personas que sí hacen ejercicio (“hizo.ejercicio==Si”) el valor más alto se alcanza en “estado.salud==Muy buena” y el más bajo en “Buena”.
El número de personas que no hacen ejercicio (“hizo.ejercicio==No”) el valor más alto se alcanza en “estado.salud==Mala” y el más bajo en “Buena”.
Siempre el volumen de personas que sí hacen ejercicio es más grande que el que no hacen ejercicio, aunque para “Buena” y “Excelente” hay valores parecidos.
La tabla conjunta de frecuencias absolutas es:
hizo.ejercicio
estado.salud No Si
Mala 84 198
Regular 33 208
Buena 14 14
Muy buena 66 278
Excelente 52 53
Observaciones:
En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
El número de personas que sí hacen ejercicio (“hizo.ejercicio==Si”) el valor más alto se alcanza en “estado.salud==Muy buena” y el más bajo en “Buena”.
El número de personas que no hacen ejercicio (“hizo.ejercicio==No”) el valor más alto se alcanza en “estado.salud==Mala” y el más bajo en “Buena”.
Siempre el volumen de personas que sí hacen ejercicio es más grande que el que no hacen ejercicio, aunque para “Buena” y “Excelente” hay valores parecidos.
La tabla conjunta de frecuencias absolutas es:
hizo.ejercicio
estado.salud No Si
Mala 84 198
Regular 33 208
Buena 14 14
Muy buena 66 278
Excelente 52 53
Observaciones:
En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
El número de personas que sí hacen ejercicio (“hizo.ejercicio==Si”) el valor más alto se alcanza en “estado.salud==Muy buena” y el más bajo en “Buena”.
El número de personas que no hacen ejercicio (“hizo.ejercicio==No”) el valor más alto se alcanza en “estado.salud==Mala” y el más bajo en “Buena”.
Siempre el volumen de personas que sí hacen ejercicio es más grande que el que no hacen ejercicio, aunque para “Buena” y “Excelente” hay valores parecidos.
La tabla conjunta de frecuencias con totales por fila
hizo.ejercicio
estado.salud No Si Total
Mala 84 198 282
Regular 33 208 241
Buena 14 14 28
Muy buena 66 278 344
Excelente 52 53 105
Observaciones:
hizo.ejercicio
estado.salud No Si
Mala 84 198
Regular 33 208
Buena 14 14
Muy buena 66 278
Excelente 52 53
Total 249 751
Este gráfico es difícil de comentar.
El número de estudiados con seguro médico es más del doble que los que no lo tienen.
Observaciones:
En este gráfico los comentarios no pueden ser los mismos que en los diagramas anteriores de frecuencias absolutas, ya que en este caso se calculan porcentajes respecto al total de personas que había para cada “estado.salud”.
La tabla de frecuencias condicionadas por filas
hizo.ejercicio
estado.salud No Si Total
Mala 29.79% 70.21% 100.00%
Regular 13.69% 86.31% 100.00%
Buena 50.00% 50.00% 100.00%
Muy buena 19.19% 80.81% 100.00%
Excelente 49.52% 50.48% 100.00%
Comentarios:
El comportamiento del porcentaje de personas que sí hacen ejercicio respecto a las personas en cada estado de salud, si cambian al considerar los distintos estados de salud, los valores se encuentran entre: 50.48% y 86.31%. Con el porcentaje de personas que no hacen ejercicio, oscilan entre: 13.69% y 50.00%.
Si nos restringimos a las personas del estudio en cada estado de salud, el porcentaje de personas que hacen ejercicio es mayor que los que no hacen ejercicio, excepto en “Buena” y “Excelente” en el que están muy próximos.
Para los que sí hacen ejercicio, el porcentaje se alcanza en el estado “Regular”, seguido de “Muy buena”.
Observaciones:
Pueden hacerse los mismos comentarios que en el diagrama de barras apiladas con distribuciones condicionadas, pero parece más fácil ver las diferencias (se calculan los porcentajes respecto al total de personas que había para cada “estado.salud”).
La tabla de frecuencias condicionadas por filas
hizo.ejercicio
estado.salud No Si Total
Mala 29.79% 70.21% 100.00%
Regular 13.69% 86.31% 100.00%
Buena 50.00% 50.00% 100.00%
Muy buena 19.19% 80.81% 100.00%
Excelente 49.52% 50.48% 100.00%
Comentarios:
El comportamiento del porcentaje de personas que sí hacen ejercicio respecto a las personas en cada estado de salud, si cambian al considerar los distintos estados de salud, los valores se encuentran entre: 50.48% y 86.31%. Con el porcentaje de personas que no hacen ejercicio, oscilan entre: 13.69% y 50.00%.
Si nos restringimos a las personas del estudio en cada estado de salud, el porcentaje de personas que hacen ejercicio es mayor que los que no hacen ejercicio, excepto en “Buena” y “Excelente” en el que están muy próximos.
Para los que sí hacen ejercicio, el porcentaje se alcanza en el estado “Regular”, seguido de “Muy buena”.
Observaciones:
Observaciones:
hizo.ejercicio
estado.salud No Si
Mala 33.73% 26.36%
Regular 13.25% 27.70%
Buena 5.62% 1.86%
Muy buena 26.51% 37.02%
Excelente 20.88% 7.06%
Total 100.00% 100.00%
Comentarios:
Observaciones:
Es el mismo gráfico que antes, pero muestra los porcentajes condicionados sobre las barras para facilitar su lectura.
La tabla con porcentajes condicionados a las modalidades de ‘hizo.ejercicio’:
hizo.ejercicio
estado.salud No Si
Mala 33.73% 26.36%
Regular 13.25% 27.70%
Buena 5.62% 1.86%
Muy buena 26.51% 37.02%
Excelente 20.88% 7.06%
Total 100.00% 100.00%
Se muestran gráficos estadísticos comparativos en los que aparece un atributo o característica cualitativa frente a otra característica cuantitativa (discreta).
Se utilizará “datosSalarios” y las características:
Observaciones:
En este gráfico de barras se muestra para cada “ano.inicio” cómo se reparten las frecuencias absolutas conjuntas de “seguro.medico”.
Comentarios:
El número de personas que sí tienen seguro médico (“seguro.medico==si”) empieza en 2003 con el valor más alto y con el paso del tiempo va disminuyendo progresivamente hasta el 2007, y en 2008 de nuevo empieza a crecer el número de personas que sí tienen seguro médico.
Para las personas que no tienen seguro médico (“seguro.medico==no”), empieza en 2003 con el valor más alto y empieza a disminuir hasta el 2006. Sube en 2007 pero de nuevo empieza el descenso.
Siempre el volumen de personas que sí tienen seguro médico es bastante más grande que el de personas que no tienen seguro médico.
La tabla conjunta de frecuencias absolutas es:
seguro.medico
ano.inicio no si
2003 162 351
2004 141 344
2005 132 315
2006 113 279
2007 126 260
2008 124 264
2009 119 270
Observaciones:
En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
El número de personas que sí tienen seguro médico (“seguro.medico==si”) empieza en 2003 con el valor más alto y con el paso del tiempo va disminuyendo progresivamente hasta el 2007, y en 2008 de nuevo empieza a crecer el número de personas que sí tienen seguro médico.
Para las personas que no tienen seguro médico (“seguro.medico==no”), empieza en 2003 con el valor más alto y empieza a disminuir hasta el 2006. Sube en 2007 pero de nuevo empieza el descenso.
Siempre el volumen de personas que sí tienen seguro médico es bastante más grande que el de personas que no tienen seguro médico.
La tabla conjunta de frecuencias absolutas es:
seguro.medico
ano.inicio no si
2003 162 351
2004 141 344
2005 132 315
2006 113 279
2007 126 260
2008 124 264
2009 119 270
Observaciones:
En este gráfico se pueden realizar los mismos comentarios que en el “Diagrama de Barras Comparativo”
Comentarios:
El número de personas que sí tienen seguro médico (“seguro.medico==si”) empieza en 2003 con el valor más alto y con el paso del tiempo va disminuyendo progresivamente hasta el 2007, y en 2008 de nuevo empieza a crecer el número de personas que sí tienen seguro médico.
Para las personas que no tienen seguro médico (“seguro.medico==no”), empieza en 2003 con el valor más alto y empieza a disminuir hasta el 2006. Sube en 2007 pero de nuevo empieza el descenso.
Siempre el volumen de personas que sí tienen seguro médico es bastante más grande que el de personas que no tienen seguro médico.
La tabla conjunta de frecuencias con totales por fila
seguro.medico
ano.inicio no si Total
2003 162 351 513
2004 141 344 485
2005 132 315 447
2006 113 279 392
2007 126 260 386
2008 124 264 388
2009 119 270 389
Observaciones:
seguro.medico
ano.inicio no si
2003 162 351
2004 141 344
2005 132 315
2006 113 279
2007 126 260
2008 124 264
2009 119 270
Total 917 2083
Este gráfico es difícil de comentar.
El número de estudiados con seguro médico es más del doble que los que no lo tienen.
Observaciones:
En este gráfico los comentarios no pueden ser los mismos que en los diagramas anteriores de frecuencias absolutas, ya que en este caso se calculan porcentajes respecto al total de personas que había para cada “ano.inicio”.
La tabla de frecuencias condicionadas por filas
seguro.medico
ano.inicio no si Total
2003 31.58% 68.42% 100.00%
2004 29.07% 70.93% 100.00%
2005 29.53% 70.47% 100.00%
2006 28.83% 71.17% 100.00%
2007 32.64% 67.36% 100.00%
2008 31.96% 68.04% 100.00%
2009 30.59% 69.41% 100.00%
Comentarios:
El comportamiento del porcentaje de personas que sí tienen seguro médico respecto a las personas en cada año, apenas cambia a lo largo de los años, los valores se encuentran entre: 67.36% y 71.17%. Con el porcentaje de personas que no tienen seguro médico, oscilan entre: 28.83% y 32.64%.
Si nos restringimos a las personas del estudio en cada año, el porcentaje de asegurados es algo más del doble que el de no asegurados.
Se puede observar que desde el 2003 al 2006 el porcentaje de personas en cada año con seguro tiende a aumentar, pero en 2007 disminuye para a continuación seguir creciendo suavemente.
Para los no asegurados se podría decir lo contrario.
Observaciones:
Pueden hacerse los mismos comentarios que en el diagrama de barras apiladas con distribuciones condicionadas, pero parece más fácil ver las diferencias (se calculan los porcentajes respecto al total de personas que había para cada “ano.inicio”).
La tabla de frecuencias condicionadas por filas
seguro.medico
ano.inicio no si Total
2003 31.58% 68.42% 100.00%
2004 29.07% 70.93% 100.00%
2005 29.53% 70.47% 100.00%
2006 28.83% 71.17% 100.00%
2007 32.64% 67.36% 100.00%
2008 31.96% 68.04% 100.00%
2009 30.59% 69.41% 100.00%
Comentarios:
El comportamiento del porcentaje de personas que sí tienen seguro médico respecto a las personas en cada año, apenas cambia a lo largo de los años, los valores se encuentran entre: 67.36% y 71.17%. Con el porcentaje de personas que no tienen seguro médico, oscilan entre: 28.83% y 32.64%.
Si nos restringimos a las personas del estudio en cada año, el porcentaje de asegurados es algo más del doble que el de no asegurados.
Se puede observar que desde el 2003 al 2006 el porcentaje de personas en cada año con seguro tiende a aumentar, pero en 2007 disminuye para a continuación seguir creciendo suavemente.
Para los no asegurados se podría decir lo contrario.
Observaciones:
Observaciones:
seguro.medico
ano.inicio no si
2003 17.67% 16.85%
2004 15.38% 16.51%
2005 14.39% 15.12%
2006 12.32% 13.39%
2007 13.74% 12.48%
2008 13.52% 12.67%
2009 12.98% 12.96%
Total 100.00% 100.00%
Comentarios:
Observaciones:
Es el mismo gráfico que antes, pero muestra los porcentajes condicionados sobre las barras para facilitar su lectura.
La tabla con porcentajes condicionados a las modalidades de ‘seguro.medico’:
seguro.medico
ano.inicio no si
2003 17.67% 16.85%
2004 15.38% 16.51%
2005 14.39% 15.12%
2006 12.32% 13.39%
2007 13.74% 12.48%
2008 13.52% 12.67%
2009 12.98% 12.96%
Total 100.00% 100.00%
Se muestran gráficos estadísticos comparativos en los que aparece una variable continua frente a una característica cualitativa o discreta (con pocas modalidades o categorizada).
Se utilizará “datosSalud” y las características:
Observaciones:
En este gráfico con cajas y bigotes sobre la variable continua “altura.cm” para cada modalidad del atributo “sexo”.
Comentarios:
Observando la mediana (segmento interior de la caja) de los dos diagramas de caja y bigotes se puede decir que la altura mediana de los hombres (aproximadamente 178cm) es mayor que la altura mediana de las mujeres (aproximadamente 163cm).
Existen observaciones “outliers” en “altura.cm” para ambos sexos.
La tabla conjunta de frecuencias absolutas es:
# A tibble: 2 x 4
sexo Q1 Mediana Q3
<fct> <dbl> <dbl> <dbl>
1 hombre 173. 178. 173.
2 mujer 160. 163. 160.
Observaciones:
En este gráfico con cajas y bigotes sobre la variable continua “altura.cm” para cada modalidad de la combinación de los atributos “sexo” y “estado.salud”.
Comentarios:
Observando la mediana (segmento interior de la caja) de los diagramas de caja y bigotes se puede decir:
Existen observaciones “outliers” en “altura.cm” para ambos sexos.
Parte de los valores necesarios para representar los diagramas de cajas y bigotes son:
# A tibble: 10 x 5
# Groups: sexo [2]
sexo estado.salud Q1 Mediana Q3
<fct> <fct> <dbl> <dbl> <dbl>
1 hombre Mala 173. 178. 183.
2 hombre Regular 173. 178. 183.
3 hombre Buena 168. 175. 180.
4 hombre Muy buena 173. 178. 183.
5 hombre Excelente 170. 175. 180.
6 mujer Mala 157. 163. 168.
7 mujer Regular 160. 164. 170.
8 mujer Buena 157. 163. 168.
9 mujer Muy buena 157. 163. 168.
10 mujer Excelente 160. 163. 168.
Observaciones:
En este gráfico se representan las densidades (polígono de frecuencias sobre el histograma) sobre la variable continua “altura.cm” para cada modalidad del atributo “sexo”.
Comentarios:
Puede observarse que por los hombres son por lo general más altos que las mujeres. En términos centrales (media o mediana cerca del máximo en la curva) es claramente mayor en los hombres que en las mujeres.
Aproximadamente, las alturas de las mujeres se encuentran entre 135cm y 185cm, y las alturas de los hombres entre 150cm y 205cm.
Para los dos sexos, las dos distribuciones son aproximadamente simétricas. Aunque la de las mujeres es una curva más apuntada (curtosis) que la de los hombres.
Se muestran gráficos estadísticos en los que se representan dos variables continuas
Se utilizará “datosSalud” y las características:
Observaciones:
Se ha representado un diagrama de dispersión o nube de puntos con las variables “peso.kilos” (en eje X) y “altura.cm” (en eje Y), coloreando de forma diferente los hombres y las mujeres.
Comentarios:
Sobre la nube de puntos puede imaginarse una línea de tendencia creciente, de lo que puede decirse que predomina la relación directa (a mayor peso mayor altura).
Parece que mayoritarimente los hombres tienen mayor peso y altura que las mujeres (la nube de puntos verde está más desplazada a la derecha y hacia arriba).
Existen observaciones “outliers” (o extremas), por ejemplo, existe un hombre con altura mayor que 180 cm y peso mayor que 200 kg.
Datos de las características implicadas de los primeros individuos:
peso.kilos altura.cm sexo
1 79.38 177.80 hombre
2 56.70 162.56 mujer
3 47.63 152.40 mujer
4 59.87 167.64 mujer
5 68.04 154.94 mujer
6 51.71 162.56 mujer
cobertura.medica
estado.salud No Si
Mala 3.60% 24.60%
Regular 2.90% 21.20%
Buena 0.10% 2.70%
Muy buena 3.40% 31.00%
Excelente 2.10% 8.40%
fumado.100cig
estado.salud No Si
Mala 26.52% 30.20%
Regular 26.70% 21.01%
Buena 1.47% 4.38%
Muy buena 36.83% 31.51%
Excelente 8.47% 12.91%
nivel.educacion
raza No tiene bachillerato Bachillerato Algun Curso Universidad
asiatica 7.89% 16.32% 9.47%
blanca 8.51% 33.15% 21.45%
negra 10.58% 35.84% 31.40%
otra 29.73% 35.14% 21.62%
Graduado Universitario Master Universitario
34.74% 31.58%
23.23% 13.67%
13.65% 8.53%
8.11% 5.41%
tipo.trabajo
nivel.educacion Industrial Servicios
No tiene bachillerato 12.31% 5.36%
Bachillerato 41.19% 23.01%
Algun Curso Universidad 22.15% 21.15%
Graduado Universitario 17.75% 28.23%
Master Universitario 6.61% 22.25%
Más infografías en Statista
Diagrama de Barras Apilado Comparativo (país - casos COVID-19)
Infografía: Los países más afectados por el coronavirus (url-statista).