Introducción a Git/Github con R y RStudio (transparencias)

Autor

Pedro L. Luque

Fecha de Publicación

13 septiembre 2022

Introducción

Análisis reproducibles (1/3)

  • Los hallazgos científicos se pueden confirmar repetidamente a través de la replicación.
  • La Replicabilidad significa que diferentes personas obtienen los mismos resultados con diferentes datos.
  • La Reproducibilidad significa que la misma persona (o diferentes personas) obtienen los mismos resultados con los mismos datos.
    • ¿Reproducir el análisis de datos? ¿No es solo cuestión de seguir unos pocos pasos?
  • Los científicos son legendarios guardianes de los cuadernos de laboratorio. Estos cuadernos contienen toda la información necesaria para llevar a cabo el estudio de nuevo (es decir, replicar): reactivos y otros suministros, equipos, material experimental, etc.

Análisis reproducibles (2/3)

  • Las herramientas de software modernas permiten a los científicos llevar este mismo espíritu al análisis de datos. Todo lo necesario para repetir el análisis (es decir, reproducir) debe registrarse en un solo lugar.

    • Aún mejor, las herramientas de software modernas permiten que el análisis se repita con solo presionar un botón. Esto proporciona una prueba de que el análisis que se está documentando es de hecho exactamente el mismo que el análisis que se realizó.

    • Además, esta capacidad les permite redactar y volver a redactar el análisis hasta que lo hagan perfecto.

  • Aún mejor, cuando el análisis se escribe apropiadamente, es fácil aplicar el análisis a nuevos datos.

  • El software de hojas de cálculo, a pesar de su popularidad, no es adecuado para esto.

Análisis reproducibles (3/3)

  • La crisis de replicación es un problema muy real para la ciencia moderna (https://en.wikipedia.org/wiki/Replication_crisis).
    • Hace más de 15 años, Ioannidis (2005) argumentó que “la mayoría de los resultados de la investigación publicados son falsos”.

    • Más recientemente, la revista Nature publicó una serie de editoriales lamentando la falta de replicabilidad en la investigación publicada (Editorial 2013).

    • Ahora parece que incluso entre los artículos científicos publicados revisados por pares, muchos de los hallazgos, que están respaldados por evidencia experimental y estadística, no se sostienen bajo el escrutinio de la replicación. Es decir, cuando otros investigadores tratan de hacer el mismo estudio, no llegan confiablemente a las mismas conclusiones.

Proyectos Reproducibles (1/3)

  • El producto final de un proyecto de análisis de datos es a menudo un informe.

    • Muchas publicaciones científicas se pueden considerar como un informe final de un análisis de datos.
    • Lo mismo es cierto para
      • los artículos de noticias basados en datos,
      • un informe de análisis para su empresa
      • o notas de conferencia para una clase sobre cómo analizar datos.
    • Los informes a menudo están en papel o en un PDF que incluye una descripción textual de los hallazgos junto con algunas cifras y tablas resultantes del análisis.

Proyectos Reproducibles (2/3)

  • Imagine las siguientes situaciones:

    • Después de terminar el análisis y el informe, se le dice que se le dio un conjunto de datos incorrecto, se le envía uno nuevo y se le pide que ejecute el mismo análisis con este nuevo conjunto de datos.
    • ¿O qué pasa si se da cuenta de que se cometió un error y necesita volver a examinar el código, corregir el error y volver a ejecutar el análisis?
    • ¿O imagina que alguien con el que estás colaborando o enseñando quiere ver el código y ser capaz de reproducir los resultados para aprender sobre tu enfoque?

Proyectos Reproducibles (3/3)

  • Situaciones como las que se acaban de describir son en realidad bastante comunes para un científico de datos.

  • Se verá cómo con RStudio se puede volver a ejecutar un análisis de forma sencilla.

  • Con R Markdown (o Quarto) se demostrará cómo generar informes reproducibles de una manera que ayudará en gran medida a recrear informes con un trabajo mínimo.

    • R Markdown (y Quarto) permite combinar el código y las descripciones textuales en el mismo documento, y las figuras y tablas producidas por el código se agregan automáticamente al documento.

¿Por qué usar Git y GitHub (control de versiones)?

Hay tres razones principales para usar Git y GitHub.

  1. Control de versiones: Las capacidades de control de versiones de Git nos permiten realizar un seguimiento de los cambios que realizamos en nuestro código. También podemos volver a versiones anteriores de archivos.

    • Git también nos permite crear ramas en las que podemos probar ideas, y luego decidir si fusionamos la nueva rama con la original.
  2. Colaboración: Una vez que configure un repositorio central, puede hacer que varias personas hagan cambios en el código y mantengan las versiones sincronizadas. GitHub proporciona un servicio gratuito para repositorios centralizados.

    • GitHub también tiene una utilidad especial, llamada “pull request”, que puede ser utilizada por cualquier persona para sugerir cambios en su código. Puede aceptar o denegar fácilmente la solicitud.
  3. Compartir: Podemos usar Git y GitHub para compartir nuestro código.

Referencias