¿Buscando una herramienta gratuita con la que sacarle el máximo provecho a tus datos?
Cada vez son más las empresas que buscan una herramienta con la que analizar los distintos datos que disponen y poder tomar decisiones en base a ellos.
RStudio es una de las mejores soluciones que tienes ahora mismo disponible, aunque su lenguaje hace que aquellas personas que estén interesadas, se frenen a la hora de utilizarla.
Esta semana abro una sección para ir desgranando poco a poco esta herramienta y que puedas sacarle el máximo provecho.
¿Listo?
Pues vamos a ello.
Qué es RStudio
Lo primero que debemos preguntarnos es: ¿Qué es R?
R y R Studio, ambos deben instalarse a la vez, son una herramienta de análisis de datos. En comparación con Excel, esta herramienta te va a permitir volcar distintos tipos de archivos (independientemente de su formato) y poder trabajar con ellos sin tener en cuenta el tamaño.
R Studio cuenta además con una serie de librerias gratuitas, con las que podrás tratar tus datos, crear series temporales, crear modelos, predicciones,….
Sinceramente la considero una de las mejores herramientas, por no decir la mejor herramienta de analítica de datos.
Como instalar RStudio
Instalar R y RStudio no tiene mucho misterio. Simplemente tendrás que acceder a las siguientes webs que te dejo e instalar AMBOS.
R: http://cran.r-project.org/bin/windows/base/
RStudio: http://www.rstudio.com/products/rstudio/download/
Cómo subir un archivo a RStudio
Una vez que ya has instalado RStudio, es hora de abrir la herramienta. Seguramente te aparecerá algo así. Vamos a ver cada uno de los espacios.
- En el espacio que te marco con un nº 1 corresponde al espacio donde incluirás tus operaciones y comandos. Se trata del lugar donde programarás.
- En el espacio que te marco un nº2 se tratad de la consola. Aquí se irán mostrando las operaciones y comandos una vez estén ejecutados. Cualquier error también te aparecerá aquí.
- En el espacio nº3 te aparecerán las bbdd que vayas bien creando o bien subiendo a la herramienta.
- Y en el espacio nº4 se trata del lugar donde se irán mostrando las gráficas que crees a partir de tu base de datos, además del lugar donde enuentres los “packages” es decir las librerias que tienes disponibles para cargar.
¿Dónde subimos el archivo?
En el espacio nº3 arriba verás la opción “Import Dataset”. Aquí tendrás distintas opciones, aunque las más comunes son:
- From Text (readr)
- From Excel…
Pongamos que voy a subir un archivo csv, en este caso la opción sería “From Text (readr). Seleccionarás el archivo que quieras subir y acto seguido te aparecerá una pantalla como esta:
En este caso tendrás que copiar el código que te dejo marcado, de cara a pegarlo posteriormente en el espacio del script de R (espacio nº1).
Una vez hemos pegado el código, toca hacer una copia de seguridad de nuestra base de datos. ¿Para qué te podrás estar preguntando?
Principalmente para que puedas machacar esa nueva bbdd sin miedo a que puedas perder la original. (Si la lias mucho no te preocupes porque siempre tendrás la BBDD original).
Antes de seguir con los comandos principales de RStudio, como habrás podido ver en la imagen he incluido un código “<-”. Este código quiere decir “haz esto”.
En el caso que vemos en la imagen la traducción sería: “Crea una base de datos llamada “datos” a partir de esta base de datos. Digamos que es la manera que tiene R de entender que quieres crear algo nuevo.
De hecho una vez le damos a Run (ubicado en la parte superior del espacio nº1), verás que se crea una nueva BBDD en el espacio nº2 con los mismos datos que en nuestra bbdd.
Comandos Iniciales de RStudio
Vamos a ver los comandos principales que tienes a tu disposición:
Una vez que has subido tu base de datos y has hecho una copia, por si ocurriese cualquier cosa poder volver a la base de datos original, puedes empezar a trastear con ella. Lo primero que te recomiendo es que vayas profundizando poco a poco en tu base de datos y lo más importante que vayas intentando entenderla.
Verás como a medida que vas haciendo estas operaciones, en la parte inferior te van apareciendo una serie de datos:
- Calcular el número de filas dentro de tu base de datos: nrow(datos)
- Calcular el número de columnas: ncol(datos)
- Ver la dimensión de la bbdd: dim(datos)
- Si queremos seleccionar una columna concreta dentro de nuestra bbdd utilizaremos el comando $ después de mencionar nuestra bbdd:
- Si por ejemplo queremos hacer la media de una columna: mean(datos$nombredelacolumna)
- Si lo que queremos es medir la varianza: var(datos$nombredelacolumna)
- Si lo que queremos es medir la correlación: cor(datos$nombredelacolumna, datos$nombredelacolumna2)
Si lo que buscamos es hacer un análisis detallado de la bbdd entonces los comandos que deberías utilizar son:
- Str(datos), en este caso te va a volcar la estructura de los datos (indicandote el formato de las columnas, las filas,….)
- Summary(datos), en el caso de este comando lo que te va a volcar son datos más “ordenados” de las columnas, incluyendo las celdas vacias (que esto veremos en otro artículo)
Con esto que empieces a manejar va siendo suficiente para un principiante. Pronto iremos desgranando más información.
Principales paquetes de RStudio
Si lo que buscas es adentrarte en el mundo de RStudio como un profesional, te recomiendo ir echando un vistazo a las librerias que te dejo a continuación:
- Dplyr, una librería muy completa para el tratamiento de datos (en este caso tendrá un artículo especial para ella)
- Forecast, para empezar a trabajar con series temporales
- Ggplot2, para poder manipular y crear visualizaciones
Conclusión
RStudio es una herramienta con una curva de aprendizaje que al comienzo puede quitarnos las ganas de vivir, pero que si superamos esas primeras fases, podemos sacarle muchísimo potencial. Te recomiendo no frustrarte en el proceso y que vayas poco a poco familiarizándote con ella.
¡Espero que este artículo te haya sido útil! Si tienes cualquier duda, recuerda que estoy a tu entera disposición.
¡Nos leemos la semana que viene y entre tanto, y cómo siempre, a darle fayer al marketing digital!