Gráfico de Dispersión
Un gráfico de dispersión visualiza la relación entre dos variables, como una afecta a la otra.
Así es como se produce un gráfico de dispersión en altair
:
# primero importamos las bibliotecas necesarias
# estos alias son convenciones populares
# pero no son requisitos estrictos
import pandas as pd
import altair as alt
Si estas trabajando con este notebook en un jupyter notebook y no el jupyter lab requerirás ejecutar el siguiente código también.
alt.renderers.enable("notebook")
Los datos con los que vamos a trabajar son de INEGI y del Banco Mundial. En este caso, el número de personas en el país y el producto interno bruto (PIB).
datos = pd.read_csv("../../datos/pib.csv")
Puedes explorar el DataFrame con el método .head()
para observar las primeras líneas.
datos.head()
periodo | poblacion | PIB | |
---|---|---|---|
0 | 1960 | 34923129 | 1.304000e+10 |
1 | 1970 | 48225238 | 3.552000e+10 |
2 | 1980 | 66846833 | 1.943480e+11 |
3 | 1990 | 81249645 | 2.627100e+11 |
4 | 1995 | 91158290 | 3.600740e+11 |
Visualización
alt.Chart(datos).mark_point().encode(
x = 'poblacion',
y = 'PIB',
)
Con este gráfico de dispersión puedes observar la relación positiva entre el PIB de Mexico y la población.
altair
tiene otros marcadores que funcionan muy bien para crear gráficos de dispersión también como .mark_circle()
y .mark_square()
.
Modifica el código para crear los siguientes gráficos:
# Cuadrados
# Circulos
Ejercicio
En el capítulo anterior aprendiste algunos marcadores (como .mark_trail()
) tienen la propiedad size a la cual le puedes asignar una columna de tu DataFrame.
Modifica este gráfico para la propiedad size, recuerda que puedes asignarle otra columna que no hayas usado o repetir.
Más adelante aprenderás como personalizar aún más tus visualizaciones y como sacarle mayor provecho a este tipo de gráficos los cuales son muy comunes en el campo académico.
alt.Chart(datos).mark_point().encode(
x = '',
y = '',
size = '',
)