Gráfico de Dispersión

Un gráfico de dispersión visualiza la relación entre dos variables, como una afecta a la otra.

Así es como se produce un gráfico de dispersión en altair:

# primero importamos las bibliotecas necesarias
# estos alias son convenciones populares
# pero no son requisitos estrictos

import pandas as pd
import altair as alt

Si estas trabajando con este notebook en un jupyter notebook y no el jupyter lab requerirás ejecutar el siguiente código también.

alt.renderers.enable("notebook")

Los datos con los que vamos a trabajar son de INEGI y del Banco Mundial. En este caso, el número de personas en el país y el producto interno bruto (PIB).

datos = pd.read_csv("../../datos/pib.csv")

Puedes explorar el DataFrame con el método .head() para observar las primeras líneas.

datos.head()

	periodo	poblacion	PIB
0	1960	34923129	1.304000e+10
1	1970	48225238	3.552000e+10
2	1980	66846833	1.943480e+11
3	1990	81249645	2.627100e+11
4	1995	91158290	3.600740e+11

Visualización

alt.Chart(datos).mark_point().encode(
    x = 'poblacion',
    y = 'PIB',
)

png

Con este gráfico de dispersión puedes observar la relación positiva entre el PIB de Mexico y la población.

altair tiene otros marcadores que funcionan muy bien para crear gráficos de dispersión también como .mark_circle() y .mark_square().
Modifica el código para crear los siguientes gráficos:

scatter square

scatter circle

# Cuadrados

# Circulos

Ejercicio

En el capítulo anterior aprendiste algunos marcadores (como .mark_trail()) tienen la propiedad size a la cual le puedes asignar una columna de tu DataFrame.
Modifica este gráfico para la propiedad size, recuerda que puedes asignarle otra columna que no hayas usado o repetir.
Más adelante aprenderás como personalizar aún más tus visualizaciones y como sacarle mayor provecho a este tipo de gráficos los cuales son muy comunes en el campo académico.

alt.Chart(datos).mark_point().encode(
    x = '',
    y = '',
    size = '',
)