Gráfico de Dispersión


Un gráfico de dispersión visualiza la relación entre dos variables, como una afecta a la otra.

Así es como se produce un gráfico de dispersión en altair:

# primero importamos las bibliotecas necesarias
# estos alias son convenciones populares
# pero no son requisitos estrictos

import pandas as pd
import altair as alt

Si estas trabajando con este notebook en un jupyter notebook y no el jupyter lab requerirás ejecutar el siguiente código también.

alt.renderers.enable("notebook")

Los datos con los que vamos a trabajar son de INEGI y del Banco Mundial. En este caso, el número de personas en el país y el producto interno bruto (PIB).

datos = pd.read_csv("../../datos/pib.csv")

Puedes explorar el DataFrame con el método .head() para observar las primeras líneas.

datos.head()
periodo poblacion PIB
0 1960 34923129 1.304000e+10
1 1970 48225238 3.552000e+10
2 1980 66846833 1.943480e+11
3 1990 81249645 2.627100e+11
4 1995 91158290 3.600740e+11

Visualización

alt.Chart(datos).mark_point().encode(
    x = 'poblacion',
    y = 'PIB',
)

png

Con este gráfico de dispersión puedes observar la relación positiva entre el PIB de Mexico y la población.

altair tiene otros marcadores que funcionan muy bien para crear gráficos de dispersión también como .mark_circle() y .mark_square().
Modifica el código para crear los siguientes gráficos:

scatter square

scatter circle

# Cuadrados




# Circulos




Ejercicio

En el capítulo anterior aprendiste algunos marcadores (como .mark_trail()) tienen la propiedad size a la cual le puedes asignar una columna de tu DataFrame.
Modifica este gráfico para la propiedad size, recuerda que puedes asignarle otra columna que no hayas usado o repetir.
Más adelante aprenderás como personalizar aún más tus visualizaciones y como sacarle mayor provecho a este tipo de gráficos los cuales son muy comunes en el campo académico.

alt.Chart(datos).mark_point().encode(
    x = '',
    y = '',
    size = '',
)