Hoe een Bubble Plot de beste steden onthult om in de VS te wonen

In dit artikel zal ik je enkele spannende feiten over Amerikaanse steden laten zien, de waarde van bubbelplots bij het beslissen in welke stad je gaat wonen en hoe je die plots kunt maken.

Overweegt u in 2018 te investeren in onroerend goed? Verhuizen naar een nieuwe stad? Wanneer u deze beslissingen overweegt, moet u rekening houden met verschillende factoren, zoals werkloosheidspercentage, huizenprijs, de grootte van de stad, veiligheid, enzovoort. Zelfs met al die gegevens en vier bijbehorende staafdiagrammen, zul je nog steeds geen idee hebben naar die tafel te staren. U probeert de beste kandidaten te vinden, maar die factoren vertellen verschillende verhalen ... Klinkt als een complex probleem.

Dus, is er een manier om al deze factoren in 1 grafiek te visualiseren en ALLEMAAL te vergelijken? Ja, we kunnen een bubbelplot gebruiken!

Wat is een bubbelplot?

Een bellenplot is een grafiektype dat meer dan twee dimensies van gegevens weergeeft (vergeleken met traditionele spreidingsplots). Naast het plotten van een stip op een X-Y-vlak, gebruikt het de grootte, kleur of vorm van het punt om meer dimensies weer te geven.

We gebruiken het werkloosheidspercentage als de X-as, de gemiddelde huizenprijs als de Y-as en de bevolking van de steden als de grootte van de stippen. Dit maakt een goede derde dimensie. Kleur wordt willekeurig toegewezen aan elke stad.

De beste stad in de VS om in te wonen is ... (wacht erop)

Winnaar: Nashville!

Andere aanbevelingen: Austin, Omaha, Milwaukee, Dallas, Minneapolis, Denver en Aurora.

Ze hebben een lage werkloosheid (en daarom is er een grotere kans om een ​​baan te vinden) en een lage huizenprijs, omdat ze zich aan de linkeronderkant van het perceel bevinden. Wat betekent dat?

Het betekent dat u uw keuzes kunt maken op basis van deze plot.

Als u bijvoorbeeld het werkloosheidspercentage belangrijker vindt en de hogere huizenprijzen niet erg vindt, zijn Honolulu, Oakland, Boston en San Diego sterke kandidaten

Hoe zit het met het toevoegen van veiligheid als een andere factor?

Zeker. Laten we veiligheid als een vierde factor toevoegen (de andere drie factoren zijn nog steeds de thuisprijs, de werkloosheid en de bevolking). In plaats van het willekeurig toewijzen van een kleur voor een stad, gebruiken we de kleurenschaal voor criminaliteit (criminaliteitscijfer per 100.000 mensen). Rood betekent meer misdaad en blauw betekent minder.

Verandert het resultaat?

Het deed! Als veiligheid erg belangrijk voor u is, is Milwaukee misschien niet zo'n goede keuze uit de vorige aanbevelingen (hoewel het zich links onderaan de grafiek bevindt).

Nu zie je de kracht van een bellenplot: de mogelijkheid om meerdere factoren in één 2D-plot te demonstreren. Als u alleen staafdiagrammen voor die factoren hebt, is het moeilijk voor u om de steden te identificeren met een ideale combinatie van factoren. De bellenplot creëerde in feite een "visuele objectieve functie" voor u om een ​​besluitvormingsprobleem met meerdere variabelen te optimaliseren.

Hoe veranderen de werkloosheidsgraad en de huizenprijs in de loop van de tijd?

We kunnen een interactieve bewegingsgrafiek maken om tijd als dimensie toe te voegen (2013 tot 2017) om te zien hoe de factoren voor deze steden in de loop van de tijd veranderen.

Om teveel visuele informatie te voorkomen, heb ik geen criminaliteitsgegevens gebruikt en de verschillende kleuren gebruikt om een ​​aantal geselecteerde steden weer te geven.

Het goede nieuws is dat de werkloosheid in bijna alle steden aanzienlijk daalde (van rechts naar links). Maar het slechte nieuws is dat de huizenprijzen behoorlijk snel stijgen (vooral voor San Francisco, San Jose, Los Angles, New York en Seattle).

Wilt u de grafieken zelf maken? Hier is mijn code voor de bubbelplots en de bewegingsgrafiek in R. Veel plezier met spelen met de plots :)

###############
# Bubble Plot #
###############
library (data.table)
library (ggplot2)
library (ggrepel)
bubble_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/bubble_plot_merged_city_data.csv", sep = ",")
bubble_plot <- ggplot (bubble_data,
               aes (x = Werkloosheidsgraad, y = Home_Prijs / 1000)) +
geom_point (aes (size = Populatie, fill = Total_Crime), shape = 21) +
# Maak 'Bubble' door een variabele een variabele toe te kennen #
scale_fill_continuous (low = "# 33FFFF", high = "# FF6699") +
scale_size_area (max_size = 20) +
# Selecteer bellenkleurenschaal en bellen maximale grootte #
geom_text_repel (
          aes (label = City), nudge_x = 0, nudge_y = 0.75, size = 6) +
# Gebruik geom_text_repel om de labels van elkaar af te weren #
theme_bw () +
# Gebruik een witte achtergrond in plaats van de standaard grijze achtergrond #
ggtitle ("Beste steden in de VS om in te wonen") + labs (x = "Werkloosheidspercentage%", y = "Thuisprijs",
       size = "Bevolking", fill = "Crime") + thema (plot.title = element_text (size = 25, hjust = 0.5),
        axis.title = element_text (size = 20, face = "bold"),
        axis.text = element_text (size = 15)) +
# Stijltitel en as #
scale_y_continuous (name = "Home Price", breaks = seq (0, 1500, by = 250),
                      labels = c ("0", "250K", "500K", "750K", "1000k", "1250k", "1500K"))
# Maak y-as leesbaarder door wetenschappelijk getal te vervangen door "K" #
afdruk (bubble_plot)
################
# Bewegingsgrafiek #
################
library (data.table)
library (googleVis)
motion_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/motion_chart_merged_city_data.csv", sep = ",")
motion_chart <- gvisMotionChart (motion_data,
idvar = "Stad",
timevar = "Jaar",
xvar = "Werkloosheidspercentage",
yvar = "Home Prijs",
sizevar = "Bevolking")
plot (motion_chart)
# R opent automatisch een tabblad in de browser voor u
# De flash player moet ingeschakeld zijn in de browser
Klik op het pictogram
########
# Data #
########
"""
De datasets die ik heb gebruikt, zijn afkomstig van Zillow (middelgrote woningen), het UCR-programma van de FBI, census.gov (bevolking), Bureau of Labour (werkloosheid).
Ik heb wat gegevens opgeschoond en meegedaan voor het formaat dat ik in dit artikel nodig had, en je kunt op de onderstaande links klikken om te downloaden.
"""
bubble_plot_merged_city_data.csv, motion_chart_merged_city_data.csv

Volg me en geef me een paar klappen als je dit nuttig vond!

U kunt ook mijn vorige artikelen lezen over data science, onroerend goed en besluitvorming: