Sfondo
Come ex allievo del Grinnell College, ho osservato da vicino e sono stato influenzato da cambiamenti significativi nel panorama accademico. Quando mi sono laureato, il tasso di accettazione alla Grinnell era crollato del 15% dal momento in cui ero entrato, parallelamente a un forte aumento delle tasse universitarie. Questo modello non era esclusivo della mia alma mater; amici di varie università hanno fatto eco a esperienze simili.
Questo mi ha fatto pensare: è una tendenza diffusa nei college statunitensi? La mia teoria era duplice: in primo luogo, l’avvento delle candidature online avrebbe potuto semplificare il processo di candidatura a più college, aumentando così il bacino di candidati e riducendo i tassi di accettazione. In secondo luogo, un articolo del Istituto per le politiche migratorie ha evidenziato un raddoppio del numero di studenti internazionali negli Stati Uniti dal 2000 al 2020 (da 500.000 a 1 milione), intensificando potenzialmente la concorrenza. Inoltre, ero curioso di conoscere le tendenze delle tasse universitarie dal 2001 al 2022. Il mio obiettivo qui è svelare questi modelli attraverso la visualizzazione dei dati. Per l’analisi che segue, tutte le immagini, se non diversamente specificato, sono dell’autore!
Set di dati
Il set di dati che ho utilizzato comprende una serie di dati sui college statunitensi dal 2001 al 2022, coprendo aspetti come il tipo di istituto, i tassi di accettazione annuali, l’ubicazione dello stato e le tasse universitarie. Proveniente da Segnapunti del collegeil set di dati originale era vasto, con oltre 3.000 colonne e 10.000 righe. Ho selezionato meticolosamente le colonne pertinenti per un’analisi mirata, ottenendo un set di dati raffinato disponibile su Kaggle. Per garantire pertinenza e completezza, mi sono concentrato sui college quadriennali presenti nelle classifiche dei college di US News, estraendo l’elenco da Qui.
Variazione dei tassi di accettazione nel corso degli anni
Immergiamoci nell’evoluzione dei tassi di accettazione del college negli ultimi due decenni. Inizialmente sospettavo che avrei osservato un declino costante. La Figura 1 illustra questa traiettoria dal 2001 al 2022. Un calo costante è evidente fino al 2008, seguito da fluttuazioni che portano a un notevole aumento intorno al 2020-2021, probabilmente una ripercussione della pandemia di COVID-19 che influenza le decisioni sugli anni sabbatici e le strategie di iscrizione.
avg_acp_ranked = df_ranked.groupby("year")("ADM_RATE_ALL").mean().reset_index()plt.figure(figsize=(10, 6)) # Set the figure size
plt.plot(avg_acp_ranked('year'), avg_acp_ranked('ADM_RATE_ALL'), marker='o', linestyle='-', color='b', label='Acceptance Rate')
plt.title('Average Acceptance Rate Over the Years') # Set the title
plt.xlabel('Year') # Label for the x-axis
plt.ylabel('Average Acceptance Rate') # Label for the y-axis
plt.grid(True) # Show grid
# Show a legend
plt.legend()
# Display the plot
plt.show()
Tuttavia, il calo complessivo non è stato così ripido come suggeriva la mia esperienza alla Grinnell. Al contrario, se esaminiamo i tassi di accettazione delle università più prestigiose (Figura 2), diventa evidente un calo costante. Ciò mi ha portato a classificare le università in tre gruppi in base ai tassi di ammissione nel 2022 (10% superiore competitivo, 50% superiore e altri) e ad analizzare le tendenze all’interno di questi segmenti.
pres_colleges = ("Princeton University", "Massachusetts Institute of Technology", "Yale University", "Harvard University", "Stanford University")
pres_df = df(df('INSTNM').isin(pres_colleges))
pivot_pres = pres_df.pivot_table(index="INSTNM", columns="year", values="ADM_RATE_ALL")
pivot_pres.T.plot(linestyle='-')
plt.title('Change in Acceptance Rate Over the Years')
plt.xlabel('Year')
plt.ylabel('Acceptance Rate')
plt.legend(title='Colleges')
plt.show()
La Figura 3 svela alcune intuizioni sorprendenti. Ad eccezione del 50% meno competitivo, i college hanno generalmente registrato un aumento dei tassi di accettazione dal 2001. Le fluttuazioni successive al 2008 in tutti i college tranne il 10% più ricco potrebbero essere attribuite a fattori economici come la recessione. In particolare, i college competitivi non hanno sperimentato l’impennata dei tassi di accettazione indotta dalla pandemia osservata altrove.
top_10_threshold_ranked = df_ranked(df_ranked("year") == 2001)("ADM_RATE_ALL").quantile(0.1)
top_50_threshold_ranked = df_ranked(df_ranked("year") == 2001)("ADM_RATE_ALL").quantile(0.5)top_10 = df_ranked((df_ranked("year")==2001) & (df_ranked("ADM_RATE_ALL") <= top_10_threshold_ranked))("UNITID")
top_50 = df_ranked((df_ranked("year")==2001) & (df_ranked("ADM_RATE_ALL") > top_10_threshold_ranked) & (df_ranked("ADM_RATE_ALL") <= top_50_threshold_ranked))("UNITID")
others = df_ranked((df_ranked("year")==2001) & (df_ranked("ADM_RATE_ALL") > top_50_threshold_ranked))("UNITID")
top_10_df = df_ranked(df_ranked("UNITID").isin(top_10))
top50_df = df_ranked(df_ranked("UNITID").isin(top_50))
others_df = df_ranked(df_ranked("UNITID").isin(others))
avg_acp_top10 = top_10_df.groupby("year")("ADM_RATE_ALL").mean().reset_index()
avg_acp_others = others_df.groupby("year")("ADM_RATE_ALL").mean().reset_index()
avg_acp_top50 = top50_df.groupby("year")("ADM_RATE_ALL").mean().reset_index()
plt.figure(figsize=(10, 6)) # Set the figure size
plt.plot(avg_acp_top10('year'), avg_acp_top10('ADM_RATE_ALL'), marker='o', linestyle='-', color='g', label='Top 10%')
plt.plot(avg_acp_top50('year'), avg_acp_top50('ADM_RATE_ALL'), marker='o', linestyle='-', color='b', label='Top 50%')
plt.plot(avg_acp_others('year'), avg_acp_others('ADM_RATE_ALL'), marker='o', linestyle='-', color='r', label='Others')
plt.title('Average Acceptance Rate Over the Years') # Set the title
plt.xlabel('Year') # Label for the x-axis
plt.ylabel('Average Acceptance Rate') # Label for the y-axis
# Show a legend
plt.legend()
# Display the plot
plt.show()
Una scoperta mi ha particolarmente incuriosito: se si considera il 10% più ricco delle università, i loro tassi di accettazione non sono diminuiti notevolmente nel corso degli anni. Ciò mi ha portato a chiedermi se il cambiamento nella competitività fosse diffuso o se si trattasse di un caso in cui in alcune università stava diventando molto più difficile o più facile entrare. La costante diminuzione dei tassi di accettazione presso istituzioni prestigiose (mostrato in figura 2) ha accennato a quest’ultimo.
Per avere un quadro più chiaro, ho visualizzato i cambiamenti nella competitività dei college dal 2001 al 2022. La Figura 4 rivela una tendenza sorprendente: circa la metà dei college è diventata effettivamente meno competitiva, contrariamente alle mie aspettative iniziali.
pivot_pres_ranked = df_ranked.pivot_table(index="INSTNM", columns="year", values="ADM_RATE_ALL")
pivot_pres_ranked_down = pivot_pres_ranked(pivot_pres_ranked(2001) >= pivot_pres_ranked(2022))
len(pivot_pres_ranked_down)pivot_pres_ranked_up = pivot_pres_ranked(pivot_pres_ranked(2001) < pivot_pres_ranked(2022))
len(pivot_pres_ranked_up)
categories = ("Up", "Down")
values = (len(pivot_pres_ranked_up), len(pivot_pres_ranked_down))
plt.figure(figsize=(8, 6))
plt.bar(categories, values, width=0.4, align='center', color=("blue", "red"))
plt.xlabel('Change in acceptance rate')
plt.ylabel('# of colleges')
plt.title('Change in acceptance rate from 2001 to 2022')
# Show the chart
plt.tight_layout()
plt.show()
Ciò mi ha spinto a esplorare i possibili fattori che influenzano questi cambiamenti. La mia ipotesi, rafforzata dalla Figura 2, era che i college già selettivi lo fossero diventati ancora di più nel tempo. La Figura 5 confronta i tassi di accettazione nel 2001 e nel 2022.
La linea dei 45 gradi delinea i college che sono diventati più o meno competitivi. Quelli sotto la linea hanno visto tassi di accettazione ridotti. Un cluster evidente nel quadrante in basso a sinistra rappresenta i college selettivi che sono diventati sempre più esclusivi. Questa tendenza è sottolineata dall’osservazione che i college con tassi di accettazione inizialmente bassi (lato sinistro del grafico) tendono a scendere al di sotto di questa linea di demarcazione, mentre quelli a destra sono distribuiti più equamente.
Inoltre, è interessante notare che dal 2001 i college più selettivi sono prevalentemente privati. Per verificare se i cambiamenti nei tassi di accettazione differivano in modo significativo tra i college del 50 percentile più alti e quelli più bassi, ho condotto un test t indipendente (ipotesi nulla: θ_top = θ_bottom). I risultati hanno mostrato una differenza statisticamente significativa.
import seaborn as sns
from matplotlib.patches import Ellipsepivot_region = pd.merge(pivot_pres_ranked((2001, 2022)), df_ranked(("REGION","INSTNM", "UNIVERSITY", "CONTROL")), on="INSTNM", how="right")
plt.figure(figsize=(8, 8))
sns.scatterplot(data=pivot_region, x=2001, y=2022, hue='CONTROL', palette='Set1', legend='full')
plt.xlabel('Acceptance rate for 2001')
plt.ylabel('Acceptance rate for 2022')
plt.title('Change in acceptance rate')
x_line = np.linspace(0, max(pivot_region(2001)), 100) # X-values for the line
y_line = x_line # Y-values for the line (slope = 1)
plt.plot(x_line, y_line, label='45-Degree Line', color='black', linestyle='--')
# Define ellipse parameters (center, width, height, angle)
ellipse_center = (0.25, 0.1) # Center of the ellipse
ellipse_width = 0.4 # Width of the ellipse
ellipse_height = 0.2 # Height of the ellipse
ellipse_angle = 45 # Rotation angle in degrees
# Create an Ellipse patch
ellipse = Ellipse(
xy=ellipse_center,
width=ellipse_width,
height=ellipse_height,
angle=ellipse_angle,
edgecolor='b', # Edge color of the ellipse
facecolor='none', # No fill color (transparent)
linewidth=2 # Line width of the ellipse border
)
plt.gca().add_patch(ellipse)
# Add the ellipse to the current a
plt.legend()
plt.gca().set_aspect('equal')
plt.show()
Un altro aspetto che ha stuzzicato la mia curiosità sono state le differenze regionali. La Figura 6 elenca i primi 5 college con la diminuzione più significativa dei tassi di accettazione (calcolati dividendo il tasso di accettazione del 2022 per il tasso del 2001).
È stato sorprendente vedere quanto fosse alto il tasso di accettazione per l’Università di Chicago vent’anni fa: allora la metà dei candidati fu ammessa!
Ciò mi ha anche aiutato a comprendere la mia propensione iniziale verso una diminuzione generale dei tassi di accettazione; in particolare, il Grinnell College, la mia alma mater, è tra questi primi 5 con un calo significativo nel tasso di accettazione.
È interessante notare che tre dei cinque migliori college si trovano nel Midwest. La mia teoria è che con l’avvento di Internet, queste istituzioni, storicamente meno rinomate come quelle delle coste occidentali ed orientali, hanno acquisito maggiore visibilità sia a livello nazionale che internazionale.
pivot_pres_ranked("diff") = pivot_pres_ranked(2001) / pivot_pres_ranked(2022)
tmp = pivot_pres_ranked.reset_index()
tmp = tmp.merge(df_ranked(df_ranked("year")==2022)(("INSTNM", "STABBR", "CITY")),on="INSTNM")
tmp.sort_values(by="diff",ascending=False)(("INSTNM", "diff", "STABBR", "CITY")).head(5)
Fonte: towardsdatascience.com