PANDA PER LA SCIENZA DEI DATI
Quando si utilizzano Panda, la maggior parte dei data scientist sceglierebbe df('x')
O df("x")
– non importa quale usi purché ti attieni a quello che hai scelto. Puoi leggere di più a riguardo qui:
Quindi, d'ora in poi, ovunque scriverò df("x")
questo si riferirà ugualmente a df('x')
. Tuttavia, c'è un'altra opzione. Puoi anche andare per df.x
. Sebbene sia un'opzione meno frequente, può migliorare la leggibilità, presupponendo che il nome della colonna sia a identificatore Python valido.¹
È importante quale sintassi scegli? Questo articolo si propone di affrontare questo problema, da due punti di vista più importanti: leggibilità e prestazioni.
I due approcci – df("x")
E df.x
– sono metodi comuni per accedere alla colonna (qui, "x"
) da un frame di dati (qui, df
). Nel campo della scienza dei dati, molto probabilmente il primo è utilizzato più frequentemente: almeno la mia esperienza in una varietà di progetti di scienza dei dati suggerisce questo.
Leggibilità e semplicità d'uso
Consideriamo i vantaggi e gli svantaggi dei metodi in termini di leggibilità e semplicità:
df("x")
: Questo è il metodo esplicito. Questa opzione consente di utilizzare colonne con nomi che contengono spazi o caratteri speciali o, più in generale, che sono identificatori Python non validi. Grazie a questa sintassi, lo sai immediatamente"xâ
è il nome di una colonna. Tuttavia, questa è la versione meno leggibile per gli occhi: quando vedi molto codice del genere, potresti dover lottare con il disordine visivo davanti ai tuoi occhi.df.x
: Questo metodo fornisce una sintassi più concisa, come ogni volta che lo usidf.x
salvi tre personaggi. Lo apprezzerai soprattutto quando si preferisce un codice conciso. Utilizzandodf.x
è come…
Fonte: towardsdatascience.com