Colonne Panda: indicizzazione tra parentesi (df('x')) e sintassi del punto (df.x) |  di Marcin Kozak |  Marzo 2024

 | Intelligenza-Artificiale

PANDA PER LA SCIENZA DEI DATI

È importante come lo fai? Forse uno è più veloce dell'altro?

5 minuti di lettura

2 ore fa

La sintassi del punto è molto popolare in Python, anche in Panda. fotografato da Alessandro Barba SU Unsplash

Quando si utilizzano Panda, la maggior parte dei data scientist sceglierebbe df('x') O df("x") – non importa quale usi purché ti attieni a quello che hai scelto. Puoi leggere di più a riguardo qui:

Quindi, d'ora in poi, ovunque scriverò df("x")questo si riferirà ugualmente a df('x'). Tuttavia, c'è un'altra opzione. Puoi anche andare per df.x. Sebbene sia un'opzione meno frequente, può migliorare la leggibilità, presupponendo che il nome della colonna sia a identificatore Python valido.¹

È importante quale sintassi scegli? Questo articolo si propone di affrontare questo problema, da due punti di vista più importanti: leggibilità e prestazioni.

I due approcci – df("x") E df.x – sono metodi comuni per accedere alla colonna (qui, "x") da un frame di dati (qui, df). Nel campo della scienza dei dati, molto probabilmente il primo è utilizzato più frequentemente: almeno la mia esperienza in una varietà di progetti di scienza dei dati suggerisce questo.

Leggibilità e semplicità d'uso

Consideriamo i vantaggi e gli svantaggi dei metodi in termini di leggibilità e semplicità:

  1. df("x"): Questo è il metodo esplicito. Questa opzione consente di utilizzare colonne con nomi che contengono spazi o caratteri speciali o, più in generale, che sono identificatori Python non validi. Grazie a questa sintassi, lo sai immediatamente "x” è il nome di una colonna. Tuttavia, questa è la versione meno leggibile per gli occhi: quando vedi molto codice del genere, potresti dover lottare con il disordine visivo davanti ai tuoi occhi.
  2. df.x: Questo metodo fornisce una sintassi più concisa, come ogni volta che lo usi df.xsalvi tre personaggi. Lo apprezzerai soprattutto quando si preferisce un codice conciso. Utilizzando df.xè come…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *