Codifica efficace con date e orari in Python | di Alicia Horsch | Agosto 2023 | Intelligenza-Artificiale

Indice contenuti

IL appuntamento Il pacchetto ti consente di creare facilmente oggetti data e data ora da zero che possono essere utilizzati, ad esempio, come soglie per il filtraggio (prova a stampare gli oggetti creati di seguito e i loro tipi per comprenderne meglio il formato).

Anche, appuntamento ti consente di creare oggetti data e ora che fanno riferimento a oggi o adesso.

Stai attento qui, come appuntamento gli oggetti sono solitamente “ingenui nel fuso orario” e non si riferiscono a un fuso orario specifico, il che potrebbe metterti nei guai quando lavori con colleghi internazionali!

Con l’aiuto del zoneinfo (integrato a partire dalla versione 3.9 di Python), puoi impostare il fuso orario con il tz parametro di astimezone().

Potresti trovarti in una situazione in cui desideri mostrare il tuo appuntamento oggetto come una stringa o convertire una stringa in un file appuntamento oggetto. Ecco le funzioni strftime() E strptime() sono utili.

Conversione di un oggetto datetime (o parti di esso) in una stringa

È possibile trovare codici di formato comunemente utilizzati per descrivere gli oggetti datetime Qui.

Conversione di una stringa in un oggetto datetime

Analisi di stringhe complesse utilizzando dateutil

Se gestisci set di dati di grandi dimensioni, numpy datetime64 può tornare utile poiché, grazie al suo design, può essere molto più veloce che lavorare con appuntamento E dateutil oggetti. Il tipo di dati datetime64 in insensato codifica date e ore come numeri interi a 64 bit.

Memorizza date e ore in modo compatto e consente operazioni vettorizzate (operazioni ripetute applicate a ciascun elemento di un array numpy).

Come puoi vedere eseguendo il codice sopra, con a appuntamento O dateutil oggetto, le operazioni vettorizzate ti daranno un errore.

Panda può essere una buona scelta quando si lavora su un progetto di dati di serie temporali.

La famosa libreria per la discussione dei dati panda unisce la comodità di appuntamento E dateutil con l’effettiva possibilità di archiviazione e manipolazione di insensato.

Crea un dataframe panda (da CSV) analizzando una colonna di date

Ora abbiamo una conoscenza di base della gestione di date e orari in Python utilizzando insensato E panda. Tuttavia, spesso non creiamo noi stessi date e orari, ma fanno già parte del set di dati con cui abbiamo a che fare. Creiamo un panda frame di dati con una colonna di data (Set di dati Kaggle NFL).

Come puoi vedere, durante il caricamento da un CSV, la colonna che contiene una data viene trasformata in un formato stringa se non specificata con precisione da nessuna parte. Per ricevere il formato della data, puoi creare una colonna aggiuntiva chiamata “gameDate_dateformat” o passare direttamente la colonna della data tramite il parametro analizzare_date in pd.read_csv().

Un’altra pratica manipolazione quando si lavora con dati di serie temporali è quella di poter filtrare per data/ora o creare sottoinsiemi di un frame di dati utilizzando data/ora. Esistono due metodi per eseguire questa operazione: filtraggio/sottoinsiemi o indicizzazione.

Filtraggio dei frame di dati dei panda in base al tempo

Assicurati che la data soglia che utilizzi per il sottoinsieme abbia lo stesso formato della colonna!

Se la colonna in base alla quale vuoi filtrare ha il formato datetime (come nell’esempio), la data di confronto non può essere una data ma deve avere un formato datetime!

Indicizzazione dei frame di dati dei panda in base al tempo

Ancora più potente è l’indicizzazione a panda frame di dati per data o ora.

L’indicizzazione può essere particolarmente utile quando si lavora con le serie temporali, poiché esistono metodi come finestre mobili e time-shifting.

Spesso non siamo interessati alla data in sé ma forse alla durata, al giorno della settimana o semplicemente a una parte della data/ora, ad esempio l’anno. Per questo, appuntamento ma anche panda fornire alcune manipolazioni utili.

Da cronometrato

Con pandapuoi calcolare, ad esempio, la differenza tra due datetime. A questo scopo, esamineremo un diverso set di dati delle corse Uber (Set di dati Kaggle Uber) con un timestamp di inizio e di fine. È necessaria una certa preelaborazione (eliminare la riga totale) per iniziare a esaminare il timedelta.

Estrarre il giorno della settimana o il mese

Funziona in modo leggermente diverso per il singolo appuntamento contro il panda Serie. Mentre il giorno della settimana o il mese del singolo appuntamento è possibile accedere direttamente all’oggetto aggiungendo un attributo (ad esempio, .mese) o metodo (ad esempio, giorno feriale()), IL panda La serie ha sempre bisogno del .dt accessorio.

IL dt. accessorio consente di accedere ad attributi e metodi specifici della data e dell’ora da a appuntamento Serie.

Crea un intervallo di data/ora

Un’altra utile manipolazione per i dati delle serie temporali potrebbe essere l’aggiunta di una colonna aggiuntiva che aggiunga un ritardo di una data o di una data/ora.

Lavorare con oggetti data o ora in Python, conoscendo le basi del pacchetto integrato appuntamento (per esempio data() O strftime() E strptime()) sono utili. Informazioni sulla zona è un nuovo pacchetto integrato (dalla versione 3.9) che è più conveniente dei moduli di terze parti quando si lavora con fusi orari diversi. Dateutil è una libreria preziosa per manipolazioni più avanzate di data e ora quando si lavora con oggetti a data singola, ad esempio durante l’analisi di stringhe complesse. Quando si lavora con date e orari in frame di dati, serie o array, panda combina i vantaggi di appuntamento, dateutilE insensato e funge da comoda biblioteca.

SCOPRI LA NOSTRA GUIDA COMPLETA: COME CREARE UN’INTELLIGENZA ARTIFICIALE CON PYTHON