Metodi BigQuery per ricreare le principali funzioni EDA dei panda | di Tom Ellyatt | Febbraio 2024 | Intelligenza-Artificiale

Indice contenuti

In questa guida esploreremo come ricreare le funzioni chiave di Panda utilizzate per EDA come descrizione e correzione in BigQuery

La transizione da BigQuery/SQL a Python può aprire gli occhi, soprattutto nel contesto dell’analisi dei dati. Mi ritrovo spesso a scrivere query estese per manipolare e analizzare i dati in BigQuery SQL. È un linguaggio potente, ma può diventare piuttosto pesante.

Ora, quando sono passato a Python, sono rimasto sorpreso da quanto fossero snelle alcune attività. Le librerie di Python, come quelle di Panda, ti consentono di eseguire manipolazioni e analisi dei dati che sarebbero complicate in SQL.

Ho trovato alcune funzioni di Panda come DESCRIVERE, CORRE ISNULL().SOMMA() super utile e avrei voluto che fossero in BigQuery. Questo mi ha portato a esplorare altre interessanti funzioni EDA nei panda e mi ha ispirato a scrivere questo articolo. Qui condivido i metodi e il codice che ho creato in BigQuery per abbinare alcune delle migliori funzioni EDA di Panda.

Restiamo bloccati!

In questo articolo, daremo un’occhiata a queste 13 funzioni:

Testa/Coda
Colonne
Tipi D
Nunique
Unico
ISNA/ISNULL()
ISNULL().SOMMA()
Lascia cadere NA
Forma
Corr
Il più grande
Campione
Descrivere

In questo articolo giocheremo con il popolare set di dati mtcars. Il set di dati mtcars è un set di dati integrato disponibile al pubblico in R. Comprende 11 caratteristiche di 32 automobili della rivista Motor Trend US del 1974.