Metodi BigQuery per ricreare le principali funzioni EDA dei panda |  di Tom Ellyatt |  Febbraio 2024

 | Intelligenza-Artificiale

In questa guida esploreremo come ricreare le funzioni chiave di Panda utilizzate per EDA come descrizione e correzione in BigQuery

Immagine creata utilizzando DALL-E

La transizione da BigQuery/SQL a Python può aprire gli occhi, soprattutto nel contesto dell’analisi dei dati. Mi ritrovo spesso a scrivere query estese per manipolare e analizzare i dati in BigQuery SQL. È un linguaggio potente, ma può diventare piuttosto pesante.

Ora, quando sono passato a Python, sono rimasto sorpreso da quanto fossero snelle alcune attività. Le librerie di Python, come quelle di Panda, ti consentono di eseguire manipolazioni e analisi dei dati che sarebbero complicate in SQL.

Ho trovato alcune funzioni di Panda come DESCRIVERE, CORRE ISNULL().SOMMA() super utile e avrei voluto che fossero in BigQuery. Questo mi ha portato a esplorare altre interessanti funzioni EDA nei panda e mi ha ispirato a scrivere questo articolo. Qui condivido i metodi e il codice che ho creato in BigQuery per abbinare alcune delle migliori funzioni EDA di Panda.

Restiamo bloccati!

In questo articolo, daremo un’occhiata a queste 13 funzioni:

  1. Testa/Coda
  2. Colonne
  3. Tipi D
  4. Nunique
  5. Unico
  6. ISNA/ISNULL()
  7. ISNULL().SOMMA()
  8. Lascia cadere NA
  9. Forma
  10. Corr
  11. Il più grande
  12. Campione
  13. Descrivere

In questo articolo giocheremo con il popolare set di dati mtcars. Il set di dati mtcars è un set di dati integrato disponibile al pubblico in R. Comprende 11 caratteristiche di 32 automobili della rivista Motor Trend US del 1974.

La mia immagine, screenshot presa da R Studio
Sorgente icona Panda — Flaticon (collegamento)

Quando guardi per la prima volta un set di dati, considera “Testa” e “Coda” come le pagine anteriore e posteriore…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *