Aggiungi una riga di SQL per ottimizzare le tue tabelle BigQuery | di Matt Chapman | Dicembre 2023 | Intelligenza-Artificiale

Clustering: un modo semplice per raggruppare righe simili e impedire l’elaborazione non necessaria dei dati

Nel mio articolo precedente, ho spiegato come ottimizzare le query SQL utilizzando il partizionamento:

Ora sto scrivendo il Continuazione! (Papà scherza, qualcuno?)

Questo articolo esaminerà raggruppamento: un’altra potente tecnica di ottimizzazione che puoi utilizzare in BigQuery. Come il partizionamento, il clustering può aiutarti a scrivere query più performanti che sono più veloci ed economiche da eseguire. Se desideri sviluppare il tuo toolkit SQL e acquisire competenze di data science di livello superiore, questo è un ottimo punto di partenza.

In BigQuery, una tabella in cluster è una tabella che mantiene righe simili raggruppate insieme in “blocchi” fisici.

Ad esempio, immagina una tabella chiamata user_signups che tiene traccia di tutte le persone che registrano un account su un sito fittizio. Ha quattro colonne:

registration_date: la data in cui l’utente ha creato un account
country: il paese in cui ha sede l’utente
tier: il piano dell’utente (“Gratuito” o “A pagamento”)
username: il nome utente dell’utente

Se volessimo, potremmo raggruppare la tabella per country in modo che gli utenti dello stesso Paese vengano memorizzati uno accanto all’altro nella tabella:

Fonte: towardsdatascience.com