
Clustering: un modo semplice per raggruppare righe simili e impedire l’elaborazione non necessaria dei dati
Nel mio articolo precedente, ho spiegato come ottimizzare le query SQL utilizzando il partizionamento:
Ora sto scrivendo il Continuazione! (Papà scherza, qualcuno?)
Questo articolo esaminerà raggruppamento: un’altra potente tecnica di ottimizzazione che puoi utilizzare in BigQuery. Come il partizionamento, il clustering può aiutarti a scrivere query più performanti che sono più veloci ed economiche da eseguire. Se desideri sviluppare il tuo toolkit SQL e acquisire competenze di data science di livello superiore, questo è un ottimo punto di partenza.
In BigQuery, una tabella in cluster è una tabella che mantiene righe simili raggruppate insieme in “blocchi” fisici.
Ad esempio, immagina una tabella chiamata user_signups
che tiene traccia di tutte le persone che registrano un account su un sito fittizio. Ha quattro colonne:
registration_date
: la data in cui l’utente ha creato un accountcountry
: il paese in cui ha sede l’utentetier
: il piano dell’utente (“Gratuito” o “A pagamento”)username
: il nome utente dell’utente
Se volessimo, potremmo raggruppare la tabella per country
in modo che gli utenti dello stesso Paese vengano memorizzati uno accanto all’altro nella tabella:
Fonte: towardsdatascience.com