Denidificazione dei dati di Google Analytics in BigQuery |  di Martin Weitzmann |  Marzo 2024

 | Intelligenza-Artificiale

Il modo corretto di appiattire i tavoli

Foto di Singapore di Mike Enerio SU Unsplash

BigQuery è un motore di analisi ottimizzato per elaborare dati pre-uniti (o nidificati). Le sottorelazioni hanno senso negli scenari analitici perché non vogliamo gestire join su set di dati più grandi (immagina solo confronti giornalieri anno su anno negli ultimi 3 anni, aggregando terabyte di dati), ma con join che aggiungono un altro livello di complessità .

Una sottorelazione, o sottotabella, viene solitamente implementata come un array di strutture. L'array come tipo di dati simile a un elenco fornisce righe, la struttura, simile a una mappa o un dizionario, fornisce colonne. Lo schema secondario è coerente in tutta la tabella, a differenza dei tipi JSON che possono modificare il proprio schema da riga a riga.

Sembra essere l'unico altro motore che segue questa strada di dati nidificati Spettro AWS Redshift. Tuttavia, se vogliamo utilizzare i dati di Google Analytics (GA) in un altro sistema, quasi sempre vorremmo separare i dati per avere tabelle piatte, perché le capacità di aggregare o modificare matrici di strutture sono piuttosto limitate. La maggior parte dei motori di database analitici sembra ottimizzare per…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *