Approssimazione della matrice nei flussi di dati | di Mina Ghashami | Settembre 2023 | Intelligenza-Artificiale

Approssimare una matrice senza avere tutte le sue righe

L’approssimazione della matrice è un sottocampo ampiamente studiato nel data mining e nell’apprendimento automatico. Un ampio insieme di attività di analisi dei dati si basa sull’ottenimento di a approssimazione di basso rango di matrici. Esempi sono la riduzione della dimensionalità, il rilevamento di anomalie, il de-noising dei dati, il clustering e i sistemi di raccomandazione. In questo articolo esamineremo il problema dell’approssimazione della matrice e come calcolarla quando tutti i dati non sono disponibili a portata di mano!

Il contenuto di questo articolo è in parte tratto dal mio conferenza A Corso Stanford-CS246. Spero che lo troverai utile. Si prega di trovare il contenuto completo Qui.

La maggior parte dei dati generati sul web possono essere rappresentati come una matrice, dove ogni riga della matrice è un punto dati. Ad esempio, nei router ogni pacchetto inviato attraverso la rete è un punto dati che può essere rappresentato come una riga in una matrice di tutti i punti dati. Nella vendita al dettaglio, ogni acquisto effettuato è una riga nella matrice di tutte le transazioni.

Figura 1: Dati come matrice — Immagine dell’autore

Allo stesso tempo, quasi tutti i dati generati sul web sono di tipo a natura in streaming; ciò significa che i dati vengono generati da una fonte esterna a una velocità rapida sulla quale non abbiamo alcun controllo. Pensa a tutte le ricerche che gli utenti effettuano sul motore di ricerca Google in un secondo. Chiamiamo questi dati il dati in streaming; perché proprio come un ruscello si riversa dentro.

Alcuni esempi di tipici flussi di dati su scala web sono i seguenti:

Figura 2: dimensioni dei tipici dati in streaming su scala web: immagine dell’autore

Pensa allo streaming dei dati come a una matrice UN contenente N righe dentro D-spazio dimensionale, dove tipicamente n >> d. Spesso N è dell’ordine di miliardi ed è in aumento.

Nel modello di streaming, i dati arrivano ad alta velocità, una riga alla volta, e gli algoritmi devono elaborare gli elementi velocemente, altrimenti verranno persi per sempre.

Fonte: towardsdatascience.com