Stima limitata della densità del kernel | di Thomas Rouch | Febbraio 2024 | Intelligenza-Artificiale

Indice contenuti

fotografato da Parker Coffmann SU Unsplash

Distribuzioni limitate

Ri dati della vita reale sono spesso delimitati da un determinato dominio. Ad esempio, attributi come età, peso o durata sono sempre valori non negativi. In tali scenari, un KDE standard uniforme potrebbe non riuscire a catturare accuratamente la vera forma della distribuzione, specialmente se c’è una discontinuità di densità al confine.

In 1D, con l’eccezione di alcuni casi esotici, le distribuzioni limitate hanno tipicamente domini limitati su un lato (ad esempio valori positivi) o su due lati (ad esempio intervallo uniforme).

Come illustrato nel grafico seguente, i kernel non sono in grado di stimare i bordi della distribuzione uniforme e fuoriescono dal dominio delimitato.

KDE gaussiano su 100 campioni estratti da una distribuzione uniforme — Immagine dell’autore

Nessuna soluzione pubblica pulita in Python

USfortunatamente, le librerie Python pubbliche più popolari come scipy E scikit-learn al momento non affrontano questo problema. Esistono problemi su GitHub e richieste pull che trattano questo argomento, ma purtroppo sono rimasti irrisolti per un bel po’ di tempo.

Nella R, kde.boundary consente la stima della densità del kernel per dati limitati.

Esistono vari modi per tenere conto della natura limitata della distribuzione. Descriviamo quelli più popolari: Riflessione, Ponderazione e Trasformazione.

Avvertimento:
Per motivi di leggibilità, ci concentreremo sul dominio limitato da unità, vale a dire (0,1). Ricordarsi di standardizzare i dati e ridimensionare la densità in modo appropriato nel caso generale (a,b).

Soluzione: riflessione

TIl trucco consiste nell’aumentare l’insieme dei campioni riflettendoli oltre i confini sinistro e destro. Ciò equivale a riflettere le code dei kernel locali per mantenerli nel dominio delimitato. Funziona meglio quando la derivata della densità è zero al confine.

La tecnica della riflessione implica anche l’elaborazione di un numero di punti campione tre volte superiore.

I grafici seguenti illustrano il trucco della riflessione per tre distribuzioni standard: uniforme, triangolo rettangolo e radice quadrata inversa. Fa un ottimo lavoro nel ridurre la distorsione ai confini, anche per la singolarità della distribuzione della radice quadrata inversa.