Comprendere l'allocazione Dirichlet latente (LDA): una guida per data scientist (parte 1) | di Louis Chan | Febbraio 2024 | Intelligenza-Artificiale

Indice contenuti

LDA spiegata con un modello di pedigree del cane

Gli algoritmi di apprendimento automatico sono ora così accessibili che anche mia moglie non tecnica chiede costantemente: “Non è di questo che è capace ChatGPT?”

È giunto il momento che i data scientist rimangano vigili sui perché e sui come dietro gli algoritmi di apprendimento automatico.

Questo post del blog in due parti è un vero e proprio viaggio in cui ho tentato di spiegare a mia moglie come funziona la Latent Dirichlet Allocation (LDA, un punto fermo nell’arsenale di tutti i data scientist per la modellazione degli argomenti, le raccomandazioni e altro) con l’aiuto del pedigree di un cane modello. Entro la fine della serie, dovresti essere in grado di rispondere a quanto segue:

Parte 1:

Come funziona l’LDA?
Come spiegare LDA a una persona non tecnica?

Parte 2:

Come converge l’LDA?
Quando utilizzare LDA e quando no?
Quali sono le alternative e varianti alle LDA (esclusi i LLM)?

Iniziamo.

Immagina di avere il miglior lavoro del mondo:

Stimare il mix di pedigree di un gruppo di adorabili foto di cani

Abbastanza facile!

Zampe corte = Corgi o Bassotto;

Corpo lungo = Bassotto;

Faccia di muffin con gocce di cioccolato = Chihuahua.

Ma ogni cane ha una miscela unica di tratti. Un cane potrebbe avere le gambe corte di un Corgi ma la faccia di un Chihuahua. Non stiamo solo identificando le razze ma modellando un mosaico di tratti in gruppi di razze.

Numero di argomenti e corpus

Anche se non classifichiamo le foto dei cani in base alla loro razza, è utile considerare i tratti fisici che possiamo osservare da tutte le immagini e approssimativamente come…

Fonte: towardsdatascience.com