In che modo gli LLM democratizzeranno l'analisi esplorativa dei dati |  di Ken Kehoe |  Giugno 2024

 | Intelligenza-Artificiale

Oppure, quando senti che la tua vita è troppo dura, vai a parlare con Claude

Di soiasuwan123

Quando penso alle sfide legate alla comprensione dei sistemi complessi, spesso ripenso a qualcosa che è accaduto durante la mia permanenza presso Tripadvisor. Stavo aiutando il nostro team di Machine Learning a condurre un'analisi per il team di Growth Marketing per capire quali comportamenti dei clienti fossero predittivi di un LTV elevato. Abbiamo lavorato con un talentuoso Ph.D. Data Scientist che ha addestrato un modello di regressione logistica e stampato i coefficienti come primo passaggio.

Quando abbiamo esaminato l'analisi con il team Crescita, erano confusi: i coefficienti di regressione logistica sono difficili da interpretare perché la loro scala non è lineare e le caratteristiche che risultano essere più predittive non erano cose che il team Crescita potesse facilmente influenzare . Ci siamo tutti accarezzati il ​​mento per un minuto e abbiamo aperto un ticket per alcune analisi successive, ma come spesso accade, entrambe le squadre sono passate rapidamente alla loro brillante idea successiva. Il Data Scientist aveva del lavoro ad alta priorità da svolgere sul nostro algoritmo di classificazione delle ricerche e, per tutti gli scopi pratici, il team Growth ha gettato l'analisi nel mucchio della spazzatura.

Penso ancora a quell'esercizio: ci siamo arresi troppo presto? E se il circolo vizioso fosse stato più stretto? E se entrambe le parti avessero continuato a scavare? Cosa avrebbe rivelato il secondo o il terzo passaggio?

L'aneddoto sopra descrive un analisi esplorativa non è andata proprio bene. L’analisi esplorativa è distinta da analisi descrittivache mira semplicemente a descrivere ciò che sta accadendo. L’analisi esplorativa cerca di acquisire una maggiore comprensione di un sistema, piuttosto che di una domanda ben definita. Considera i seguenti tipi di domande che potresti incontrare in un contesto aziendale:

Notare come le domande esplorative sono a risposta aperta e mirano a migliorare la comprensione di uno spazio problematico complesso. L'analisi esplorativa spesso richiede più cicli e una collaborazione più stretta tra l'”esperto del dominio” e la persona che conduce effettivamente l'analisi, che raramente sono la stessa persona. Nell'aneddoto riportato sopra, la partnership non era abbastanza stretta, i cicli di feedback non erano abbastanza brevi e non abbiamo dedicato abbastanza cicli.

Queste sfide sono il motivo per cui molti esperti sostengono un approccio di “analisi abbinata” per l’esplorazione dei dati. Simile alla programmazione abbinata, analisi accoppiata riunisce un analista e un decisore per condurre un'esplorazione in tempo reale. Sfortunatamente, questo tipo di stretta collaborazione tra analista e decisore si verifica raramente nella pratica a causa dei limiti di risorse e di tempo.

Ora pensa all’organizzazione in cui lavori: e se ogni decisore avesse un analista esperto da affiancare? E se avessero la totale attenzione dell'analista e potessero tempestarlo di domande di follow-up a piacimento? E se quegli analisti fossero in grado di cambiare facilmente contesto, seguendo il flusso di coscienza del loro partner in una libera associazione di idee e ipotesi?

Questa è l'opportunità che i LLM presentano nello spazio di analisi: la promessa che chiunque può condurre analisi esplorative con il vantaggio di un analista tecnico al proprio fianco.

Diamo un'occhiata a come ciò potrebbe manifestarsi nella pratica. Il caso di studio e le demo seguenti illustrano come un decisore con esperienza nel settore potrebbe accoppiarsi efficacemente con un analista di intelligenza artificiale in grado di interrogare e visualizzare i dati. Confronteremo le esperienze di esplorazione dei dati del modello 4o di ChatGPT con un'analisi manuale utilizzando Tableau, che servirà anche come controllo degli errori contro potenziali allucinazioni.

Una nota sulla privacy dei dati: Le demo video collegate nella sezione seguente utilizzano set di dati puramente sintetici, intesi a imitare modelli aziendali realistici. Per consultare le note generali sulla privacy e sulla sicurezza per gli analisti AI, vedere Privacy dei dati.

Immagina questo: sei il dirigente impegnato di un sito web di abbigliamento e-commerce. Hai la dashboard Riepilogo esecutivo di KPI predefiniti di alto livello, ma una mattina dai un'occhiata e vedi qualcosa di preoccupante: le entrate del marketing mese su mese sono diminuite del 45% ma non è immediatamente chiaro il motivo.

La tua mente ti porta in diverse direzioni contemporaneamente: cosa contribuisce al calo delle entrate? È isolato da determinati canali? Il problema è limitato a determinati tipi di messaggi?

Ma soprattutto, cosa possiamo fare al riguardo? Cosa ha funzionato bene ultimamente? Cosa non funziona? Quali tendenze stagionali vediamo in questo periodo dell’anno? Come possiamo capitalizzare su questi?

Per rispondere a questo tipo di domande aperte, dovrai condurre un'analisi multivariata moderatamente complessa. Questo è l'esatto tipo di esercizio in cui un analista AI può aiutarti.

Cominciamo dando uno sguardo più da vicino a quel preoccupante calo delle entrate mese su mese.

Nel nostro esempio, stiamo osservando un'enorme diminuzione delle entrate complessive attribuite alle attività di marketing. Come analista, ci sono 2 linee di pensiero parallele per iniziare a diagnosticare la causa principale:

Suddividi le entrate complessive in più parametri di input:

  1. Invii totali di messaggi: abbiamo inviato meno messaggi?
  2. Tasso di apertura: le persone aprivano questi messaggi? Cioè, c'è stato un problema con gli oggetti del messaggio?
  3. Percentuale di clic: i destinatari avevano meno probabilità di fare clic su un messaggio? Cioè, si è verificato un problema con il contenuto del messaggio?
  4. Tasso di conversione: i destinatari erano meno propensi ad acquistare una volta fatto clic? Cioè, c'è stato un problema con l'esperienza di atterraggio?

Isolare queste tendenze attraverso diverse dimensioni categoriali

  1. Canali: questo problema è stato osservato su tutti i canali o solo su un sottoinsieme?
  2. Tipi di messaggi: questo problema è stato osservato in tutti i tipi di messaggi?

In questo caso, in poche richieste LLM è in grado di identificare una grande differenza nel tipo di messaggi inviati durante questi 2 periodi di tempo, vale a dire la vendita del 50% avvenuta a luglio e non ad agosto.

Quindi il calo ha più senso ora, ma non possiamo eseguire sconti del 50% ogni mese. Cos'altro possiamo fare per essere sicuri di sfruttare al meglio i nostri punti di contatto di marketing? Diamo un'occhiata alle nostre campagne con il rendimento migliore e vediamo se c'è qualcos'altro oltre alle promozioni di vendita che rientra nella top 10.

Gli strumenti di visualizzazione dei dati supportano un'interfaccia punta e clicca per creare visualizzazioni di dati. Oggi, strumenti come ChatGPT e Julius AI possono già replicare fedelmente un flusso di lavoro iterativo di visualizzazione dei dati.

Questi strumenti sfruttano le librerie Python per creare ed eseguire il rendering sia di visualizzazioni di dati statici, sia di grafici interattivi, direttamente all'interno dell'interfaccia utente della chat. La capacità di modificare e ripetere queste visualizzazioni attraverso il linguaggio naturale è abbastanza fluida. Con l'introduzione di moduli di codice, rendering di immagini ed elementi grafici interattivi, l'interfaccia della chat si avvicina al familiare formato “taccuino” reso popolare dai taccuini Jupyter.

Con poche istruzioni puoi spesso creare una visualizzazione dei dati con la stessa rapidità con cui se fossi un utente esperto di uno strumento di visualizzazione dei dati come Tableau. In questo caso, non c'era nemmeno bisogno di consultare la documentazione della guida per sapere come funziona Tableau Grafici a doppio asse lavori.

Qui possiamo vedere che i messaggi “Nuovi Arrivi” generano forti entrate per destinatario, anche con grandi volumi di invio:

Quindi i “Nuovi arrivi” sembrano avere risonanza, ma quali tipi di nuovi arrivi dovremmo assicurarci di rilasciare il mese prossimo? Stiamo andando verso settembre e vogliamo capire come cambiano i modelli di acquisto dei clienti durante questo periodo dell'anno. Quali categorie di prodotti prevediamo di aumentare? Diminuire?

Ancora una volta, in poche istruzioni abbiamo una visualizzazione dei dati chiara e accurata e non abbiamo nemmeno bisogno di capire come utilizzare i complicati strumenti di Tableau Calcoli rapidi della tabella caratteristica!

Ora che sappiamo quali categorie di prodotti probabilmente aumenteranno il prossimo mese, potremmo voler inserire alcuni dei nostri consigli sul cross-sell. Quindi, se l'abbigliamento sportivo da uomo vedrà l'aumento maggiore, come possiamo vedere quali altre categorie vengono più comunemente acquistate con tali articoli?

Questa è comunemente chiamata “analisi del paniere di mercato” e le trasformazioni dei dati necessarie per eseguirla sono un po’ complesse. In effetti, facendo a Analisi del paniere di mercato in Excel è effettivamente impossibile senza l'uso di componenti aggiuntivi goffi. Ma con gli LLM, tutto ciò che devi fare è fermarti un attimo e porre la tua domanda in modo chiaro:

“Salve GPT, per gli ordini che contenevano un articolo di abbigliamento sportivo da uomo, quali tipi di prodotti vengono acquistati più spesso dallo stesso cliente nello stesso carrello?”

Le demo sopra illustrano alcuni esempi di come gli LLM potrebbero supportare un migliore processo decisionale basato sui dati su larga scala. I principali attori hanno identificato questa opportunità e l'ecosistema si sta rapidamente evolvendo per incorporare i LLM nei flussi di lavoro di analisi. Considera quanto segue:

  • Quando OpenAI ha rilasciato la sua versione beta dell'”interprete di codice” l'anno scorso, ha rapidamente rinominato la funzionalità in “Analisi avanzata dei dati” per allinearsi al modo in cui i primi utilizzatori utilizzavano la funzionalità.
  • Con GPT4o, OpenAI ora supporta il rendering grafici interattiviinclusa la possibilità di modificare la codifica dei colori, visualizzare le descrizioni comandi al passaggio del mouse, ordinare/filtrare grafici, selezionare colonne del grafico e applicare calcoli.
  • Strumenti come Giulio.ai stanno emergendo per affrontare in modo specifico i casi d’uso chiave dell’analisi, fornendo accesso a più modelli ove appropriato. Julius fornisce l'accesso ai modelli sia di OpenAI che di Anthropic.
  • I fornitori stanno rendendo sempre più semplice la condivisione dei dati, espandendosi dai caricamenti di file statici ai connettori di Fogli Google e a opzioni API più avanzate.
  • Strumenti come Flusso vocale stanno emergendo per supportare lo sviluppo di app IA con particolare attenzione ai casi d'uso di recupero di generazione aumentata (RAG) (come l'analisi dei dati). Ciò rende sempre più semplice per gli sviluppatori di terze parti connettere set di dati personalizzati a una varietà di LLM tra i fornitori.

Con questo in mente, prendiamoci un momento e immaginiamo come l'analisi BI potrebbe evolversi nei prossimi 12-24 mesi. Ecco alcune previsioni:

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *