Il team di data science di P&F si trova ad affrontare una sfida: deve valutare equamente ogni opinione di esperti, ma non può soddisfare tutti. Invece di concentrarsi sulle opinioni soggettive degli esperti, decidono di valutare il chatbot sulle domande storiche dei clienti. Ora gli esperti non hanno più bisogno di porre domande per testare il chatbot, avvicinando la valutazione alle condizioni del mondo reale. Dopotutto, il motivo iniziale per coinvolgere gli esperti era la loro migliore comprensione delle domande reali dei clienti rispetto al team di data science di P&F.

Si scopre che le domande più frequenti per P&F sono correlate alle istruzioni tecniche delle graffette. I clienti P&F desiderano conoscere le specifiche tecniche dettagliate delle graffette. P&F dispone di migliaia di tipi diversi di graffette e l'assistenza clienti impiega molto tempo per rispondere alle domande.

Comprendendo lo sviluppo basato sui test, il team di data science crea un set di dati dalla cronologia delle conversazioni, incluso il file domanda del cliente E risposta dell'assistenza clienti:

Set di dati raccolto dal canale Discord di Paperclips & Friends.

Disponendo di un set di dati di domande e risposte, P&F può testare e valutare retrospettivamente le prestazioni del chatbot. Creano una nuova colonna, “Risposta chatbot”, e memorizzano le risposte di esempio del chatbot alle domande.

Set di dati aumentato con la risposta proposta dal chatbot.

Possiamo chiedere agli esperti e a GPT-4 di valutare la qualità delle risposte del chatbot. L'obiettivo finale è automatizzare la valutazione dell'accuratezza del chatbot utilizzando GPT-4. Questo è possibile Se esperti e GPT-4 valutano le risposte in modo simile.

Gli esperti creano un nuovo foglio Excel con la valutazione di ciascun esperto e il team di data science aggiunge la valutazione GPT-4.

Set di dati aumentato con valutazioni di esperti e GPT-4.

Ci sono conflitti su come diversi esperti valutano IL lo stesso chatbot risponde. GPT-4 valuta in modo simile al voto a maggioranza degli esperti, il che indica che potremmo eseguire valutazioni automatiche con GPT-4. Tuttavia, l'opinione di ciascun esperto è preziosa ed è importante affrontare le preferenze di valutazione contrastanti tra gli esperti.

P&F organizza un workshop con gli esperti per creare norma d'oro risposte al set di dati delle domande storiche

Il set di dati standard d'oro per la valutazione.

E valutazione linee guida sulle migliori pratichesu cui tutti gli esperti concordano.

Valutazione delle “linee guida sulle migliori pratiche” per il chatbot definite dagli specialisti dell'assistenza clienti.

Con gli approfondimenti del workshop, il team di data science può creare una richiesta di valutazione più dettagliata per GPT-4 che copra i casi limite (ad esempio “il chatbot non dovrebbe chiedere di aumentare i ticket di supporto”). Ora il gli esperti possono utilizzare il tempo per migliorare la documentazione della graffetta E definire le migliori pratiche, invece di laboriose valutazioni di chatbot.

Misurando la percentuale di risposte corrette del chatbot, P&F può decidere se desidera implementare il chatbot nel canale di supporto. Approvano l'accuratezza e distribuiscono il chatbot.

Infine, è il momento di salvare tutte le risposte del chatbot e calcolare le prestazioni del chatbot nel risolvere le richieste dei clienti reali. Poiché il cliente può rispondere direttamente al chatbot, è anche importante registrare la risposta del cliente, per comprendere il sentimento del cliente.

Lo stesso flusso di lavoro di valutazione può essere utilizzato per misurare fattivamente il successo del chatbot, senza fornire risposte basate sulla verità. Ma ora i clienti ricevono la risposta iniziale da un chatbot e non sappiamo se piace ai clienti. Dovremmo indagare su come i clienti reagiscono alle risposte del chatbot. Siamo in grado di rilevare automaticamente il sentiment negativo dalle risposte del cliente e assegnare agli specialisti dell'assistenza clienti il ​​compito di gestire i clienti arrabbiati.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *