Immagine creata dall'autore utilizzando Dall-E 3

In che modo i principali LLM si comportano nel rilevare anomalie o movimenti nei dati quando viene fornito un ampio insieme di dati di serie temporali all'interno della finestra di contesto?

Sebbene gli LLM eccellano chiaramente nelle attività di elaborazione del linguaggio naturale, la loro capacità di analizzare modelli in dati non testuali, come i dati di serie temporali, rimane meno esplorata. Poiché sempre più team si affrettano a implementare soluzioni basate su LLM senza testare a fondo le proprie capacità nell'analisi dei modelli di base, il compito di valutare le prestazioni di questi modelli in questo contesto assume un'importanza elevata.

In questa ricerca, abbiamo deciso di indagare sulla seguente domanda: dato un ampio insieme di dati di serie temporali all'interno della finestra di contesto, con quanta precisione gli LLM possono rilevare anomalie o movimenti nei dati? In altre parole, dovresti affidare i tuoi soldi a un agente di selezione titoli OpenAI GPT-4 o Anthropic Claude 3? Per rispondere a questa domanda, abbiamo condotto una serie di esperimenti confrontando le prestazioni degli LLM nel rilevare modelli di serie temporali anomali.

Tutto il codice necessario per riprodurre questi risultati può essere trovato in questo Repositorio GitHub.

Figura 1: uno schizzo approssimativo dei dati delle serie temporali (immagine dell'autore)

Abbiamo incaricato GPT-4 e Claude 3 di analizzare i cambiamenti nei punti dati nel tempo. I dati che abbiamo utilizzato rappresentavano metriche specifiche per diverse città del mondo nel tempo e sono stati formattati in JSON prima di essere inseriti nei modelli. Abbiamo introdotto un rumore casuale, compreso tra il 20 e il 30% dell'intervallo di dati, per simulare scenari del mondo reale. Gli LLM avevano il compito di rilevare questi movimenti al di sopra di una determinata soglia percentuale e di identificare la città e la data in cui è stata rilevata l'anomalia. I dati sono stati inclusi in questo modello di prompt:

  basic template = ''' You are an AI assistant for a data scientist. You have been given a time series dataset to analyze.
The dataset contains a series of measurements taken at regular intervals over a period of time.
There is one timeseries for each city in the dataset. Your task is to identify anomalies in the data. The dataset is in the form of a JSON object, with the date as the key and the measurement as the value.

The dataset is as follows:
{timeseries_data}

Please use the following directions to analyze the data:
{directions}

...

Figura 2: il modello di prompt di base utilizzato nei nostri test

Analizzare i modelli in tutta la finestra di contesto, rilevare simultaneamente anomalie in un ampio insieme di serie temporali, sintetizzare i risultati e raggrupparli per data non è un compito semplice per un LLM; volevamo davvero spingere i limiti di questi modelli in questo test. Inoltre, i modelli dovevano eseguire calcoli matematici sulle serie temporali, un compito con cui i modelli linguistici generalmente hanno difficoltà.

Abbiamo anche valutato le prestazioni dei modelli in condizioni diverse, come l'estensione della durata dell'anomalia, l'aumento della percentuale dell'anomalia e la variazione del numero di eventi anomali all'interno del set di dati. Dovremmo notare che durante i nostri test iniziali, abbiamo riscontrato un problema per cui la sincronizzazione delle anomalie, facendole verificarsi tutte nella stessa data, consentiva agli LLM di funzionare meglio riconoscendo il modello basato sulla data anziché sullo spostamento dei dati. Quando si valutano gli LLM, un'attenta impostazione dei test è estremamente importante per evitare che i modelli rilevino modelli non desiderati che potrebbero distorcere i risultati.

Figura 3: Claude 3 supera significativamente GPT-4 nell'analisi delle serie temporali (immagine dell'autore)

Nei test, Claude 3 Opus ha sovraperformato significativamente GPT-4 nel rilevare anomalie delle serie temporali. Data la natura del test, è improbabile che questa valutazione specifica sia stata inclusa nel set di formazione di Claude 3, rendendo le sue ottime prestazioni ancora più impressionanti.

Risultati con picco del 50%.

La nostra prima serie di risultati si basa su dati in cui ogni anomalia rappresentava un picco del 50% nei dati.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *