Creazione di una ricerca di libri semantica: scala una pipeline di incorporamento con Apache Spark e AWS EMR Serverless | di Eva Revear | Gennaio 2024 | Intelligenza-Artificiale

Indice contenuti

Utilizzo del modello Clip di OpenAI per supportare la ricerca in linguaggio naturale su una raccolta di 70.000 copertine di libri

In un messaggio precedente Ho fatto un piccolo PoC per vedere se potevo usare il modello Clip di OpenAI per creare una ricerca semantica di libri. Ha funzionato sorprendentemente bene, secondo me, ma non ho potuto fare a meno di chiedermi se sarebbe stato meglio con più dati. La versione precedente utilizzava solo circa 3,5mila libri, ma nella versione ce ne sono milioni Set di dati OpenLibrarye ho pensato che valesse la pena provare ad aggiungere più opzioni allo spazio di ricerca.

Tuttavia, il set di dati completo è di circa 40 GB e provare a gestire così tanti dati sul mio piccolo laptop, o anche su un notebook Colab, era un po’ eccessivo, quindi ho dovuto trovare una pipeline in grado di gestire il filtraggio e l’incorporamento di un set di dati più grande .

TLDR; Ha migliorato la ricerca? Penso di sì! Abbiamo moltiplicato i dati per 15 volte, il che dà alla ricerca molto più su cui lavorare. Non è perfetto, ma ho pensato che i risultati fossero abbastanza interessanti; anche se non ho effettuato una misura di precisione formale.

Questo è stato un esempio che non sono riuscito a mettere al lavoro, non importa come l’ho espresso nell’ultima iterazione, ma funziona abbastanza bene nella versione con più dati.

Se sei curioso puoi provarlo al!

Nel complesso, è stato un viaggio tecnico interessante, con molti ostacoli e opportunità di apprendimento lungo il percorso. Lo stack tecnologico include ancora il modello OpenAI Clip, ma questa volta utilizzo Apache Spark e AWS EMR per eseguire la pipeline di incorporamento.

Ci è sembrata una buona opportunità per utilizzare Spark, poiché ci consente di parallelizzare il calcolo dell’incorporamento.

Ho deciso di eseguire la pipeline in EMR Serverless, un’offerta AWS abbastanza nuova che fornisce un ambiente serverless per EMR e gestisce automaticamente il ridimensionamento delle risorse. Ho pensato che avrebbe funzionato bene per questo caso d’uso, invece di avviare un EMR su un cluster EC2, perché si tratta di un progetto abbastanza ad hoc, sono paranoico sui costi del cluster e inizialmente non ero sicuro di quali risorse il lavoro richiederebbe. EMR Serverless semplifica la sperimentazione dei parametri del lavoro.

Di seguito è riportato l’intero processo che ho seguito per rendere tutto attivo e funzionante. Immagino che ci siano modi migliori per gestire determinati passaggi, questo è proprio quello che ha funzionato per me, quindi se hai pensieri o opinioni, per favore condividili!

Creazione di un processo di incorporamento della pipeline con Spark

Il passaggio iniziale è stato scrivere i processi Spark. L’intera pipeline è suddivisa in due fasi, la prima accoglie il set di dati iniziale e filtra la narrativa recente (negli ultimi 10 anni). Ciò ha prodotto circa 250.000 libri e circa 70.000 con immagini di copertina disponibili per il download e l’incorporamento nella seconda fase.

Per prima cosa estraiamo le colonne rilevanti dal file di dati grezzi.