I grandi modelli incontrano i big data: Spark e LLM in armonia | di Naser Tamimi | Dicembre 2023 | Intelligenza-Artificiale

Indice contenuti

INGEGNERIA DEI DATI E AI GENERATIVA

Una guida passo passo per utilizzare Apache Spark e modelli linguistici di grandi dimensioni

L’intelligenza artificiale generativa, compresi i Large Language Models (LLM), sta rivoluzionando diversi aspetti della vita umana. Negli ultimi cinque anni, l’intelligenza artificiale generativa si è evoluta da un progetto di ricerca a un’applicazione nella vita reale per molte persone. Come ingegnere dei dati interessato all’intelligenza artificiale generativa, mi sono sempre chiesto: cosa apporta questa tecnologia al mio lavoro e alle applicazioni di ingegneria dei dati? Esistono alcune applicazioni comuni di Gen AI e LLM per ingegneri come la codifica pilota, l’assistenza nella documentazione e così via. Ma qui sto valutando alcuni degli usi più specializzati della Gen AI e degli LLM per l’ingegneria dei dati. Se sei interessato a questo argomento, leggi questo articolo e seguimi medio E Linkedin per ottenere più articoli su altri casi d’uso.

Non è una novità che gli ingegneri dei dati adorino i dati strutturati e astratti. Ma il mondo è pieno di dati non strutturati e disorganizzati che richiedono l’attenzione degli ingegneri dei dati. Le trasformazioni su dati non strutturati sono sempre complicate e talvolta impossibili con gli strumenti tradizionali. Storicamente, uno di questi dati non strutturati complessi era il testo (ad esempio commenti, recensioni, conversazioni). Le trasformazioni semplici sui testi non erano un grosso problema, ma trasformazioni complicate possono estrarre più informazioni dai testi e possiamo creare set di dati più ricchi.

Esempi di trasformazioni di testo complesse potrebbero essere l’estrazione di nomi e oggetti da un testo, l’analisi del sentiment su una recensione o un commento, il mascheramento di informazioni importanti (ad esempio dati privati, dati dell’utente) nei testi memorizzati, la traduzione da una lingua a una lingua standard, testi riepilogo e così via. La buona notizia è che oggigiorno i LLM possono fare tutti i tipi di queste trasformazioni. Pertanto, credo che una delle centinaia di applicazioni LLM nell’ingegneria dei dati sia quella di fungere da funzioni di trasformazione per dati complicati come i testi.

In questo articolo mostrerò questa capacità dei LLM tramite Apache Spark, un potente sistema di elaborazione dati distribuito. Più specificamente, utilizzerò un piccolo LLM…

Fonte: towardsdatascience.com