Automatizzazione del riconoscimento delle entità chimiche: creazione del modello ChemNER | di Victor Murcia | Novembre 2023 | Intelligenza-Artificiale

Ho sempre avuto un forte interesse per la chimica e ha avuto un ruolo significativo nel plasmare il mio percorso accademico e professionale. In qualità di professionista dei dati con un background in chimica, ho trovato molti modi per applicare le mie capacità scientifiche e di ricerca come creatività, curiosità, pazienza, acuta osservazione e analisi a progetti di dati. In questo articolo ti guiderò attraverso lo sviluppo di un semplice modello di riconoscimento delle entità nominate (NER) che ho soprannominato ChemNER. Questo modello può identificare i composti chimici all’interno del testo e classificarli in categorie come alcani, alcheni, alchini, alcoli, aldeidi, chetoni o acidi carbossilici.

TL;DR

Se vuoi semplicemente giocare con il modello ChemNER e/o utilizzare l’app Streamlit che ho creato, puoi accedervi tramite i collegamenti seguenti:

Collegamento a HuggingFace: https://huggingface.co/victormurcia/en_chemner

App ottimizzata: Collegamento ChemNER

Gli approcci NER possono essere generalmente classificati in una delle seguenti 3 categorie:

Basato sul lessico: definisce un dizionario di classi e termini
Basato su regole: definisce le regole i termini che corrispondono a ciascuna classe
Basato su Machine Learning (ML): lascia che il modello impari le regole di denominazione da un corpus di formazione

Ognuno di questi approcci ha i suoi punti di forza e i suoi limiti e, come sempre, un modello più complicato e sofisticato non è sempre l’approccio migliore.

In questo caso, l’approccio basato sul lessico sarebbe limitante in termini di portata poiché per ogni classe di composti che siamo interessati a classificare dovremmo definire manualmente TUTTI i composti che rientrano in quella categoria. In altre parole, affinché questo approccio sia onnicomprensivo, è necessario inserire manualmente ogni composto chimico per ogni classe di composto.

L’approccio ML potrebbe essere il modo più potente da percorrere, tuttavia, annotare un set di dati può essere piuttosto laborioso (avviso spoiler: finirò per addestrare un modello ma voglio mostrare l’intero processo per scopi didattici). Che ne dici invece di iniziare con alcune regole di denominazione predefinite?

Fonte: towardsdatascience.com