SquirrelML: previsione dell’avvicinamento dello scoiattolo al Central Park di New York |  di Victor Murcia |  Dicembre 2023

 | Intelligenza-Artificiale

Esplora il comportamento degli scoiattoli nel Central Park di New York tramite ML: raggruppamento di avvistamenti e previsione degli incontri con approfondimenti interattivi

fotografato da Cioè Holowaychuk SU Unsplash

NYCOpenData ha un tesoro di set di dati interessanti e ricchi da esplorare relativi ad argomenti riguardanti salute, ambiente, affari e istruzione. Mi sono imbattuto nel Censimento degli scoiattoli di Central Park 2018 set di dati e ho capito subito che dovevo farci qualcosa. Questo set di dati riguarda gli avvistamenti di scoiattoli raccolti nel corso di due settimane da volontari a Central Park. Dopo aver esaminato il dizionario dei dati, sono stato attratto da una funzione denominata “Approcci” che indica se è stato osservato uno scoiattolo avvicinarsi a un essere umano. Ho pensato che sarebbe stato utile addestrare un modello di machine learning (ML) per aiutarmi a determinare se uno scoiattolo situato entro i confini di Central Park si sarebbe avvicinato a me. Questo articolo esaminerà questo progetto del fine settimana in cui descriverò in dettaglio l’intero processo verso la costruzione di quel modello. C’è un po’ di tutto in questo progetto: c’è lavoro con dati geospaziali, clustering, visualizzazione, ingegneria delle funzionalità, testo non strutturato, training del modello, calibrazione del modello e distribuzione del modello.

Ho distribuito il modello in un’app semplificata in cui puoi inserire le tue coordinate e altre funzionalità che ti diranno la probabilità che uno scoiattolo si avvicini a te. Puoi giocarci Qui. Inoltre, se sei interessato a esaminare parte del codice, ho pubblicato il file .ipynb Qui.

Il caricamento dei dati era piuttosto standard.

ini_squirrel_df = pd.read_csv('/content/drive/MyDrive/SquirrelML/NYC_Squirrels.csv')

Per eseguire l’EDA iniziale ho utilizzato dataprep per avere rapidamente un’idea iniziale di quali tipi di distribuzioni di caratteristiche, cardinalità, modelli, dati mancanti e correlazioni sono presenti nel set di dati grezzi. Puoi vedere il rapporto Qui. Da questo ho ottenuto diverse informazioni utili che mi hanno consentito di pianificare la successiva progettazione delle funzionalità e di rimuovere funzionalità ridondanti/non necessarie. Alcune delle osservazioni più importanti che ho raccolto da questa EDA sono state le seguenti:

  • Il set di dati è composto da…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *