Prevedere gli stipendi NBA con il machine learning | Gabriele Pastorello | Intelligenza-Artificiale

Prima di addentrarsi nel problema, è fondamentale comprendere i fondamenti del sistema salariale della Lega. Quando un giocatore è disponibile sul mercato per firmare un contratto con qualsiasi squadra viene chiamato a agente libero (FA), termine che sarà molto utilizzato in questo progetto.

L’NBA opera secondo un complesso insieme di regole e regolamenti che mirano a mantenere l’equilibrio competitivo tra le squadre. Due concetti chiave sono al centro di questo sistema: il tetto salariale e il tassa sul lusso.

IL tetto salariale funge da limite di spesa, limitando quanto una squadra può spendere per gli stipendi dei giocatori in una determinata stagione. Il limite è determinato dalle entrate della lega e viene aggiornato ogni anno per garantire che le squadre operino entro un quadro finanziario ragionevole. Intende inoltre impedire ai team dei grandi mercati di spendere in modo significativo rispetto alle controparti dei mercati più piccoli, promuovendo la parità tra i franchising.

La distribuzione del tetto salariale tra i giocatori può variare, con stipendi massimi per i giocatori di alto livello e stipendi minimi per principianti e veterani.

Tuttavia, il superamento del tetto salariale non è rarosoprattutto per le squadre che mirano a costruire roster in grado di contendere il campionato. Quando una squadra supera il tetto salariale, entra nel regno del tassa sul lusso. La tassa sul lusso impone una penalità alle squadre che spendono al di sopra di una certa soglia, scoraggiando le squadre da spese eccessive e fornendo allo stesso tempo entrate aggiuntive per la lega.

Ci sono molte altre regole che fungono da eccezioni, come la eccezione di medio livello (MLE) E eccezione commerciale ciò consente alle squadre di effettuare mosse strategiche nel roster, ma per questo progetto è sufficiente la conoscenza del tetto salariale e della tassa sul lusso.

Evoluzione del tetto salariale NBA dal 1984 al 2023 (Immagine dell’autore)

A causa di questa continua crescita del tetto salariale, l’approccio selezionato utilizzerà il come obiettivo la percentuale del tetto invece dell’importo salariale stesso. Questa decisione mira a incorporare la natura evolutiva del limite, garantendo che il risultato non sia influenzato da spostamenti temporali e rimanga applicabile anche quando si valutano le stagioni storiche. Tuttavia, va notato che questo non è perfetto e solo un’approssimazione.

Per questo progetto, l’obiettivo è quello prevedere gli stipendi dei giocatori che firmeranno un nuovo contratto la prossima stagione utilizzando i dati solo dalla stagione precedente.

Le singole statistiche utilizzate sono state:

Media statistiche per partita
Totale statistiche
Avanzate statistiche
Variabili individuali: età, posizione
Variabili legate allo stipendio: stipendio della stagione precedente, tetto massimo per la stagione precedente e quella in corso e percentuale del tetto massimo di tale stipendio.

Distribuzione salariale per la stagione 2022-23 (Immagine dell’autore)

Poiché non conosciamo la squadra che firmerà il giocatore, sono state incluse solo le funzionalità individuali.

In totale, questo studio ha avuto 78 caratteristiche per ogni giocatore più il bersaglio.

Per lo più tutti i dati sono stati ottenuti utilizzando BRScraperun recente Pacchetto Python creato da me che consente lo scraping e un facile accesso ai dati del basket da Riferimento al basketinclusi NBA, G League e altri campionati internazionali. Sono state seguite tutte le linee guida relative al danneggiamento del sito Web o all’impedimento delle sue prestazioni.

Un aspetto interessante da considerare è il selezione dei giocatori per la formazione dei modelli. Inizialmente ho selezionato tutti i giocatori disponibili, ma la maggior parte di loro sarebbe già sotto contratto, e in questo caso il valore dello stipendio non cambia drasticamente.

Ad esempio, immagina se un giocatore firma per 20 milioni di dollari per 4 anni. Riceve circa 5 milioni di dollari all’anno (molto raramente tutti gli anni hanno lo stesso identico valore, di solito c’è una certa progressione nello stipendio intorno ai 5 milioni di dollari). Tuttavia, quando un agente libero firma un nuovo contratto, il valore può cambiare in modo molto più drastico.

Ciò significa che la formazione un modello con tutti i giocatori disponibili può comportare prestazioni migliori complessivamente (dopo tutto, la maggior parte dei giocatori avrebbe uno stipendio molto vicino all’ultimo!), ma in fase di valutazione solo agenti liberi, la prestazione sarebbe notevolmente peggiore.

Poiché l’obiettivo è prevedere lo stipendio di a giocatore che firma un nuovo contrattonei dati dovrebbe essere presente solo questo tipo di giocatore, in modo che il modello possa comprendere meglio quali sono gli schemi tra questi giocatori.

La stagione di interesse è la stagione 2023-24 che sta arrivando, ma i dati da Dal 2020 al 2021 in poi verrà utilizzato per aumentare il numero di campioni, cosa possibile grazie alla scelta del target. Le stagioni più vecchie non sono state utilizzate a causa della mancanza di dati delle FA.

Questo se ne va 426 giocatori nelle tre stagioni selezionate, 84 sono FA dal 2023 al 24.

La suddivisione del train-test è stata progettata in modo tale che tutti gli agenti liberi dal 2023 al 2024 fossero inclusi esclusivamente nel set di test, mantenendo una suddivisione di circa 70/30.

Inizialmente sono stati utilizzati diversi modelli di regressione:

Supporta macchine vettoriali (SVM)
Rete elastica
Foresta casuale
AdaBoost
Potenziamento del gradiente
Macchina per l’aumento del gradiente di luce (LGBM)

La prestazione di ciascuno di essi è stata valutata utilizzando la radice quadrata dell’errore medio (RMSE) e il coefficiente di determinazione (R²).

Puoi trovare la formula e la spiegazione di ciascuna metrica nel mio articolo precedente, Prevedere l’MVP dell’NBA con il Machine Learning.

Considerando l’intero dataset con tutte le stagioni, si sono ottenuti i seguenti risultati:

Valori RMSE e R² ottenuti tra i diversi modelli (Immagine dell’Autore)

I modelli hanno avuto una prestazione complessivamente buona, con Foresta casuale E Potenziamento del gradiente ottenendo il RMSE più basso e il R² più alto, mentre AdaBoost aveva i parametri peggiori tra i modelli utilizzati.

Un approccio efficace per visualizzare le variabili chiave che influenzano le previsioni del modello è attraverso Valori SHAPuna tecnica che fornisce una spiegazione ragionevole di come ciascuna caratteristica influisce sulle previsioni del modello.

Ancora una volta, una spiegazione più approfondita su SHAP e su come interpretarne il grafico può essere trovata in Prevedere l’MVP dell’NBA con il Machine Learning.

Grafico SHAP relativo al modello Random Forest (Immagine dell’Autore)

Da questo grafico possiamo trarre alcune importanti conclusioni:

Minuti a partita (MP) E punti (PTS) per partita E totale sono le tre caratteristiche di maggior impatto.
Stipendio della stagione precedente (Stipendio S-1) e % del tetto massimo di tale stipendio (% Cap S-1) sono anch’essi molto influenti, essendo rispettivamente al 4° e 5° posto.
Statistiche avanzate non sono predominanti tra le caratteristiche più importanti, con solo due che compaiono nell’elenco, WS (Vinci Condividi) E VORP (Valore rispetto al giocatore sostitutivo).

Si tratta di un risultato davvero sorprendente, in quanto a differenza del Progetto MVPladdove le statistiche avanzate hanno dominato il risultato finale di SHAP, gli stipendi dei giocatori sembrano molto più correlati statistiche comuni come minuti, punti e partite iniziate.

Ciò è sorprendente perché la maggior parte delle statistiche avanzate sono state progettate proprio con l’obiettivo di valutare meglio le prestazioni di un giocatore. L’assenza di PER (Valutazione dell’efficienza del giocatore) tra i primi 20 (è al 43° posto) è particolarmente sorprendente.

Ciò solleva la possibilità che durante le trattative salariali, i direttori generali possano aderire a un approccio relativamente più semplice, trascurando potenzialmente lo spettro più ampio di parametri di valutazione delle prestazioni.

Forse il problema non è poi così complesso! Semplificando, il giocatore Chi giocatori IL maggior parte minuti E punteggi IL maggior parte punti guadagna Di più!

Concentrarsi agenti liberi di quest’anno e confrontando le loro previsioni con lo stipendio effettivo:

Principali risultati del modello Random Forest per la stagione 2023-24 (valori in milioni) (Immagine dell’autore)

In alto abbiamo i cinque giocatori che sembrano esserlo più sottovalutato (ricevendo meno del dovuto), al centro cinque giocatori correttamente valorizzato e in basso i cinque giocatori più sopravvalutato (ricevere più del dovuto). È importante notare che queste valutazioni si basano esclusivamente sui risultati del modello.

A partire dall’alto, l’ex MVP Russel Westbrook è il più sottovalutato giocatore secondo il modello, il che secondo me è un dato di fatto, avendo firmato un contratto da ~4 milioni di dollari l’anno con i Clippers. Eric Gordon, Mason Plumlee E Malik Beasley anche loro si trovano in una situazione simile, guadagnando contratti molto piccoli con buone prestazioni. D’Angelo Russell appare anche tra i primi cinque nonostante guadagni uno stipendio di $ 17 milioni all’anno, il che indica che dovrebbe guadagnare ancora di più.

Interessante notare che tutti questi giocatori hanno firmato con contendendo squadre (Clippers, Suns, Bucks e Lakers). Questo è un comportamento noto in base al quale i giocatori scelgono di guadagnare meno per avere la possibilità di giocare per una squadra che può vincere il titolo.

Nel mezzo, Principe del Toro, Orlando Robinson, Kevin Knox E Derrick Rose tutti guadagnano piccoli stipendi che sembrano adeguati. Caris LeVert vince 15 milioni di dollari all’anno, ma sembra valere esattamente altrettanto.

In fondo, Fred VanVleet è stato nominato il più sopravvalutato giocatore. I Rockets, operando come squadra in ricostruzione, hanno fatto una mossa notevole con il suo nuovo contratto triennale del valore di 128,5 milioni di dollari. Hanno anche firmato Dillon Brooks per un valore superiore al previsto.

Chris Middleton ha firmato una grande proroga quest’estate. Nonostante siano una squadra contendente, i Bucks appartengono ad un mercato non importante e non possono permettersi di perdere uno dei loro migliori giocatori. Draymond Verde E Cameron Johnson hanno situazioni simili nelle rispettive squadre.

Prevedere i risultati nello sport è sempre una sfida. Dalla scelta del target alla selezione dei giocatori, questo progetto si è rivelato più complesso del previsto. Tuttavia il risultato si è rivelato abbastanza semplice e i risultati ottenuti sono stati molto soddisfacenti!

Certamente, ci sono molti modi in cui possono essere migliorati, uno dei quali è l’uso di tecniche di selezione delle caratteristiche o di riduzione della dimensionalità per ridurre lo spazio delle caratteristiche e quindi la varianza.

Inoltre, avere a disposizione i svincolati delle stagioni precedenti permetterebbe anche di aumentare il numero dei campioni. Tuttavia, tali dati non sembrano essere accessibili al pubblico al momento.

Anche molte altre variabili esterne influiscono su questo problema. Ad esempio, non c’è dubbio che se in qualche modo il la squadra era conosciuta, variabili come seme dell’anno scorso, esito play-off E percentuale del tetto già utilizzato potrebbe essere davvero informativo. Tuttavia, mantenere l’approccio che rispecchia le circostanze di uno scenario reale di free agent in cui la squadra è sconosciuta può potenzialmente produrre un risultato che si allinea più da vicino con le aspettative del giocatore. “valore reale”indipendentemente dal contesto della squadra firmataria.

Una delle premesse principali di questo progetto era l’utilizzo dei soli dati della stagione precedente per prevedere il prossimo stipendio. Incorporare le statistiche delle stagioni precedenti potrebbe effettivamente produrre risultati migliori, dato che la prestazione storica di un giocatore può offrire spunti preziosi. Tuttavia, la natura espansiva di tali dati richiederebbe un’attenta selezione delle funzionalità per gestirne la complessità e l’elevata dimensionalità.

Anche in questo caso, tutto il codice e i dati utilizzati sono disponibili su GitHub.