Suggerimenti e trucchi per organizzare le visualizzazioni del notebook Jupyter | di Matthew Andrés Moreno | Gennaio 2024 | Intelligenza-Artificiale

Ottimizza il flusso di lavoro di data science automatizzando l’output matplotlib, con 1 riga di codice. Ecco come.

Dare un nome alle cose è difficile. Dopo una giornata abbastanza lunga, ci siamo ritrovati tutti con parole altamente descrittive come “graph7(1)_FINAL(2).png” E “output.pdf“Ti sembra familiare?

Possiamo fare di meglio – e abbastanza facilmente, in realtà.

Quando utilizziamo la tecnologia orientata ai dati “nato dal mare-esque”, gli ingredienti per un nome file descrittivo ci sono tutti. Una chiamata tipica è simile a questa:

sns.scatterplot(data=tips, x="total_bill", y="tip", hue="time")

Proprio lì sappiamo di avere “total_bill” sul X asse“time” codificato a coloriecc. E se usassimo il file nome della funzione di tracciamento e quelli semantici chiavi di colonna organizzare l’output per noi?

Ecco come appare il flusso di lavoro, utilizzando il file teeplot attrezzo.

import seaborn as sns; import teeplot as tp
tp.save = {".eps": True, ".pdf": True}  # set custom output behavior

tp.tee(sns.scatterplot,
data=sns.load_data("tips"), x="total_bill", y="tip", hue="time")

teeplots/hue=time+viz=scatterplot+x=fattura-totale+y=tip+ext=.eps
teeplot/hue=time+viz=scatterplot+x=fattura-totale+y=tip+ext=.pdf

In realtà l’abbiamo fatto tre cose in questo esempio – 1) abbiamo rappresentato la trama nel taccuino e 2) abbiamo salvato la nostra visualizzazione in un file con un nome file significativo e 3) noi abbiamo ho agganciato la nostra visualizzazione a un framework in cui possono essere presenti gli output del notebook gestiti a livello globale (in questo caso, abilitando eps/pdf produzione).

Questo articolo spiegherà come sfruttare il teeplot Pacchetto Python per organizzarti meglio e liberare il carico di lavoro mentale per concentrarti su cose più interessanti.

Sono l’autore principale e il manutentore del progetto, che utilizzo nel mio flusso di lavoro da diversi anni e che ho trovato abbastanza utile da poterlo impacchettare e condividere più ampiamente con la comunità. teeplot è open source sotto la licenza MIT.

teeplot è progettato per semplificare il lavoro con visualizzazioni di dati create con librerie come matplotlib, nato dal mareE panda. Funziona come un wrapper attorno alle chiamate di plottaggio per gestire la gestione dell’output per te.

Ecco come fare utilizzo teeplot In 3 passaggi,

Scegli la tua funzione di plottaggio: Inizia selezionando la funzione di plottaggio preferita, indipendentemente dal fatto che provenga da matplotlib, nato dal mare, pandaecc. o uno che hai scritto tu stesso.
Aggiungi i tuoi argomenti di trama: Passa la tua funzione di disegno come primo argomento a teeseguito dagli argomenti che desideri utilizzare per la visualizzazione.
Tracciatura e salvataggio automatici: teeplot cattura la funzione di tracciamento e i suoi argomenti, esegue la trama e quindi si occupa di discutere gli output della trama per te.

Questo è tutto!

Quindi, diamo un’occhiata 3 brevi esempi che dimostrano: UN) uso di base, B) post-elaborazione personalizzataE C) funzioni di plottaggio personalizzate.

In questo esempio, passiamo un DataFrame dfla funzione membro di df.plot.box come nostro plotter e due chiavi semantiche: “età” e “genere”. teeplot si occupa del resto.

# adapted pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.box.html
import pandas as pd; from teeplot import teeplot as tpage_list = (8, 10, 12, 14, 72, 74, 76, 78, 20, 25, 30, 35, 60, 85)
df = pd.DataFrame({"gender": list("MMMMMMMMFFFFFF"), "age": age_list})
tp.tee(df.plot.box,  # plotter...
column="age", by="gender", figsize=(4, 3))  # ...forwa