Lavoro con Airflow ormai da più di tre anni e, nel complesso, ne sono abbastanza fiducioso. È un potente orchestratore che mi aiuta a creare pipeline di dati in modo rapido e scalabile, mentre per la maggior parte delle cose che sto cercando di implementare viene fornito con batterie incluse.
Di recente, e mentre mi preparavo per ottenere una certificazione per Airflow, mi sono imbattuto in molte cose diverse di cui non avevo letteralmente la minima idea. E questa è stata essenzialmente la mia motivazione per scrivere questo articolo e condividere con voi alcuni interni di Airflow che mi hanno completamente sbalordito!
1. Lo scheduler analizza solo i file contenenti determinate parole chiave
L’Airflow Scheduler analizzerà solo i file contenenti airflow
O dag
nel codice! Sì, hai sentito bene! Se un file nella cartella DAG non contiene almeno una di queste due parole chiave, semplicemente non verrà analizzato dallo scheduler.
Se desideri modificare questa regola in modo che non sia più un requisito per lo scheduler, puoi semplicemente impostare DAG_DISCOVERY_SAFE_MODE
impostazione di configurazione su False
. In tal caso, lo scheduler analizzerà tutti i file nella cartella DAG (/dags
).
Tuttavia non consiglierei di disabilitare questo controllo, poiché farlo non ha alcun senso. Un file DAG corretto avrà importazioni Airflow e definizione DAG (il che significa che i requisiti per l’analisi di quel file sono soddisfatti), ma vale la pena sapere che questa regola esiste.
2. Le variabili con determinate parole chiave nel nome hanno i loro valori nascosti
Sappiamo che, per impostazione predefinita, Airflow nasconderà le informazioni sensibili archiviate in una connessione (e più specificamente nel file password
campo), ma per quanto riguarda le variabili?
Bene, questo è davvero possibile e la cosa strabiliante è che Airflow può farlo automaticamente per te. Se una variabile contiene determinate parole chiave, che potrebbero indicare informazioni sensibili, il suo valore verrà automaticamente nascosto.
Di seguito è riportato un elenco di parole chiave che renderanno una variabile qualificata per l’archiviazione di informazioni sensibili come…
Fonte: towardsdatascience.com