Nel mio lavoro di data scientist, devo importare regolarmente numerosi file diversi che contengono lo stesso tipo di informazioni a causa dei vincoli di esportazione in software diversi. Se ti trovi in una situazione simile, di seguito è riportato un modo chiaro e semplice per poter importare automaticamente i tuoi file come singoli frame di dati o combinarli in un singolo frame di dati.
Prima di iniziare con il nostro codice, dobbiamo prima preparare i nostri file. Dobbiamo avere un modo per scegliere a livello di codice i file che vogliamo importare in R. Sebbene tu possa scegliere qualsiasi modo per distinguere questi file, ecco due dei modi più semplici:
- Crea un prefisso univoco su tutti i file che desideri importare contemporaneamente.
- Crea una cartella separata nella directory di lavoro e includi solo quei file in quella cartella.
Ad esempio, se avessi una serie di file Excel chiamati “SA#.xlsx”. Se non avessi altri file simili che iniziano con SA, allora ho già il mio prefisso. Se nella mia cartella sono presenti altri file che iniziano con SA come “SAT.xlsx”, posso facilmente creare una cartella e chiamarla “SA”. Quindi includerò solo i file che desidero importare come SA in quella cartella.
Una volta che abbiamo un modo programmatico per identificare i nostri file, dobbiamo creare un elenco di tutti i nomi di file. Possiamo usare la funzione R list.files() per raggiungere questo obiettivo.
Elenco file con prefisso
Se scegli di aggiungere un prefisso ai nomi dei file, utilizzeremo il parametro pattern di list.files() per selezionare i file specifici che desideriamo.
# Formula
filelist <- list.files(pattern = "^<prefix>")#Example
filelist <- list.files(pattern = "^SA")
Il modello accetta un’espressione regolare. Pertanto, possiamo usare il simbolo “^” per rappresentare l’inizio della stringa. Ciò garantisce che qualsiasi altro nome di file che includa “SA” all’interno del nome ma non all’inizio non verrà incluso in questo insieme di nomi. Nota: questo estrarrà solo i file dalla directory di lavoro. Puoi cambiare il…
Fonte: towardsdatascience.com