Una visione dall'alto dell'algebra lineare: perché la moltiplicazione di matrici è così? | di Rohit Pandey | Novembre 2023 | Intelligenza-Artificiale

Perché le colonne della prima matrice dovrebbero corrispondere alle righe della seconda? Perché non far corrispondere le righe di entrambe?

Questo è il terzo capitolo del libro in lavorazione sull’algebra lineare, “Una vista a volo d’uccello dell’algebra lineare”. Il sommario finora:

Capitolo-1: Le basi
Capitolo 2: La misura di una mappa: determinanti
Capitolo 3: (Corrente) Perché la moltiplicazione di matrici è così?

Qui descriveremo le operazioni che possiamo eseguire con due matrici, tenendo presente che si tratta solo di rappresentazioni di mappe lineari.

Quasi tutte le informazioni possono essere incorporate in uno spazio vettoriale. Immagini, video, lingua, parlato, informazioni biometriche e qualsiasi altra cosa tu possa immaginare. E tutte le applicazioni dell’apprendimento automatico e dell’intelligenza artificiale (come i recenti chatbot, text to image, ecc.) funzionano su questi incorporamenti di vettori. Poiché l’algebra lineare è la scienza che si occupa di spazi vettoriali ad alta dimensione, è un elemento indispensabile.

Concetti complessi del nostro mondo reale come immagini, testo, discorso, ecc. possono essere incorporati in spazi vettoriali ad alta dimensione. Maggiore è la dimensionalità dello spazio vettoriale, maggiore è la complessità delle informazioni che può codificare. Immagine creata a metà viaggio.

Molte tecniche implicano prendere alcuni vettori di input da uno spazio e mapparli su altri vettori da un altro spazio.

Ma perché concentrarsi sul “lineare” quando le funzioni più interessanti non sono lineari? Questo perché il problema di rendere i nostri modelli altamente dimensionali e quello di renderli non lineari (abbastanza generali da catturare tutti i tipi di relazioni complesse) risultano essere ortogonali tra loro. Molte architetture di reti neurali funzionano utilizzando strati lineari con semplici non linearità unidimensionali tra di loro. E c’è un teorema che dice che questo tipo di architettura può modellare qualsiasi funzione.

Poiché il modo in cui manipoliamo i vettori ad alta dimensione è principalmente la moltiplicazione di matrici, non è esagerato dire che è il fondamento della moderna rivoluzione dell’intelligenza artificiale.

Fonte: towardsdatascience.com