Come funziona MusicGen, la nuova AI di Meta per comporre canzoni e musica

MusicGen di Meta: l'innovativo generatore di musica basato sull'intelligenza artificiale che trasforma descrizioni testuali in coinvolgenti tracce audio in soli 12 secondi: ecco cos'è e come funziona.

music-gen-come-funziona

L'avanzamento dell'intelligenza artificiale ha influenzato numerosi ambiti artistici, tra cui l'industria musicale.

Così come ChatGPT e altri enormi modelli basati su linguaggio artificiale generano testi, Meta ha recentemente annunciato la disponibilità della versione open source del loro modello di intelligenza artificiale per generare musica, chiamato MusicGen.

In questo articolo, approfondiremo l'innovativo modello di linguaggio, scoprendo cos'è, come funziona e come utilizzarlo.

Cos'è MusicGen?

MusicGen è basato su un modello di Transformer, che è uno dei modelli più comuni utilizzati per i modelli di linguaggio attuali. Funziona prevedendo il segmento successivo di una composizione musicale, in modo simile a come un modello di linguaggio prevede le lettere successive in una frase.

Per ottenere questo risultato, il team di ricerca ha utilizzato l'EnCodec di Meta, un tokenizzatore audio che scompone i dati audio in segmenti più piccoli. MusicGen è stato progettato come un approccio rapido ed efficace a singolo stadio che esegue il processo di tokenizzazione in modo parallelo.

Per l'addestramento del modello, il team di ricerca ha utilizzato 20.000 ore di musica autorizzata proveniente da diverse fonti. Questi includono 10.000 registrazioni audio di alta qualità provenienti da un dataset interno, oltre ai dati musicali di Shutterstock e Pond5.

Come utilizzare MusicGen? Ecco tutti i passaggi

Gli utenti possono provare MusicGen utilizzando l'API di Hugging Face, anche se la generazione di musica potrebbe richiedere del tempo a seconda del numero di utenti che lo utilizzano contemporaneamente.

Per ottenere risultati più rapidi, è possibile utilizzare il sito web di Hugging Face per configurare la propria istanza del modello. In alternativa, se si dispone delle competenze e dell'attrezzatura necessarie, è possibile scaricare il codice e eseguirlo manualmente.

Se desideri provare la versione del sito web, ecco come procedere:

  • Apri il tuo browser web.

  • Vai al sito web di Hugging Face.

  • Clicca su "Spaces" in alto a destra.

  • Digita "MusicGen" nella casella di ricerca.

  • Trova quello pubblicato da Facebook.

  • Inserisci la tua indicazione nella casella a sinistra. Puoi anche caricare una traccia audio da cui il software prenderà ispirazione.

  • Clicca su "Generate".

Come funziona MusicGen, la nuova AI di Meta per la creazione di musica

Il modello MusicGen utilizza la descrizione fornita dall'utente per generare 12 secondi di audio. È anche possibile fornire un file audio di riferimento da cui verrà creata una melodia complessa.

Utilizzando il file audio di riferimento, il modello farà uno sforzo per creare musica che rispecchi meglio i gusti dell'utente, mantenendo sia la descrizione che la melodia fornita.

Generative AI: L'origine degli strumenti AI popolari

MusicGen è eccezionale nella sua capacità di gestire sia le indicazioni testuali che le indicazioni musicali, oltre all'efficacia del design e alla velocità di creazione.

La descrizione testuale stabilisce lo stile fondamentale, che viene successivamente seguito dalla musica nel file audio. Il che è più o meno lo stesso procedimento secondo il quale ChatGPT permette di creare app con l'IA.

È importante notare che non è possibile modificare esattamente la direzione della melodia per ascoltarla in diversi stili musicali. La generazione non riproduce esattamente lo stile descritto, ma serve come guida generale per la generazione della musica.

Nonostante molti altri modelli eseguano la generazione di testo, sintesi vocale, creazione di grafica e persino video brevi, ci sono state poche istanze di generazione di musica di alta qualità rese disponibili al pubblico.

Il paper di studio associato a MusicGen, disponibile sul sito di preprint arXiv, afferma che una delle principali sfide della generazione di musica è la necessità di elaborare l'intero spettro di frequenza, il che richiede un campionamento più intensivo. Senza dimenticare le complesse composizioni e sovrapposizioni strumentali tipiche della musica.

MusicGen vs. Google MusicLM

MusicGen non è però la prima istanza in cui la musica incontra l'intelligenza artificiale: esistono diversi software che permettono di creare brevi brani musicali tramite algoritmo, ma MusicGen sembra fin'ora il più affidabile.

Questo software sembra infatti produrre risultati leggermente migliori rispetto ad altri modelli come MusicLM, Riffusion e Musai. I ricercatori dimostrano ciò confrontando gli output di MusicGen su un sito di esempio.

MusicGen, a differenza del principale competitor Google MusicLM, è disponibile in quattro dimensioni di modello, che vanno da "tiny" (300 milioni di parametri) a "big" (3,3 miliardi di parametri), quest'ultimo con il maggior potenziale per creare musica complessa. Può essere eseguito localmente (si consiglia una GPU con almeno 16 GB di RAM).