Kreativ AI?

Inom utvecklingen av maskininlärning och artificiell intelligens har det historiskt handlar om klassificerare. Det som tidigare kändes som science fiction har blivit en del av vår vardag. Vi reagerar inte så mycket över att vår telefon bara behöver se vårt ansikte för att låsa upp sig. Eller hur spam kan sorteras bort effektivt. Eller hur bilderna din telefonen finns sökbara på nyckelord direkt i telefonen.

Till skillnad från traditionell AI som ofta är utformad för att analysera och kategorisera information, är generative AI som en digital konstnär eller uppfinnare. Den kan generera bilder, musik, text, och till och med videor som inte fanns tidigare.

Ofta används dessa generativa modeller ihop med lämpliga gränssnitt för oss människor. Ni som testat ChatGPT förstår hur duktiga de kan vara på språk.

Användbarhet

Föreställ dig att du kombinerar en språkförståelsemodell, kanske en enkel variant av en stor språkmodell (LLM) liknande OpenAI:s GPT-3, med andra specialiserade AI-modeller, till exempel de som skapar bilder eller musik. Det är lite som att sätta ihop ett team av superhjältar, där varje medlem har sin egen unika förmåga. Språkförståelsemodellen fungerar som teamets hjärna. Den förstår och tolkar instruktioner eller frågor på ett nästan mänskligt sätt. Du kan till exempel fråga den att beskriva en scen från en fantasyvärld eller att komma med idéer för en ny låt.

Därefter tar de andra modellerna, som är experter på bild- eller musikskapande, över. Baserat på den beskrivning eller idé som språkmodellen ger, börjar de arbeta. Om det handlar om en bild, kan en modell som DALL-E eller MidJourney börja skapa en visuell representation av den beskrivna scenen. Om det gäller musik, kan en modell som OpenAI’s Jukebox eller Metas AudioCraft börja komponera och skapa musik eller ljud som matchar stämningen eller stilen i din beskrivning.

Kombinationen av dessa AI-modeller gör att hela användarupplevelsen blir på en hög nivå. Du får inte bara en dator som förstår vad du säger, utan också en som kan skapa nya, fascinerande verk som matchar dina ord. Detta öppnar dörren för oändliga kreativa möjligheter, från att skriva en berättelse och genast kunna visualisera scenerna, till att komponera musik som perfekt fångar känslan i dina ord.

Träningsdata

Innehållet som genereras av dessa AI-modeller är “unikt” i den meningen att det inte är en kopia av något som redan finns. Men det är viktigt att förstå att detta “nya” innehåll är influerat av de data som modellen har tränats på. Här är några nyckelpunkter att tänka på:

Baserat på Träningsdata: Generative AI-modeller lär sig skapa innehåll genom att analysera och förstå mönster i de data de tränas på. Ett AI som tränas på bilder av hundar att generera nya bilder av hundar som ser realistiska ut, dessa kommer att baseras på de egenskaper och drag som den har lärt sig från träningsbilderna. Ofta är datat dessa modeller tränas på upphovsrättskyddat.
Kombination av Egenskaper: Generative AI är skicklig på att kombinera subtila egenskaper i träningsdatat på nya och ofta oväntade sätt. Detta kan leda till originella verk, även om de är sammansatta av egenskaper som modellen har lärt sig från befintliga data.
Påverkan av Design och Styrning: Det är även värt att notera att hur en AI används och styrningen av dess genereringsprocess (t.ex. genom att använda specifika prompts eller styrparametrar) spelar en stor roll i vilken typ av innehåll som skapas.

Sammanfattningsvis är innehållet som genereras av AI unikt i den mening att det inte är en kopia av något enskilt verk i träningsdatan, men det är samtidigt ett resultat av, och begränsat till, de mönster, stilar och egenskaper som den har lärt sig från denna data. Således är AI:s kreativitet till viss del begränsad det data den matats med, kombinerat med de specifika algoritmer och metoder som används för genereringen.

Musikgenerering

Om vi fokuserar på musik-generering finns det vissa delar som behöver vara på plats för att använda tekniken på ett användbart och kommersiellt gångbart sätt.

Trängsdatan bör vara öppen och fri att använda eller ägas av den som tränar modellen.(Kommer skriva mer om detta i kommande blogpost)
Upphovsrätten för verket måste vara utredd.
Tekniska kvaliteten på det genererade materialet måste vara i nivå med professionellt skapad musik.

Framtiden för Ljudgenerering med AI

Google, Meta och OpenAI har utfört innovativ grundforskning inom området och nyligen släppte Meta sin AudioCraft-modell-arkitektur open source vilket borgar för att många kommer börja experimentera och utveckla lösningar där generativ AI är grundkomponenten. Fortfarande finns det frågetecken till träningsdata och vilket träningsdata de som vill bygga produkter på lösningen ska använda. Dock har Meta jobbat på att få upp kvaliteten på det skapade materialet till en acceptabel teknisk nivå vilket är väldigt spännande. Framtiden för ljudgenerering med AI ser ljus ut. Med fortsatt snabb fart på forskning och utveckling inom området kan vi förvänta oss ännu mer avancerade och mångsidiga verktyg som förändrar hur vi skapar och upplever ljud och musik. Det står klart att generativ AI kommer att fortsätta att vara en kraftfull källa till innovation och kreativitet inom ljudvärlden.

AI genererat trum-beat

Jag har testat att generera olika specifika stems. Här är ett exempel på en trum-stem.

Mats · AI generated drumstem

Länk till arbetet Meta gjort: https://arxiv.org/abs/2306.05284

/ Mats

12 november 2023