Därför är ai så dålig på att skapa bilder av händer
Du har säkert inte missat att ai har blivit otroligt bra på att skapa bilder. Men det finns ett område där de rent ut sagt suger. Vad är det egentligen som händer?
Ai-tjänster som Midjourney och Dall-E 2 har blivit väldigt populära den senaste tiden. Det är inte konstigt – nu kan vem som helst skapa bilder av i princip vad som helst i vilken stil som helst.
Men de har fortfarande en del kvar att förbättra. Har du någon gång provat så vet du vad jag pratar om: Händer.
Oftast försöker ai-tjänsterna dölja händer när bilderna skapas, men så plötsligt dyker de upp och du sätter kaffet i vrångstrupen. Sju förvridna rymdkorvar – per hand! – som pekar ondskefullt i din rikting. Din ultrarealistiska ai-genererade karaktär går från superhjälte till Uwe Boll-statist.Hur många fingrar har en människa nu igen? Hur kan ai som är så bra på att skapa allt vara så dåliga på just händer? Jag torkade bort kaffet från tangentbordet och kontaktade en ai-expert.
Ai tränas på miljontals bilder
– Dessa ai-tjänster tränas på miljontals tvådimensionella kommenterade (annoterade) bilder. Datorprogrammet behöver bryta ned bilderna och förstå de gemensamma faktorerna som gör att bilden innehåller det värde som anges i noteringen. Hand, ansikte, katt, hund, och så vidare, berättar Robin Elliott, Director Applied AI and IoT på Research Institutes of Sweden (RISE).
Vad Robin Elliott menar är att bilderna som går att skapa idag speglar hur ai:n har tränats och för vilket syfte. Till exempel finns ai-bildgeneratorer som är mycket bra på att skapa mänskliga ansikten. Det beror på att dessa har tränats på miljontals av bilder med enbart ansikten.Ett extra långfinger är praktiskt när du blir riktigt arg. Dessutom är människans uppfattning mycket känslig för vissa detaljer, mänskliga händer och ansikten står högt upp på den listan. Allt onormalt i dessa funktioner, till och med en liten konstighet i en bild, sticker ut omedelbart.
– Händer och ansikten var i allmänhet udda, men kläder, bilar och byggnader var okej för mig. Men när jag tittade djupare i bilderna började jag se en liknande nivå av konstigheter i dem också. Skuggor på fel ställe, linjer som inte matchade och så vidare. Men detta hade mindre betydelse för mig och bilden var fortfarande acceptabel. Så var inte fallet för bilder av händer och ansikten.
Ai-träning saknar fokus på händer
Robin Elliott tror att mängden bra träningsdata som finns tillgänglig är mycket lägre för händer än mängden data för ansikten, samt att fokus inte har funnits på det området. Ansikten har varit viktigare att få till bra.
– I framtiden när vikten av realistiska, mänskliga egenskaper i våra bilder ökar kommer också träningen av ai att ta med det i beräkningen och bilderna blir mer realistiska.