Un model AI care va schimba rețelele sociale: poate genera videoclipuri pornind de la text

Data:

spot_img

Runway, unul dintre cele două startup-uri care au contribuit la construcția generatorului AI de artă Stable Diffusion, a anunțat luni că primul test public pentru modelul de inteligență artificială pentru video, Gen-2, va fi lansat în curând. Compania a afirmat că este „primul model text-to-video disponibil pentru public”.

Totuși, concurența și în acest domeniu este acerbă. Un grup mai puțin cunoscut, care a făcut un model inițial text-to-video mult mai slab, ar putea depăși Runway până la urmă, scrie Gizmodo.

Citește și: Primăria unde aproape toate posturile sunt vacante. Primarul a murit, contabilul și secretarul general au ales joburi mai bine plătite

Cum poate îmbunătăți AI anumite videoclipuri

Google și Meta lucrează deja la propriile lor generatoare de imagine pornind de la text, dar niciuna dintre companii nu a fost deschisă în a mai da știri despre aplicațiile lor, de la primele testări. Din februarie, echipa relativ mică de 45 de persoane de la Runway este cunoscută pentru instrumentele sale de editare video online, inclusiv pentru modelul AI Gen-1 video-to-video, care ar putea crea și transforma videoclipuri pe baza solicitărilor de text sau a imaginilor de referință.

Gen-1 poate transforma o simplă figurină desenată în timp ce înoată într-un scafandru sau să transforme un bărbat care merge pe stradă într-un monstru de plastilină dintr-un coșmar. Gen-2 ar urma să fie chiar mai puternic, permițând utilizatorilor să creeze videoclipuri de 3 secunde din mai nimic, pe baza unor simple mesaje de tip text.

Deși compania nu a lăsat pe nimeni să testeze aplicația încă, a distribuit câteva clipuri bazate pe solicitări precum „un ochi văzut de aproape” și „o fotografie din aer a unui peisaj montan”.

Puțini oameni din afara companiei au reușit să experimenteze noul model Runway, dar pentru cei interesați să genereze videoclipuri cu ajutorul inteligenței artificiale există și alte opțiuni.

Sistemul de transformarea a textului în video numit ModelScope a fost lansat weekendul trecut și deja a provocat un pic de agitație, pentru clipurile sale video de 2 secunde uneori incomode și adesea nebunești.

Citește și: Un medic a testat ChatGPT în camera de urgențe. O pacientă aproape a murit

DAMO Vision Intelligence Lab

DAMO Vision Intelligence Lab, o divizie de cercetare a gigantului de e-commerce Alibaba, a creat sistemul ca un fel de exercițiu public de testare. Folosește un model de difuzie destul de simplu, pentru a crea videoclipurile, conform paginii companiei, care descrie modelul său de AI, potrivit Gizmodo.

ModelScope este open source și deja disponibil pe Hugging Face, deși poate fi greu să faci aplicația să funcționeze fără a plăti o taxă mică pentru a rula sistemul pe un server GPU separat. Matt Wolfe, tech youtuber, are un tutorial bun despre cum să-l configurați.

ModelScope este destul de clar în ceea ce privește locul de unde provin datele sale. Multe dintre aceste videoclipuri generate conțin conturul vag al siglei Shutterstock, ceea ce înseamnă că datele de testare au inclus probabil o parte considerabilă de videoclipuri și imagini preluate de pe respectivul site de fotografii.

Este o problemă similară cu alte generatoare AI de imagini, cum ar fi Stable Diffusion. Getty Images a dat în judecată Stability AI, compania care a adus publicului generatorul să de artă AI, unde au putut fi remarcate câte imagini Stable Diffusion creează o versiune a imaginilor de la Getty, relatează Gizmodo.

Desigur, acest lucru încă nu i-a împiedicat pe unii utilizatori să facă filme de scurtă durată folosind inteligența artificală.

Modelul Runway, antrenat pe imagini și videoclipuri

În ceea ce privește Runway, grupul caută să-și facă un nume în lumea din ce în ce mai aglomerată a cercetării inteligenței artificiale. În lucrarea lor care descrie sistemul Gen-1, cercetătorii de la Runway au spus că modelul lor este antrenat atât pe imagini, cât și pe videoclipuri ale unui „set de date la scară mare”, cu date text-imagine alături de videoclipuri fără subtitrare.

Acei cercetători au descoperit că există pur și simplu o lipsă de seturi de date video-text cu aceeași calitate ca și alte seturi de date de imagine care prezintă imagini de pe internet. Acest lucru obligă compania să-și obțină datele din videoclipuri, conform Gizmodo.

Dacă noua listă de așteptare pentru Gen-2 a Runway este ca cea pentru Gen-1, atunci utilizatorii se pot aștepta să aștepte câteva săptămâni înainte de a pune pe deplin mâna pe sistem. Între timp, experimentarea cu ModelScope poate fi o primă opțiune bună pentru cei care caută modele de AI ieșite din comun.

Urmăriți PressHUB și pe Google News!

Foto: PEXELS.COM

spot_imgspot_img
Bianca Iosef
Bianca Iosef
Bianca Iosef a terminat Facultatea de Jurnalism și Științele Comunicării din cadrul Universității București în anul 2022. A început să lucreze ca jurnalist încă din timpul facultății și este interesată să evolueze cât mai mult în acest domeniu.

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.

Distribuie articolul

spot_img

Știri de astăzi

Mai multe articole similare
Related

Fostul ministru Raluca Prună despre presiunile făcute de Iohannis pentru numirea Procurorului General

Fost ministru al Justiției în guvernul tehnocrat Cioloș, Raluca...

Procuror suspendat din funcție de CSM

Secția pentru procurori în materie disciplinară a Consiliului Superior...

Primele dispozitive acustice pentru nevăzători, instalate de CTP Iași în stațiile de tramvai și autobuz

Primele dispozitive acustice pentru persoanele cu deficiențe de vedere...

Marcel Ciolacu spune despre Geoană că nu poate fi considerat un candidat de dreapta

Marcel Ciolacu a criticat propunerea ca Mircea Geoană să...