OpenAI wprowadza Sora, model AI do konwersji tekstu na wideo

OpenAI wprowadza nowy model generowania wideo o nazwie Sora. the mówi firma zajmująca się sztuczną inteligencją Sora „Na podstawie instrukcji tekstowych można tworzyć realistyczne i pomysłowe sceny”. Szablon zamiany tekstu na wideo umożliwia użytkownikom tworzenie realistycznych filmów o długości do jednej minuty, a wszystko to na podstawie napisanych przez nich podpowiedzi.

Jak wynika ze wstępnego wpisu na blogu OpenAI, Sora jest w stanie tworzyć „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz precyzyjnymi szczegółami tematu i tła”. Firma zauważa również, że modelka potrafi zrozumieć, w jaki sposób „obiekty istnieją w świecie fizycznym”, a także „dokładnie interpretować rekwizyty i tworzyć fascynujące postacie wyrażające realistyczne emocje”.

Model może także stworzyć film na podstawie nieruchomego obrazu, a także uzupełnić lub rozszerzyć brakujące klatki w istniejącym filmie. Dema stworzone przez Sorę i zawarte w poście na blogu OpenAI obejmują widok Kalifornii z lotu ptaka podczas gorączki złota, wideo, które wygląda, jakby zostało nakręcone z wnętrza tokijskiego pociągu i inne. Wiele z nich ma oczywiste oznaki sztucznej inteligencji – takie jak podejrzanie poruszająca się podłoga w filmie muzealnym – a OpenAI twierdzi, że model „może mieć trudności z dokładnym symulowaniem fizyki złożonej sceny”, ale ogólnie wyniki są bardzo imponujące.

Kilka lat temu to generatory zamiany tekstu na obraz, takie jak Midjourney, przodowały w zakresie możliwości przekształcania słów w obrazy przez szablony. Jednak ostatnio jakość wideo zaczęła się poprawiać w niezwykłym tempie: firmy takie jak Runway i Pika zademonstrowały własne imponujące modele zamiany tekstu na wideo, a Lumiere firmy Google jest głównym konkurentem OpenAI również w tej przestrzeni. Podobnie jak Sora, Lumiere zapewnia użytkownikom narzędzia do konwersji tekstu na wideo, a także pozwala im tworzyć filmy z nieruchomego obrazu.

Sora jest obecnie dostępna tylko dla „członków drużyny czerwonych”, którzy oceniają model pod kątem potencjalnych uszkodzeń i niebezpieczeństw. OpenAI zapewnia także dostęp do niektórych artystów wizualnych, projektantów i twórców filmowych w celu uzyskania opinii. Zwraca uwagę, że obecny model może nie symulować dokładnie fizyki złożonej sceny i może nie wyjaśniać poprawnie niektórych przypadków przyczyny i skutku.

READ Premiera RTX 4070 Ti i RTX 40 Mobility

Ryder Hepburne

„Specjalista sieciowy. Odwieczny maniak zombie. Kawowy ninja. Przyjazny dla hipsterów analityk.”

Dodaj komentarz Anuluj pisanie odpowiedzi

Related News

Zdobądź nowy Samsung Galaxy Watch 7 za 49,99 USD, jeśli zamienisz swój stary smartwatch

Oferty Apple Amazon Prime Day na słuchawki AirPods, MacBooki i iPady, których nie możesz dziś przegapić