OpenAI wprowadza nowy model generowania wideo o nazwie Sora. the mówi firma zajmująca się sztuczną inteligencją Sora „Na podstawie instrukcji tekstowych można tworzyć realistyczne i pomysłowe sceny”. Szablon zamiany tekstu na wideo umożliwia użytkownikom tworzenie realistycznych filmów o długości do jednej minuty, a wszystko to na podstawie napisanych przez nich podpowiedzi.
Jak wynika ze wstępnego wpisu na blogu OpenAI, Sora jest w stanie tworzyć „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz precyzyjnymi szczegółami tematu i tła”. Firma zauważa również, że modelka potrafi zrozumieć, w jaki sposób „obiekty istnieją w świecie fizycznym”, a także „dokładnie interpretować rekwizyty i tworzyć fascynujące postacie wyrażające realistyczne emocje”.
Model może także stworzyć film na podstawie nieruchomego obrazu, a także uzupełnić lub rozszerzyć brakujące klatki w istniejącym filmie. Dema stworzone przez Sorę i zawarte w poście na blogu OpenAI obejmują widok Kalifornii z lotu ptaka podczas gorączki złota, wideo, które wygląda, jakby zostało nakręcone z wnętrza tokijskiego pociągu i inne. Wiele z nich ma oczywiste oznaki sztucznej inteligencji – takie jak podejrzanie poruszająca się podłoga w filmie muzealnym – a OpenAI twierdzi, że model „może mieć trudności z dokładnym symulowaniem fizyki złożonej sceny”, ale ogólnie wyniki są bardzo imponujące.
Kilka lat temu to generatory zamiany tekstu na obraz, takie jak Midjourney, przodowały w zakresie możliwości przekształcania słów w obrazy przez szablony. Jednak ostatnio jakość wideo zaczęła się poprawiać w niezwykłym tempie: firmy takie jak Runway i Pika zademonstrowały własne imponujące modele zamiany tekstu na wideo, a Lumiere firmy Google jest głównym konkurentem OpenAI również w tej przestrzeni. Podobnie jak Sora, Lumiere zapewnia użytkownikom narzędzia do konwersji tekstu na wideo, a także pozwala im tworzyć filmy z nieruchomego obrazu.
Sora jest obecnie dostępna tylko dla „członków drużyny czerwonych”, którzy oceniają model pod kątem potencjalnych uszkodzeń i niebezpieczeństw. OpenAI zapewnia także dostęp do niektórych artystów wizualnych, projektantów i twórców filmowych w celu uzyskania opinii. Zwraca uwagę, że obecny model może nie symulować dokładnie fizyki złożonej sceny i może nie wyjaśniać poprawnie niektórych przypadków przyczyny i skutku.
„Specjalista sieciowy. Odwieczny maniak zombie. Kawowy ninja. Przyjazny dla hipsterów analityk.”
More Stories
Premiera PlayStation 5 Pro planowana jest za kilka tygodni
Kuo: Aktualizacja pamięci RAM do 12 GB w przyszłym roku będzie ograniczona do iPhone’a 17 Pro Max
Firma zajmująca się sztuczną inteligencją Midjourney zapowiada produkt sprzętowy w nowej formie