OpenAI wprowadza Sora, model AI do konwersji tekstu na wideo

OpenAI wprowadza nowy model generowania wideo o nazwie Sora. the mówi firma zajmująca się sztuczną inteligencją Sora „Na podstawie instrukcji tekstowych można tworzyć realistyczne i pomysłowe sceny”. Szablon zamiany tekstu na wideo umożliwia użytkownikom tworzenie realistycznych filmów o długości do jednej minuty, a wszystko to na podstawie napisanych przez nich podpowiedzi.

Jak wynika ze wstępnego wpisu na blogu OpenAI, Sora jest w stanie tworzyć „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz precyzyjnymi szczegółami tematu i tła”. Firma zauważa również, że modelka potrafi zrozumieć, w jaki sposób „obiekty istnieją w świecie fizycznym”, a także „dokładnie interpretować rekwizyty i tworzyć fascynujące postacie wyrażające realistyczne emocje”.

Model może także stworzyć film na podstawie nieruchomego obrazu, a także uzupełnić lub rozszerzyć brakujące klatki w istniejącym filmie. Dema stworzone przez Sorę i zawarte w poście na blogu OpenAI obejmują widok Kalifornii z lotu ptaka podczas gorączki złota, wideo, które wygląda, jakby zostało nakręcone z wnętrza tokijskiego pociągu i inne. Wiele z nich ma oczywiste oznaki sztucznej inteligencji – takie jak podejrzanie poruszająca się podłoga w filmie muzealnym – a OpenAI twierdzi, że model „może mieć trudności z dokładnym symulowaniem fizyki złożonej sceny”, ale ogólnie wyniki są bardzo imponujące.

Kilka lat temu to generatory zamiany tekstu na obraz, takie jak Midjourney, przodowały w zakresie możliwości przekształcania słów w obrazy przez szablony. Jednak ostatnio jakość wideo zaczęła się poprawiać w niezwykłym tempie: firmy takie jak Runway i Pika zademonstrowały własne imponujące modele zamiany tekstu na wideo, a Lumiere firmy Google jest głównym konkurentem OpenAI również w tej przestrzeni. Podobnie jak Sora, Lumiere zapewnia użytkownikom narzędzia do konwersji tekstu na wideo, a także pozwala im tworzyć filmy z nieruchomego obrazu.

Sora jest obecnie dostępna tylko dla „członków drużyny czerwonych”, którzy oceniają model pod kątem potencjalnych uszkodzeń i niebezpieczeństw. OpenAI zapewnia także dostęp do niektórych artystów wizualnych, projektantów i twórców filmowych w celu uzyskania opinii. Zwraca uwagę, że obecny model może nie symulować dokładnie fizyki złożonej sceny i może nie wyjaśniać poprawnie niektórych przypadków przyczyny i skutku.

READ GPT-5 może pojawić się tego lata jako „istotnie lepsza” aktualizacja ChatGPT

Ryder Hepburne

„Specjalista sieciowy. Odwieczny maniak zombie. Kawowy ninja. Przyjazny dla hipsterów analityk.”

Dodaj komentarz Anuluj pisanie odpowiedzi

Related News

Oferty Apple Amazon Prime Day na słuchawki AirPods, MacBooki i iPady, których nie możesz dziś przegapić

AMD chwali się wydajnością Ryzen 9000, przedłuża gwarancję wsparcia AM5 do 2027 roku