Проект Google DeepMind анонсував інструмент ШІ наступного покоління під назвою Veo 2, який може генерувати відеокліпи зі штучним інтелектом тривалістю понад дві хвилини з роздільною здатністю до 4K (4096 x 2160). В експериментальному інструменті для створення відео VideoFX від Google, куди входить Veo 2, відеоролики обмежені роздільною здатністю 720p і тривалістю вісім секунд. Зазначимо, що Sora вже сьогодні може створювати 20-секундні кліпи з роздільною здатністю до 1080p.

Google повідомив, що розширює кількість користувачів, які зможуть отримати доступ до VideoFX на цьому тижні. Ілай Коллінз, віце-президент з продуктів DeepMind, зазначив, що Google зробить Veo 2 доступним через свою платформу для розробників Vertex AI, коли модель буде готовою до масштабного використання.

Veo 2 може генерувати відео за текстовою підказкою (наприклад, «людина йде по стежці») або за текстом і еталонним зображенням. DeepMind стверджує, що нова модель здатна створювати кліпи в різних стилях, має покращене «розуміння» фізики та керування камерою, а також створює «чіткіші» кадри.

DeepMind також стверджує, що Veo 2 може більш реалістично моделювати рух, динаміку рідини (наприклад, вино, що наливають у келих) і властивості світла (наприклад, тіні і відображення). Це включає в себе різні лінзи та кінематографічні ефекти, кажуть у DeepMind, а також «нюанси» людського виразу обличчя.

Veo 2 навчався на великій кількості відео. Саме так зазвичай працюють моделі штучного інтелекту: Надаючи приклад за прикладом певної форми даних, моделі вловлюють закономірності в даних, які дозволяють їм генерувати нові дані. DeepMind не говорить, звідки саме вона взяла відео для навчання Veo 2, але YouTube є одним з можливих джерел.