Текст в видео: ролик из одного описанияГенерация видео нейросетью: полная книга

Текст в видео: ролик из одного описания

Если оживление фото отталкивается от готового кадра, то text-to-video («текст в видео») создаёт ролик с нуля — у вас нет ничего, кроме предложения, а на выходе движущаяся сцена. Это самый «магический» и одновременно самый капризный режим генерации: здесь промт решает всё.

Как это работает

Вы описываете сцену словами — нейросеть рисует не один кадр, а целую последовательность, удерживая между ними единый мир: один и тот же персонаж, свет, движение камеры. По сути это генерация картинки, растянутая во времени, плюс понимание физики движения.

Из-за этого text-to-video дороже и капризнее image-to-video: модели приходится придумывать и содержание, и его движение одновременно. Поэтому короткие сцены (5–10 секунд) выходят отлично, а длинный связный сюжет пока собирают из нескольких роликов.

Опишите сцену одним предложением — получите ролик. Подсказка для первого раза: «неоновая улица ночью под дождём, медленный проезд камеры вперёд, отражения в лужах, киноатмосфера». Видео дороже картинок: ролик доступен после регистрации и онбординга — за них начисляются стартовые токены.

Вот такой ролик нейросеть собрала по тому самому промту про неоновую улицу — без единого исходного кадра, только из текста. Попробуйте свой ниже.
Загрузка…

Из чего состоит хороший видеопромт

Картиночный промт описывает кадр. Видеопромт описывает ещё и движение и время. Держите в голове пять слоёв:

  1. Сцена — что и где. «Старый маяк на скалистом берегу».
  2. Движение в кадре — что происходит. «…волны бьются о камни, чайки кружат».
  3. Камера — это новое и важное. «…медленный наезд», «облёт», «съёмка с дрона», «статичный план».
  4. Свет и время«закатное солнце, длинные тени».
  5. Стиль«киношно, как кадр из фильма», «3D-анимация», «документально».

Главное отличие от картинки — камера. Именно слова про движение камеры превращают «ожившую открытку» в «кадр из кино». Не указали камеру — модель решит сама, часто неудачно.

Частые ошибки новичка

  • Слишком много действия. «Человек бежит, прыгает, оборачивается и машет» за 5 секунд развалится. Одно ясное движение на ролик.
  • Текст и надписи в кадре. Пока слабое место почти всех моделей — буквы «плывут». Текст лучше накладывать поверх готового ролика отдельно.
  • Сложные руки и толпа. Классическая боль; чем их меньше в кадре, тем стабильнее результат.
  • Ожидание длинного сюжета. Думайте «кадрами», а не «сценами»: соберите ролик из нескольких коротких генераций.

«10 видеопромтов, которые работают»

Готовые шаблоны под рекламу, соцсети, атмосферный фон и предметку, с разбором, какие слова про камеру и свет дают «киношность».

Гость
2
Аккаунт
3
Подписка

Входит в подписку

Что дальше

Вы умеете создавать сцену с нуля. Частный, но очень востребованный случай — когда в кадре должен быть человек, который говорит. Это отдельный жанр со своими правилами.


В чате Twelver видеопромт пишется как обычное сообщение — ролик приходит в ответ. Стартовые токены на видео начисляются после регистрации и онбординга.

Попробуйте сами

Всё из этого руководства работает в Twelver

Один чат для текста, картинок, видео, музыки и озвучки — без отдельных сервисов и подписок.

Открыть чат Twelver
Оцените свой опыт