Текст в видео: ролик из одного описания

Если оживление фото отталкивается от готового кадра, то text-to-video («текст в видео») создаёт ролик с нуля — у вас нет ничего, кроме предложения, а на выходе движущаяся сцена. Это самый «магический» и одновременно самый капризный режим генерации: здесь промт решает всё.

Как это работает

Вы описываете сцену словами — нейросеть рисует не один кадр, а целую последовательность, удерживая между ними единый мир: один и тот же персонаж, свет, движение камеры. По сути это генерация картинки, растянутая во времени, плюс понимание физики движения.

Из-за этого text-to-video дороже и капризнее image-to-video: модели приходится придумывать и содержание, и его движение одновременно. Поэтому короткие сцены (5–10 секунд) выходят отлично, а длинный связный сюжет пока собирают из нескольких роликов.

Опишите сцену одним предложением — получите ролик. Подсказка для первого раза: «неоновая улица ночью под дождём, медленный проезд камеры вперёд, отражения в лужах, киноатмосфера». Видео дороже картинок: ролик доступен после регистрации и онбординга — за них начисляются стартовые токены.

Вот такой ролик нейросеть собрала по тому самому промту про неоновую улицу — без единого исходного кадра, только из текста. Попробуйте свой ниже.

Загрузка…

Из чего состоит хороший видеопромт

Картиночный промт описывает кадр. Видеопромт описывает ещё и движение и время. Держите в голове пять слоёв:

Сцена — что и где. «Старый маяк на скалистом берегу».
Движение в кадре — что происходит. «…волны бьются о камни, чайки кружат».
Камера — это новое и важное. «…медленный наезд», «облёт», «съёмка с дрона», «статичный план».
Свет и время — «закатное солнце, длинные тени».
Стиль — «киношно, как кадр из фильма», «3D-анимация», «документально».

Главное отличие от картинки — камера. Именно слова про движение камеры превращают «ожившую открытку» в «кадр из кино». Не указали камеру — модель решит сама, часто неудачно.

Частые ошибки новичка

Слишком много действия. «Человек бежит, прыгает, оборачивается и машет» за 5 секунд развалится. Одно ясное движение на ролик.
Текст и надписи в кадре. Пока слабое место почти всех моделей — буквы «плывут». Текст лучше накладывать поверх готового ролика отдельно.
Сложные руки и толпа. Классическая боль; чем их меньше в кадре, тем стабильнее результат.
Ожидание длинного сюжета. Думайте «кадрами», а не «сценами»: соберите ролик из нескольких коротких генераций.

«10 видеопромтов, которые работают»

Готовые шаблоны под рекламу, соцсети, атмосферный фон и предметку, с разбором, какие слова про камеру и свет дают «киношность».

Гость

Аккаунт

Входит в подписку

Что дальше

Вы умеете создавать сцену с нуля. Частный, но очень востребованный случай — когда в кадре должен быть человек, который говорит. Это отдельный жанр со своими правилами.

Частые вопросы

Как сделать видео из текста нейросетью?

Опишите сцену одним предложением — нейросеть создаст ролик с нуля (text-to-video), удерживая единый мир: персонажа, свет, движение камеры. Видеопромт пишется как обычное сообщение в Twelver, ролик приходит в ответ; стартовые токены начисляются после регистрации и онбординга.

Из чего состоит хороший видеопромт?

Из пяти слоёв: сцена (что и где), движение в кадре, камера (наезд, облёт, дрон, статичный план), свет и время, стиль. Главное отличие от картинки — камера: именно слова про её движение превращают «ожившую открытку» в «кадр из кино».

Почему длинное видео по тексту не получается?

Модели приходится придумывать и содержание, и его движение одновременно, поэтому короткие сцены (5–10 секунд) выходят отлично, а длинный связный сюжет пока собирают из нескольких роликов. Думайте «кадрами», а не «сценами».

Почему текст и надписи в видео «плывут»?

Буквы — слабое место почти всех видеомоделей. Текст лучше накладывать поверх готового ролика отдельно, а в промте избегать надписей в кадре; заодно держите одно ясное движение и поменьше рук и толпы.

В чате Twelver видеопромт пишется как обычное сообщение — ролик приходит в ответ. Стартовые токены на видео начисляются после регистрации и онбординга.

Попробуйте сами

Всё из этого руководства работает в Twelver

Один чат для текста, картинок, видео, музыки и озвучки — без отдельных сервисов и подписок.

Открыть чат Twelver

Лендинг по темеГенерация видео Twelver на AndroidТот же чат в приложении

Оцените свой опыт