← Все новости

StoryMem от ByteDance: ИИ-генерация видео с сохранением персонажей

Команда ByteDance представила технологию StoryMem, которая обеспечивает визуальную согласованность ИИ-видео. Система использует ключевые кадры как ориентиры для сохранения облика персонажей.

StoryMem от ByteDance: ИИ-генерация видео с сохранением персонажей

Совместная работа специалистов из ByteDance и Наньянского технологического университета привела к созданию инновационной архитектуры StoryMem. Данная технология призвана решить фундаментальную проблему генеративного видео — потерю визуального единства при смене ракурсов или локаций. В современных реалиях, когда нейросети способны выдавать фотореалистичные изображения, именно сохранение идентичности объектов остается наиболее сложным вызовом для инженеров.

В основу предложенного метода легла концепция динамической памяти. Алгоритм анализирует и сохраняет наиболее информативные фрагменты из начальных этапов работы, используя их в качестве фундамента для последующей генерации. Эти ключевые кадры позволяют системе «сверять» новые сцены с уже созданными, что исключает резкие изменения во внешности персонажей или деталях фона. Такой подход кардинально отличается от стандартных диффузионных моделей, которые зачастую обрабатывают каждый сегмент изолированно, что приводит к неприятному мерцанию и визуальным артефактам.

Контекст

Развитие инструментов для создания контента с помощью искусственного интеллекта за последний год совершило качественный скачок. После появления таких платформ, как Sora, индустрия осознала, что простого высокого разрешения недостаточно для профессионального использования. Главным препятствием для создания полноценного кино или анимации оставалась «краткосрочная память» алгоритмов. Большинство существующих решений ограничено короткими роликами, в которых герой может до неузнаваемости измениться всего за несколько секунд экранного времени. Исследователи по всему миру искали способ «закрепить» облик персонажа, и решение, предложенное авторами StoryMem, выглядит одним из самых перспективных.

Что это значит

Практическое применение данной разработки выходит далеко за рамки простых развлекательных сервисов. Для профессиональных студий это означает возможность автоматизировать рутинные процессы раскадровки и превизуализации. Маркетологи смогут создавать рекламные кампании с единым виртуальным амбассадором, чей облик будет неизменным во всех роликах серии. Кроме того, технология снижает требования к вычислительным мощностям, необходимым для ручной корректировки дефектов генерации.

В долгосрочной перспективе это может привести к появлению полностью персонализированного контента, где сюжет и визуальный ряд адаптируются под зрителя, сохраняя при этом высочайший уровень художественной целостности. Интеграция подобных систем в существующие пайплайны производства может произойти в ближайшее время, что демократизирует процесс создания сложного визуального сторителлинга, делая его доступным не только крупным корпорациям, но и независимым творцам.

Источник: Хабр