ПРОЕКТ: МоЧА Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием) Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете. Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают. Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но что-то может и придумают. Ещё интересно, что тренили в 4 стадии: сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка. Генерация, конечно же не онлайн. Пейпер Project page

NeuroVesti 02.04.2025 08:04

ПРОЕКТ: МоЧА Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием) Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете. Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают. Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но что-то может и придумают. Ещё интересно, что тренили в 4 стадии: сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка. Генерация, конечно же не онлайн. Пейпер Project page

ПРОЕКТ: МоЧА Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием) Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете. Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают. Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но что-то может и придумают. Ещё интересно, что тренили в 4 стадии: сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка. Генерация, конечно же не онлайн. Пейпер Project page

Дата публикации: 02.04.2025 08:04

Вернуться к списку новостей