Видео дайджест Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!) Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек. SkyReels-V2 SOTA опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов. SkyReels • SkyCaptioner-V1 FramePack Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2 кадра/сек. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок. FramePack MAGI-1 Новая SOTA в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц. Демо на Magi.sand.ai • GitHub — Magi-1 Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется. Другие плюшки: - Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame. GitHub • ComfyUI workflow - Avatar FX — Hedra здорового человека фаната Character AI: теперь со своей виртуальной вайфу можно обмениваться кружочками почти как в телеграмм. Скоро и до видео-звонков дойдём. Больше никаких подробностей (опенсорса тоже) — не могу выбросить из головы мысли о «Бегущем по лезвию». Character.ai - Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе. Участникам конкурса дарят 300 000 кредитов. Регистрация На этом откланяюсь. Это было тяжко. В посте по одному видео от каждого генератора по о очереди, а свои тесты закидывайте в комменты.
NeuroVesti
Видео дайджест
Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)
Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.
SkyReels-V2
SOTA опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReels • SkyCaptioner-V1
FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2 кадра/сек. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack
MAGI-1
Новая SOTA в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.ai • GitHub — Magi-1
Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.
Другие плюшки:
- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHub • ComfyUI workflow
- Avatar FX — Hedra здорового человека фаната Character AI: теперь со своей виртуальной вайфу можно обмениваться кружочками почти как в телеграмм. Скоро и до видео-звонков дойдём. Больше никаких подробностей (опенсорса тоже) — не могу выбросить из головы мысли о «Бегущем по лезвию».
Character.ai
- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.
Участникам конкурса дарят 300 000 кредитов.
Регистрация
На этом откланяюсь. Это было тяжко. В посте по одному видео от каждого генератора по о очереди, а свои тесты закидывайте в комменты.
Видео дайджест
Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)
Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.
SkyReels-V2
SOTA опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReels • SkyCaptioner-V1
FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2 кадра/сек. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack
MAGI-1
Новая SOTA в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.ai • GitHub — Magi-1
Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.
Другие плюшки:
- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHub • ComfyUI workflow
- Avatar FX — Hedra здорового человека фаната Character AI: теперь со своей виртуальной вайфу можно обмениваться кружочками почти как в телеграмм. Скоро и до видео-звонков дойдём. Больше никаких подробностей (опенсорса тоже) — не могу выбросить из головы мысли о «Бегущем по лезвию».
Character.ai
- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.
Участникам конкурса дарят 300 000 кредитов.
Регистрация
На этом откланяюсь. Это было тяжко. В посте по одному видео от каждого генератора по о очереди, а свои тесты закидывайте в комменты.
Дата публикации: 28.04.2025 14:18