Qwen 3 — открытые гибридные ризонеры Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее. Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег /no_think. Такой фичей могут похвастаться ещё только Claude 3.7 и Gemini 2.5 Flash. А ещё разработчики заявляют, что у Qwen 3 сильно улучшили тул-юз, хотя данных бенчей особо не приводят, в любом случае мы всё и так узнаем через пару дней. Но есть и ложка дёгтя — модели не мультимодальные, а мультимодальные квены обычно релизятся через 3-4 месяца 😢. Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai. Веса Блогпост


NeuroVesti
Qwen 3 — открытые гибридные ризонеры
Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее.
Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег /no_think. Такой фичей могут похвастаться ещё только Claude 3.7 и Gemini 2.5 Flash. А ещё разработчики заявляют, что у Qwen 3 сильно улучшили тул-юз, хотя данных бенчей особо не приводят, в любом случае мы всё и так узнаем через пару дней. Но есть и ложка дёгтя — модели не мультимодальные, а мультимодальные квены обычно релизятся через 3-4 месяца 😢.
Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai.
Веса
Блогпост
Qwen 3 — открытые гибридные ризонеры
Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее.
Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег /no_think. Такой фичей могут похвастаться ещё только Claude 3.7 и Gemini 2.5 Flash. А ещё разработчики заявляют, что у Qwen 3 сильно улучшили тул-юз, хотя данных бенчей особо не приводят, в любом случае мы всё и так узнаем через пару дней. Но есть и ложка дёгтя — модели не мультимодальные, а мультимодальные квены обычно релизятся через 3-4 месяца 😢.
Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai.
Веса
Блогпост
Дата публикации: 29.04.2025 04:19