А вот и бенчи DeepSeek R1 0528 Прокачали знатно — модель теперь уверенно обходит Qwen 3 235B, но отстаёт от Gemini 2.5 Pro и o3, хоть и не так сильно. Прирост во многом объясняется выросшим количеством размышлений — в среднем 23к токенов, против 12к токенов у прошлой версии. Кроме прокачки по бенчам, модель теперь меньше галлюцинирует и лучше делает фронтенд (но до клода очевидно не дотягивает). Кроме релиза большой версии, цепочки рассуждений из новой DeepSeek R1 дистиллировали в Qwen 3 8B. После такого тюна модель стала заметно лучше на математических бенчах. Тюн ещё не опубликовали, но, надеюсь, он не заставит себя долго ждать. Веса

NeuroVesti
А вот и бенчи DeepSeek R1 0528
Прокачали знатно — модель теперь уверенно обходит Qwen 3 235B, но отстаёт от Gemini 2.5 Pro и o3, хоть и не так сильно. Прирост во многом объясняется выросшим количеством размышлений — в среднем 23к токенов, против 12к токенов у прошлой версии. Кроме прокачки по бенчам, модель теперь меньше галлюцинирует и лучше делает фронтенд (но до клода очевидно не дотягивает).
Кроме релиза большой версии, цепочки рассуждений из новой DeepSeek R1 дистиллировали в Qwen 3 8B. После такого тюна модель стала заметно лучше на математических бенчах. Тюн ещё не опубликовали, но, надеюсь, он не заставит себя долго ждать.
Веса
А вот и бенчи DeepSeek R1 0528
Прокачали знатно — модель теперь уверенно обходит Qwen 3 235B, но отстаёт от Gemini 2.5 Pro и o3, хоть и не так сильно. Прирост во многом объясняется выросшим количеством размышлений — в среднем 23к токенов, против 12к токенов у прошлой версии. Кроме прокачки по бенчам, модель теперь меньше галлюцинирует и лучше делает фронтенд (но до клода очевидно не дотягивает).
Кроме релиза большой версии, цепочки рассуждений из новой DeepSeek R1 дистиллировали в Qwen 3 8B. После такого тюна модель стала заметно лучше на математических бенчах. Тюн ещё не опубликовали, но, надеюсь, он не заставит себя долго ждать.
Веса
Дата публикации: 29.05.2025 13:02