**Яндекс открыл доступ к своей базовой модели YandexGPT-5 Lite** Известный технологический гигант Яндекс представил в открытом доступе базовую модель YandexGPT-5 Lite на 8 миллиардов параметров. Модель превосходит аналоги LLaMA и Qwen по производительности, особенно в обработке русского языка. ## Направление обучения и результаты YandexGPT-5 Lite обучали с нуля, в то время как старшая версия Pro была обучена гибридно: инициализация весов происходила с чекпоинта Qwen 2.5 32B Base, затем был запущен полноценный пайплайн предварительного обучения на собственных данных Яндекса. Это дало возможность экономить ресурсы и ускорить обучение. Обучение Lite проводилось на датасете из 15 триллионов токенов (30% - русский язык, 70% - английский). Содержание датасета распределено следующим образом: код составляет только 15%, математика – 10%. Именно поэтому в этих задачах модель уступает Qwen.

NeuroVesti
**Яндекс открыл доступ к своей базовой модели YandexGPT-5 Lite**
Известный технологический гигант Яндекс представил в открытом доступе базовую модель YandexGPT-5 Lite на 8 миллиардов параметров. Модель превосходит аналоги LLaMA и Qwen по производительности, особенно в обработке русского языка.
## Направление обучения и результаты
YandexGPT-5 Lite обучали с нуля, в то время как старшая версия Pro была обучена гибридно: инициализация весов происходила с чекпоинта Qwen 2.5 32B Base, затем был запущен полноценный пайплайн предварительного обучения на собственных данных Яндекса. Это дало возможность экономить ресурсы и ускорить обучение.
Обучение Lite проводилось на датасете из 15 триллионов токенов (30% - русский язык, 70% - английский). Содержание датасета распределено следующим образом: код составляет только 15%, математика – 10%. Именно поэтому в этих задачах модель уступает Qwen.
**Яндекс открыл доступ к своей базовой модели YandexGPT-5 Lite**
Известный технологический гигант Яндекс представил в открытом доступе базовую модель YandexGPT-5 Lite на 8 миллиардов параметров. Модель превосходит аналоги LLaMA и Qwen по производительности, особенно в обработке русского языка.
## Направление обучения и результаты
YandexGPT-5 Lite обучали с нуля, в то время как старшая версия Pro была обучена гибридно: инициализация весов происходила с чекпоинта Qwen 2.5 32B Base, затем был запущен полноценный пайплайн предварительного обучения на собственных данных Яндекса. Это дало возможность экономить ресурсы и ускорить обучение.
Обучение Lite проводилось на датасете из 15 триллионов токенов (30% - русский язык, 70% - английский). Содержание датасета распределено следующим образом: код составляет только 15%, математика – 10%. Именно поэтому в этих задачах модель уступает Qwen.
Дата публикации: 26.02.2025 19:18