Яндекс открыл доступ к своей базовой модели YandexGPT-5 Lite Известный технологический гигант Яндекс представил в открытом доступе базовую модель YandexGPT-5 Lite на 8 миллиардов параметров. Модель превосходит аналоги LLaMA и Qwen по производительности, особенно в обработке русского языка. ## Направление обучения и результаты YandexGPT-5 Lite обучали с нуля, в то время как старшая версия Pro была обучена гибридно: инициализация весов происходила с чекпоинта Qwen 2.5 32B Base, затем был запущен полноценный пайплайн предварительного обучения на собственных данных Яндекса. Это дало возможность экономить ресурсы и ускорить обучение. Обучение Lite проводилось на датасете из 15 триллионов токенов (30% - русский язык, 70% - английский). Содержание датасета распределено следующим образом: код составляет только 15%, математика – 10%. Именно поэтому в этих задачах модель уступает Qwen.

Изображение к новости: **Яндекс открыл доступ к своей базовой модели Yan…

NeuroVesti 26.02.2025 19:18

**Яндекс открыл доступ к своей базовой модели YandexGPT-5 Lite** Известный технологический гигант Яндекс представил в открытом доступе базовую модель YandexGPT-5 Lite на 8 миллиардов параметров. Модель превосходит аналоги LLaMA и Qwen по производительности, особенно в обработке русского языка. ## Направление обучения и результаты YandexGPT-5 Lite обучали с нуля, в то время как старшая версия Pro была обучена гибридно: инициализация весов происходила с чекпоинта Qwen 2.5 32B Base, затем был запущен полноценный пайплайн предварительного обучения на собственных данных Яндекса. Это дало возможность экономить ресурсы и ускорить обучение. Обучение Lite проводилось на датасете из 15 триллионов токенов (30% - русский язык, 70% - английский). Содержание датасета распределено следующим образом: код составляет только 15%, математика – 10%. Именно поэтому в этих задачах модель уступает Qwen.

**Яндекс открыл доступ к своей базовой модели YandexGPT-5 Lite** Известный технологический гигант Яндекс представил в открытом доступе базовую модель YandexGPT-5 Lite на 8 миллиардов параметров. Модель превосходит аналоги LLaMA и Qwen по производительности, особенно в обработке русского языка. ## Направление обучения и результаты YandexGPT-5 Lite обучали с нуля, в то время как старшая версия Pro была обучена гибридно: инициализация весов происходила с чекпоинта Qwen 2.5 32B Base, затем был запущен полноценный пайплайн предварительного обучения на собственных данных Яндекса. Это дало возможность экономить ресурсы и ускорить обучение. Обучение Lite проводилось на датасете из 15 триллионов токенов (30% - русский язык, 70% - английский). Содержание датасета распределено следующим образом: код составляет только 15%, математика – 10%. Именно поэтому в этих задачах модель уступает Qwen.

Дата публикации: 26.02.2025 19:18

Вернуться к списку новостей