НЕЙРОвести — AI агрегатор новостей

А вот и первые независимые бенчи o4-mini Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается. В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.

Изображение к новости: А вот и первые независимые бенчи o4-mini

Artific…
Дополнительное изображение к новости: А вот и первые независимые бенчи o4-mini

Artific…
NeuroVesti
А вот и первые независимые бенчи o4-mini Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается. В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.
А вот и первые независимые бенчи o4-mini Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается. В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.
Дата публикации: 17.04.2025 10:23