Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки. Но это нормальная история, что более простые бенчмарки насыщаются, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition. Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем. А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать. Графиком поделился ресерчер из OpenAI.

Изображение к новости: Наглядно о том, как быстро сейчас идет прогресс в…

NeuroVesti 11.02.2025 11:08

Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки. Но это нормальная история, что более простые бенчмарки насыщаются, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition. Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем. А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать. Графиком поделился ресерчер из OpenAI.

Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки. Но это нормальная история, что более простые бенчмарки насыщаются, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition. Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем. А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать. Графиком поделился ресерчер из OpenAI.

Дата публикации: 11.02.2025 11:08

Вернуться к списку новостей