Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки. Но это нормальная история, что более простые бенчмарки насыщаются, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition. Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем. А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать. Графиком поделился ресерчер из OpenAI.

NeuroVesti
Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки.
Но это нормальная история, что более простые бенчмарки насыщаются, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition.
Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем.
А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать.
Графиком поделился ресерчер из OpenAI.
Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки.
Но это нормальная история, что более простые бенчмарки насыщаются, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition.
Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем.
А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать.
Графиком поделился ресерчер из OpenAI.
Дата публикации: 11.02.2025 11:08