НЕЙРОвести — AI агрегатор новостей

Вышел доклад от François Chollet, который я слушал ещё 2 недели назад в Сан-Франциско на YC AI Startup School. Это, кстати, был один из 3 самых интересных докладов (другие два - это Карпатый и Chelsea Finn). В докладе Шолле показывает, что до AGI нам еще далековато, что существующие бенчи слишком простые, и показывает свой новый бенч ARC-AGI-2. На новом бенче средний человек набирает 60%, а команда из нескольких — 100%. В то время как o3-high выбивает только 6.5%, а Claude Opus 4 (Thinking 16K) - 8.6%. Показывая, что пропасть между лучшими LLM и человеком тут огромная. Старый ARC-AGI-1 продержался пять лет, потому что он был вызовом для обычных LLM, которые хороши в запоминании, но пасуют когда дело доходит до настоящего мышления. Ризонеры наконец-то смогли его решать, поэтому сделали ARC-AGI-2, который опять же бьёт в самую слабую точку современных LLM — их способность к подвижному интеллекту (fluid intelligence). Он проверяет умение работать с символами, многошаговыми правилами и контекстом, где тупой перебор не работает. Шолле ожидает, что этот бенч не продержится так долго, потому что именно в ризонинге будет происходить самый быстрый прогресс в ближайшие годы. Но ARC-2 — это не предел. Шолле уже затизерил ARC-AGI-3, который должен выйти в 2026 году. Он будет ещё жёстче — бенчмарк будет построен в виде интерактивных игр, требующих от ИИ ставить цели и по-настоящему адаптироваться, а не подбирать решение грубой силой. Фокус этого бенча — эффективность обучения, сравнимую с человеческой. Системы должны будут не просто решить задачу, а сделать это быстро и с небольшим количеством примеров. ARC-3 целится в то, чтобы продержаться больше трёх лет. В конце он объявил о создании своей новой лабы — NDEA. Их цель — строить тот самый ИИ, который нужен для настоящих прорывов: самообучающийся движок для синтеза программ, способный не на автоматизацию, а на изобретения. По сути, они хотят создать систему, которая сможет ускорять научный прогресс, а бенчмарки ARC будут для них главным мерилом успеха. https://www.youtube.com/watch?v=5QcCeSsNRks

Изображение к новости: Вышел доклад от François Chollet, который я слуша…
NeuroVesti
Вышел доклад от François Chollet, который я слушал ещё 2 недели назад в Сан-Франциско на YC AI Startup School. Это, кстати, был один из 3 самых интересных докладов (другие два - это Карпатый и Chelsea Finn). В докладе Шолле показывает, что до AGI нам еще далековато, что существующие бенчи слишком простые, и показывает свой новый бенч ARC-AGI-2. На новом бенче средний человек набирает 60%, а команда из нескольких — 100%. В то время как o3-high выбивает только 6.5%, а Claude Opus 4 (Thinking 16K) - 8.6%. Показывая, что пропасть между лучшими LLM и человеком тут огромная. Старый ARC-AGI-1 продержался пять лет, потому что он был вызовом для обычных LLM, которые хороши в запоминании, но пасуют когда дело доходит до настоящего мышления. Ризонеры наконец-то смогли его решать, поэтому сделали ARC-AGI-2, который опять же бьёт в самую слабую точку современных LLM — их способность к подвижному интеллекту (fluid intelligence). Он проверяет умение работать с символами, многошаговыми правилами и контекстом, где тупой перебор не работает. Шолле ожидает, что этот бенч не продержится так долго, потому что именно в ризонинге будет происходить самый быстрый прогресс в ближайшие годы. Но ARC-2 — это не предел. Шолле уже затизерил ARC-AGI-3, который должен выйти в 2026 году. Он будет ещё жёстче — бенчмарк будет построен в виде интерактивных игр, требующих от ИИ ставить цели и по-настоящему адаптироваться, а не подбирать решение грубой силой. Фокус этого бенча — эффективность обучения, сравнимую с человеческой. Системы должны будут не просто решить задачу, а сделать это быстро и с небольшим количеством примеров. ARC-3 целится в то, чтобы продержаться больше трёх лет. В конце он объявил о создании своей новой лабы — NDEA. Их цель — строить тот самый ИИ, который нужен для настоящих прорывов: самообучающийся движок для синтеза программ, способный не на автоматизацию, а на изобретения. По сути, они хотят создать систему, которая сможет ускорять научный прогресс, а бенчмарки ARC будут для них главным мерилом успеха. https://www.youtube.com/watch?v=5QcCeSsNRks
Вышел доклад от François Chollet, который я слушал ещё 2 недели назад в Сан-Франциско на YC AI Startup School. Это, кстати, был один из 3 самых интересных докладов (другие два - это Карпатый и Chelsea Finn). В докладе Шолле показывает, что до AGI нам еще далековато, что существующие бенчи слишком простые, и показывает свой новый бенч ARC-AGI-2. На новом бенче средний человек набирает 60%, а команда из нескольких — 100%. В то время как o3-high выбивает только 6.5%, а Claude Opus 4 (Thinking 16K) - 8.6%. Показывая, что пропасть между лучшими LLM и человеком тут огромная. Старый ARC-AGI-1 продержался пять лет, потому что он был вызовом для обычных LLM, которые хороши в запоминании, но пасуют когда дело доходит до настоящего мышления. Ризонеры наконец-то смогли его решать, поэтому сделали ARC-AGI-2, который опять же бьёт в самую слабую точку современных LLM — их способность к подвижному интеллекту (fluid intelligence). Он проверяет умение работать с символами, многошаговыми правилами и контекстом, где тупой перебор не работает. Шолле ожидает, что этот бенч не продержится так долго, потому что именно в ризонинге будет происходить самый быстрый прогресс в ближайшие годы. Но ARC-2 — это не предел. Шолле уже затизерил ARC-AGI-3, который должен выйти в 2026 году. Он будет ещё жёстче — бенчмарк будет построен в виде интерактивных игр, требующих от ИИ ставить цели и по-настоящему адаптироваться, а не подбирать решение грубой силой. Фокус этого бенча — эффективность обучения, сравнимую с человеческой. Системы должны будут не просто решить задачу, а сделать это быстро и с небольшим количеством примеров. ARC-3 целится в то, чтобы продержаться больше трёх лет. В конце он объявил о создании своей новой лабы — NDEA. Их цель — строить тот самый ИИ, который нужен для настоящих прорывов: самообучающийся движок для синтеза программ, способный не на автоматизацию, а на изобретения. По сути, они хотят создать систему, которая сможет ускорять научный прогресс, а бенчмарки ARC будут для них главным мерилом успеха. https://www.youtube.com/watch?v=5QcCeSsNRks
Дата публикации: 07.07.2025 18:59