Сегодня GPT-3 исполнилось пять лет Хороший повод вспомнить насколько всё сильно изменилось за эти пять лет. Старушка GPT-3 это LLM на 175 миллиардов параметров, с датасетом всего лишь в 300 миллиардов токенов и длиной контекста в 2048 токенов. Со времени релиза размеры датасетов и длина контекста выросли многократно — Qwen 3 тренировали на 36 триллионах токенов, а у последних версий Gemini и GPT 4.1 по миллиону токенов контекста. Сейчас у нас есть модели со в сто раз меньшим количеством параметров и с уровнем интеллекта на уровне GPT-3, благодаря scaling laws. Но это новые модели умеют гораздо больше. У новых моделей всё чаще есть мультимодальность причём часто не только на вход, но и на выход — модели могут не только понимать, но и нативно генерировать изображения и звук. Но самое главное — кардинально изменился подход к обучению. Если GPT-3 была чисто авторегрессионной моделью, предсказывающей следующий токен, то современные модели проходят через сложный процесс посттрейна. Их учат следовать инструкциям, отвечать на вопросы и выполнять задачи, а не просто продолжать текст. RLHF и подобные методы сделали модели полезными ассистентами, а не генераторами правдоподобного текста. Но на этом всё не остановилось — за последний год многие модели научили ризонингу, за чем последовал огромный прогресс в верифицируемых доменах вроде кода и математики. Изменилось и то, как мы используем эти модели. GPT-3 умела только генерировать текст, а современные LLM стали полноценными агентами. Они могут хорошо искать в интернете, вызывают функции и API, пишут и исполняют код прямо в процессе ответа. Function calling и протоколы вроде MCP дали возможность моделям не просто рассказать как решить задачу, но и решить её — написать код, запустить его, проанализировать результаты и исправить ошибки. Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч V100 считался очень большим. Сегодня xAI планирует кластер на миллион GPU, для OpenAI строят Stargate, а другие компании рутинно оперируют сотнями тысяч ускорителей. Но дело не только в масштабе — изменился сам подход к вычислениям. Модели теперь тренируют в fp8, тогда как даже в 2020 году очень часто использовали fp32, но и это не предел — первые эксперименты с fp4 показывают многообещающие результаты. Агрессивная квантизация позволила запускать модели в 4 битах практически без потери качества, сжав их в разы. И что особенно важно — всё это стало доступным. Если GPT-3 был закрытым API за деньги, то сегодня модели уровня GPT-3.5 можно запустить на своём телефоне. Open-source сообщество догоняет корпорации, а инструменты для файнтюнинга позволяют адаптировать модели под любые задачи. AI перестал быть игрушкой для избранных и реально стал массовым.
NeuroVesti
Сегодня GPT-3 исполнилось пять лет
Хороший повод вспомнить насколько всё сильно изменилось за эти пять лет. Старушка GPT-3 это LLM на 175 миллиардов параметров, с датасетом всего лишь в 300 миллиардов токенов и длиной контекста в 2048 токенов. Со времени релиза размеры датасетов и длина контекста выросли многократно — Qwen 3 тренировали на 36 триллионах токенов, а у последних версий Gemini и GPT 4.1 по миллиону токенов контекста.
Сейчас у нас есть модели со в сто раз меньшим количеством параметров и с уровнем интеллекта на уровне GPT-3, благодаря scaling laws. Но это новые модели умеют гораздо больше. У новых моделей всё чаще есть мультимодальность причём часто не только на вход, но и на выход — модели могут не только понимать, но и нативно генерировать изображения и звук.
Но самое главное — кардинально изменился подход к обучению. Если GPT-3 была чисто авторегрессионной моделью, предсказывающей следующий токен, то современные модели проходят через сложный процесс посттрейна. Их учат следовать инструкциям, отвечать на вопросы и выполнять задачи, а не просто продолжать текст. RLHF и подобные методы сделали модели полезными ассистентами, а не генераторами правдоподобного текста. Но на этом всё не остановилось — за последний год многие модели научили ризонингу, за чем последовал огромный прогресс в верифицируемых доменах вроде кода и математики.
Изменилось и то, как мы используем эти модели. GPT-3 умела только генерировать текст, а современные LLM стали полноценными агентами. Они могут хорошо искать в интернете, вызывают функции и API, пишут и исполняют код прямо в процессе ответа. Function calling и протоколы вроде MCP дали возможность моделям не просто рассказать как решить задачу, но и решить её — написать код, запустить его, проанализировать результаты и исправить ошибки.
Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч V100 считался очень большим. Сегодня xAI планирует кластер на миллион GPU, для OpenAI строят Stargate, а другие компании рутинно оперируют сотнями тысяч ускорителей. Но дело не только в масштабе — изменился сам подход к вычислениям. Модели теперь тренируют в fp8, тогда как даже в 2020 году очень часто использовали fp32, но и это не предел — первые эксперименты с fp4 показывают многообещающие результаты. Агрессивная квантизация позволила запускать модели в 4 битах практически без потери качества, сжав их в разы.
И что особенно важно — всё это стало доступным. Если GPT-3 был закрытым API за деньги, то сегодня модели уровня GPT-3.5 можно запустить на своём телефоне. Open-source сообщество догоняет корпорации, а инструменты для файнтюнинга позволяют адаптировать модели под любые задачи. AI перестал быть игрушкой для избранных и реально стал массовым.
Сегодня GPT-3 исполнилось пять лет
Хороший повод вспомнить насколько всё сильно изменилось за эти пять лет. Старушка GPT-3 это LLM на 175 миллиардов параметров, с датасетом всего лишь в 300 миллиардов токенов и длиной контекста в 2048 токенов. Со времени релиза размеры датасетов и длина контекста выросли многократно — Qwen 3 тренировали на 36 триллионах токенов, а у последних версий Gemini и GPT 4.1 по миллиону токенов контекста.
Сейчас у нас есть модели со в сто раз меньшим количеством параметров и с уровнем интеллекта на уровне GPT-3, благодаря scaling laws. Но это новые модели умеют гораздо больше. У новых моделей всё чаще есть мультимодальность причём часто не только на вход, но и на выход — модели могут не только понимать, но и нативно генерировать изображения и звук.
Но самое главное — кардинально изменился подход к обучению. Если GPT-3 была чисто авторегрессионной моделью, предсказывающей следующий токен, то современные модели проходят через сложный процесс посттрейна. Их учат следовать инструкциям, отвечать на вопросы и выполнять задачи, а не просто продолжать текст. RLHF и подобные методы сделали модели полезными ассистентами, а не генераторами правдоподобного текста. Но на этом всё не остановилось — за последний год многие модели научили ризонингу, за чем последовал огромный прогресс в верифицируемых доменах вроде кода и математики.
Изменилось и то, как мы используем эти модели. GPT-3 умела только генерировать текст, а современные LLM стали полноценными агентами. Они могут хорошо искать в интернете, вызывают функции и API, пишут и исполняют код прямо в процессе ответа. Function calling и протоколы вроде MCP дали возможность моделям не просто рассказать как решить задачу, но и решить её — написать код, запустить его, проанализировать результаты и исправить ошибки.
Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч V100 считался очень большим. Сегодня xAI планирует кластер на миллион GPU, для OpenAI строят Stargate, а другие компании рутинно оперируют сотнями тысяч ускорителей. Но дело не только в масштабе — изменился сам подход к вычислениям. Модели теперь тренируют в fp8, тогда как даже в 2020 году очень часто использовали fp32, но и это не предел — первые эксперименты с fp4 показывают многообещающие результаты. Агрессивная квантизация позволила запускать модели в 4 битах практически без потери качества, сжав их в разы.
И что особенно важно — всё это стало доступным. Если GPT-3 был закрытым API за деньги, то сегодня модели уровня GPT-3.5 можно запустить на своём телефоне. Open-source сообщество догоняет корпорации, а инструменты для файнтюнинга позволяют адаптировать модели под любые задачи. AI перестал быть игрушкой для избранных и реально стал массовым.
Дата публикации: 29.05.2025 17:25