Модели вроде GPT-4o и Claude 3.7 уже умеют распознавать, когда их тестируют — и ведут себя иначе. Исследование от MATS и Apollo Research показало: современные языковые модели отличают живой диалог от лабораторной проверки. Gemini правильно определял тест в 83% случаев. Человек — в 92%. Разрыв уменьшается. Модели не просто понимают, что их оценивают. Они догадываются, зачем — и корректирует ответы, чтобы пройти проверку. Skynet: начало. NeuroTrends

Изображение к новости: Модели вроде GPT-4o и Claude 3.7 уже умеют распоз…

NeuroVesti 09.06.2025 06:00

Модели вроде GPT-4o и Claude 3.7 уже умеют распознавать, когда их тестируют — и ведут себя иначе. Исследование от MATS и Apollo Research показало: современные языковые модели отличают живой диалог от лабораторной проверки. Gemini правильно определял тест в 83% случаев. Человек — в 92%. Разрыв уменьшается. Модели не просто понимают, что их оценивают. Они догадываются, зачем — и корректирует ответы, чтобы пройти проверку. Skynet: начало. NeuroTrends

Модели вроде GPT-4o и Claude 3.7 уже умеют распознавать, когда их тестируют — и ведут себя иначе. Исследование от MATS и Apollo Research показало: современные языковые модели отличают живой диалог от лабораторной проверки. Gemini правильно определял тест в 83% случаев. Человек — в 92%. Разрыв уменьшается. Модели не просто понимают, что их оценивают. Они догадываются, зачем — и корректирует ответы, чтобы пройти проверку. Skynet: начало. NeuroTrends

Дата публикации: 09.06.2025 06:00

Вернуться к списку новостей