Модели вроде GPT-4o и Claude 3.7 уже умеют распознавать, когда их тестируют — и ведут себя иначе. Исследование от MATS и Apollo Research показало: современные языковые модели отличают живой диалог от лабораторной проверки. Gemini правильно определял тест в 83% случаев. Человек — в 92%. Разрыв уменьшается. Модели не просто понимают, что их оценивают. Они догадываются, зачем — и корректирует ответы, чтобы пройти проверку. Skynet: начало. NeuroTrends

NeuroVesti
Модели вроде GPT-4o и Claude 3.7 уже умеют распознавать, когда их тестируют — и ведут себя иначе.
Исследование от MATS и Apollo Research показало: современные языковые модели отличают живой диалог от лабораторной проверки.
Gemini правильно определял тест в 83% случаев. Человек — в 92%. Разрыв уменьшается.
Модели не просто понимают, что их оценивают. Они догадываются, зачем — и корректирует ответы, чтобы пройти проверку.
Skynet: начало.
NeuroTrends
Модели вроде GPT-4o и Claude 3.7 уже умеют распознавать, когда их тестируют — и ведут себя иначе.
Исследование от MATS и Apollo Research показало: современные языковые модели отличают живой диалог от лабораторной проверки.
Gemini правильно определял тест в 83% случаев. Человек — в 92%. Разрыв уменьшается.
Модели не просто понимают, что их оценивают. Они догадываются, зачем — и корректирует ответы, чтобы пройти проверку.
Skynet: начало.
NeuroTrends
Дата публикации: 09.06.2025 06:00