НЕЙРОвести — AI агрегатор новостей

Прогресс по VLM В то время как LLM бенчи насыщаются довольно быстро, прогресс по VLM, которые требует мультимодального ризонинга (то есть нужно понимать что-то по картинке) идет не так бодро. На графике приведен бенчмарк MMMU (Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark) — это тест для оценки знаний и логического мышления на уровне младших курсов бакалавриата в шести ключевых дисциплинах. Он проверяет, насколько хорошо система понимает и анализирует информацию из разных областей, используя текст, изображения и другие форматы данных (таблицы, например). Тест измеряет не просто запоминание фактов, а способность делать выводы и решать сложные задачи. Китайцы и тут хорошо колбасят в опенсорс! Из открытых моделей, на этом бенче в лидерах сейчас как раз китайцы: InternVL2.5-78B (ее на графике нет) и QVQ-72B-Preview / Qwen2.5-VL-72B (этой тоже на графике нет).

Изображение к новости: Прогресс по VLM

В то время как LLM бенчи насыщаю…
NeuroVesti
Прогресс по VLM В то время как LLM бенчи насыщаются довольно быстро, прогресс по VLM, которые требует мультимодального ризонинга (то есть нужно понимать что-то по картинке) идет не так бодро. На графике приведен бенчмарк MMMU (Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark) — это тест для оценки знаний и логического мышления на уровне младших курсов бакалавриата в шести ключевых дисциплинах. Он проверяет, насколько хорошо система понимает и анализирует информацию из разных областей, используя текст, изображения и другие форматы данных (таблицы, например). Тест измеряет не просто запоминание фактов, а способность делать выводы и решать сложные задачи. Китайцы и тут хорошо колбасят в опенсорс! Из открытых моделей, на этом бенче в лидерах сейчас как раз китайцы: InternVL2.5-78B (ее на графике нет) и QVQ-72B-Preview / Qwen2.5-VL-72B (этой тоже на графике нет).
Прогресс по VLM В то время как LLM бенчи насыщаются довольно быстро, прогресс по VLM, которые требует мультимодального ризонинга (то есть нужно понимать что-то по картинке) идет не так бодро. На графике приведен бенчмарк MMMU (Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark) — это тест для оценки знаний и логического мышления на уровне младших курсов бакалавриата в шести ключевых дисциплинах. Он проверяет, насколько хорошо система понимает и анализирует информацию из разных областей, используя текст, изображения и другие форматы данных (таблицы, например). Тест измеряет не просто запоминание фактов, а способность делать выводы и решать сложные задачи. Китайцы и тут хорошо колбасят в опенсорс! Из открытых моделей, на этом бенче в лидерах сейчас как раз китайцы: InternVL2.5-78B (ее на графике нет) и QVQ-72B-Preview / Qwen2.5-VL-72B (этой тоже на графике нет).
Дата публикации: 12.02.2025 17:45