**DeepSeek запускает "Неделю open source": первый релиз - FlashMLA** Опенсорс-неделя в DeepSeek открылась с выпуском **FlashMLA**, нового компонента для моделей их разработки. Новинка представляет собой оптимизированный тип аттеншна, называемый Multi-head Latent Attention (MLA), который требует значительно меньше памяти на KV кэш по сравнению со стандартным Group Query Attention. ## Эффективность за счет экономии Главное преимущество MLA заключается в более дешевой генерации токенов, что делает его привлекательным для индустрии. Однако есть и обратная сторона медали: текущие кастомные ядра для инференса несовместимы с моделями DeepSeek. В результате приходится использовать менее скоростной `torch`. Несмотря на это, быстродействующие кастомные ядра для MLA обещают повышать эффективность инференса у API-провайдеров.

NeuroVesti
**DeepSeek запускает "Неделю open source": первый релиз - FlashMLA**
Опенсорс-неделя в DeepSeek открылась с выпуском **FlashMLA**, нового компонента для моделей их разработки. Новинка представляет собой оптимизированный тип аттеншна, называемый Multi-head Latent Attention (MLA), который требует значительно меньше памяти на KV кэш по сравнению со стандартным Group Query Attention.
## Эффективность за счет экономии
Главное преимущество MLA заключается в более дешевой генерации токенов, что делает его привлекательным для индустрии. Однако есть и обратная сторона медали: текущие кастомные ядра для инференса несовместимы с моделями DeepSeek. В результате приходится использовать менее скоростной `torch`.
Несмотря на это, быстродействующие кастомные ядра для MLA обещают повышать эффективность инференса у API-провайдеров.
**DeepSeek запускает "Неделю open source": первый релиз - FlashMLA**
Опенсорс-неделя в DeepSeek открылась с выпуском **FlashMLA**, нового компонента для моделей их разработки. Новинка представляет собой оптимизированный тип аттеншна, называемый Multi-head Latent Attention (MLA), который требует значительно меньше памяти на KV кэш по сравнению со стандартным Group Query Attention.
## Эффективность за счет экономии
Главное преимущество MLA заключается в более дешевой генерации токенов, что делает его привлекательным для индустрии. Однако есть и обратная сторона медали: текущие кастомные ядра для инференса несовместимы с моделями DeepSeek. В результате приходится использовать менее скоростной `torch`.
Несмотря на это, быстродействующие кастомные ядра для MLA обещают повышать эффективность инференса у API-провайдеров.
Дата публикации: 24.02.2025 15:51