MiniMax выпустил MSA, спарсную注意力, основанную на Grouped Query Attention. Легковесная ветвь Index выбирает Top-k блоков ключ-значение для каждого запроса и группы GQA; основная ветвь внимания уделяет только этим блокам. Она соответствует GQA…
Новые модели сбрасывают границы возможностей и цены-качества. Команды пересматривают, на чем основываться, всякий раз, когда запуск меняет возможный размер за доллар.
Компании и модели, упомянутые в этой статье — откройте их страницы и узнайте цены в реальном времени.
Краткое изложение собрано только для информации — перейдите по ссылке на источник, чтобы получить полную информацию. Демонстрационные записи носят иллюстративный характер.