NVIDIA has released Nemotron 3 Ultra, a 550B total (55B active) open Mixture-of-Experts hybrid Mamba-Transformer for long-running agents. It pairs a 1M-token context with up to ~6x higher inference throughput than compa…
Вычислительные ресурсы, энергия и мощность центров обработки данных определяют, насколько дешево может работать ИИ. Изменения в инфраструктуре отразятся на затратах на выводы несколько недель спустя.
Краткое изложение собрано только для информации — перейдите по ссылке на источник, чтобы получить полную информацию. Демонстрационные записи носят иллюстративный характер.