NVIDIA has released Nemotron 3 Ultra, a 550B total (55B active) open Mixture-of-Experts hybrid Mamba-Transformer for long-running agents. It pairs a 1M-token context with up to ~6x higher inference throughput than compa…
O fornecimento de computação, a energia e a capacidade do data center decidem o quão barato a IA pode funcionar. As mudanças na infraestrutura aparecem nos custos de inferência semanas depois.
Os resumos são agregados apenas para fins informativos – siga o link da fonte para ver a história completa. As entradas de demonstração são ilustrativas.