NVIDIA has released Nemotron 3 Ultra, a 550B total (55B active) open Mixture-of-Experts hybrid Mamba-Transformer for long-running agents. It pairs a 1M-token context with up to ~6x higher inference throughput than compa…
コンピューティングの供給、エネルギー、データセンターの容量によって、AI をいかに安価に実行できるかが決まります。インフラストラクチャの変化は数週間後に推論コストに現れます。
概要は情報提供のみを目的としてまとめられています。全文についてはソース リンクを参照してください。デモのエントリは一例です。