Xiaomi の MiMo チームは、TileRT と協力して、MiMo-V2.5-Pro モデルのサービング モードである MiMo-V2.5-Pro-UltraSpeed をリリースしました。単一の 8 GPU コモディティ ノードを使用して、1 兆パラメータ モデルで 1 秒あたり 1000 を超えるトークンをデコードします。
コンピューティングの供給、エネルギー、データセンターの容量によって、AI をいかに安価に実行できるかが決まります。インフラストラクチャの変化は数週間後に推論コストに現れます。
概要は情報提供のみを目的としてまとめられています。全文についてはソース リンクを参照してください。デモのエントリは一例です。