Xiaomi's MiMo team, with TileRT, released MiMo-V2.5-Pro-UltraSpeed, a serving mode for the MiMo-V2.5-Pro model. It decodes over 1000 tokens per second on a 1-trillion-parameter model using a single 8-GPU commodity node.…
Menghitung pasokan, energi, dan kapasitas pusat data menentukan seberapa murah AI dapat dijalankan. Pergeseran infrastruktur muncul dalam biaya inferensi beberapa minggu kemudian.
Ringkasan dikumpulkan untuk informasi saja — ikuti tautan sumber untuk cerita selengkapnya. Entri demo bersifat ilustratif.