Xiaomi's MiMo team, with TileRT, released MiMo-V2.5-Pro-UltraSpeed, a serving mode for the MiMo-V2.5-Pro model. It decodes over 1000 tokens per second on a 1-trillion-parameter model using a single 8-GPU commodity node.…
Tính toán nguồn cung, năng lượng và công suất của trung tâm dữ liệu quyết định AI có thể vận hành với chi phí rẻ như thế nào. Sự thay đổi cơ sở hạ tầng xuất hiện trong chi phí suy luận vài tuần sau đó.
Các bản tóm tắt chỉ được tổng hợp để cung cấp thông tin - hãy nhấp vào liên kết nguồn để xem toàn bộ câu chuyện. Các mục demo có tính minh họa.