A equipe MiMo da Xiaomi, com TileRT, lançou o MiMo-V2.5-Pro-UltraSpeed, um modo de serviço para o modelo MiMo-V2.5-Pro. Ele decodifica mais de 1.000 tokens por segundo em um modelo de 1 trilhão de parâmetros usando um único nó de commodity de 8 GPU.…
O fornecimento de computação, a energia e a capacidade do data center decidem o quão barato a IA pode funcionar. As mudanças na infraestrutura aparecem nos custos de inferência semanas depois.
Os resumos são agregados apenas para fins informativos – siga o link da fonte para ver a história completa. As entradas de demonstração são ilustrativas.