El equipo MiMo de Xiaomi, con TileRT, lanzó MiMo-V2.5-Pro-UltraSpeed, un modo de servicio para el modelo MiMo-V2.5-Pro. Decodifica más de 1000 tokens por segundo en un modelo de 1 billón de parámetros utilizando un único nodo básico de 8 GPU.…
El suministro de computación, la energía y la capacidad de los centros de datos deciden qué tan barato puede funcionar la IA. Los cambios en la infraestructura aparecen en los costos de inferencia semanas después.
Los resúmenes se agregan únicamente con fines informativos; siga el enlace fuente para ver la historia completa. Las entradas de demostración son ilustrativas.