Xiaomi ha presentado Xiaomi-Robotics-0, un modelo Visual-Language-Action (VLA) de código abierto con 4.700 millones de parámetros. Este sistema combina la comprensión visual y del lenguaje con capacidades de ejecución en tiempo real con alto rendimiento, alcanzando resultados punteros en múltiples benchmarks. Destaca especialmente en tres entornos de simulación populares y ha demostrado una notable generalización a tareas físicas con robots reales, ejecutando acciones fluidas y responsivas en tiempo real incluso usando GPUs de gama de consumo. Esta novedad reafirma el compromiso de Xiaomi con la robótica avanzada y la inteligencia artificial aplicada al control físico de robots.
El núcleo de la inteligencia física de Xiaomi-Robotics-0 es un sistema cerrado que integra percepción, toma de decisiones y ejecución. Para equilibrar la comprensión general con el control preciso de movimientos finos, Xiaomi emplea una arquitectura Mixture-of-Transformers (MoT). Esta se compone de dos módulos principales:

Xiaomi y la arquitectura del modelo Xiaomi-Robotics-0
El primer componente, el Visual-Language Model (VLM), actúa como base cognitiva. Interpreta instrucciones humanas ambiguas —como “dobla la toalla, por favor”— y extrae relaciones espaciales a partir de imágenes de alta resolución. Por su parte, el módulo Action Expert utiliza un Diffusion Transformer (DiT) multicapa especializado en generar secuencias de movimientos suaves y de alta frecuencia. En lugar de producir acciones individuales discretas, genera bloques de acciones empleando técnicas de flow-matching que garantizan una ejecución precisa y fluida.

Una dificultad común en modelos VLA es la pérdida de capacidades de comprensión iniciales tras entrenar para manipulación física. Xiaomi rompe con esta limitación mediante un entrenamiento mixto que integra datos multimodales y de acción. Así, mantiene habilidad robusta en detección de objetos, respuesta a preguntas visuales y razonamiento lógico, al tiempo que aprende a operar el robot.
Entrenamiento y optimización para alta precisión
El proceso formativo comienza con una fase de Action Proposal en la que el VLM predice múltiples distribuciones de acción junto con la comprensión visual, alineando de forma conjunta los espacios de características y acciones. Después, se congela el VLM mientras el DiT se entrena para reconstruir secuencias de acción precisas a partir de ruido, utilizando exclusivamente funciones clave-valor (KV) para la generación condicional. Este método produce movimientos muy suaves y exactos.
Para evitar discontinuidades causadas por latencia en entornos reales, el equipo de Xiaomi implementó inferencia asíncrona, separando el cómputo del modelo de la actuación del robot. Entre otras innovaciones destacan:
– Clean Action Prefix, que incorpora la acción previa en el procesamiento actual para mantener continuidad temporal y reducir temblores.
– Λ-shape Attention Mask, una máscara de atención especializada que da prioridad a la retroalimentación visual actual frente al historial, mejorando la respuesta frente a cambios repentinos en el entorno.

Resultados y aplicaciones prácticas del modelo Xiaomi-Robotics-0
En evaluación, Xiaomi-Robotics-0 lidera benchmarks de simulación como LIBERO, CALVIN y SimplerEnv, superando a una treintena de modelos competidores. La prueba en campo con una plataforma robótica de doble brazo evidenció una coordinación ojo-mano sobresaliente en tareas complejas y de larga duración, como el desmontaje de bloques y el plegado de toallas. El sistema maneja objetos rígidos y flexibles con un nivel constante de destreza. Además, el modelo conserva fuertes competencias multimodales, algo que modelos VLA anteriores habían perdido en entornos físicos y embodied.
Xiaomi ha hecho público el acceso libre al modelo Xiaomi-Robotics-0, compartiendo el código fuente y los pesos entrenados para fomentar la investigación y desarrollo en robótica inteligente avanzada.


<
¿Quieres montarte tu propio sistema Smart Home?
¿Te gustaría empezar poco a poco teniendo Google Home, Alexa o Home Assistant para controlar las luces, calefacción y otros electrodomésticos de la casa? ¡Te ayudamos!
Entra en nuestro Grupo de Telégram de Domótica y también puedes entrar a nuestro Foro de Domótica donde podrás empezar a leer y preguntar tus dudas. Además, si quieres estar al tanto de las ofertas de domótica que salen a diario para poder hacerte un sistema de domótica low cost, entra a nuestro Canal de ofertas de domótica y no te perderás ni una o si lo prefieres y no tienes Telegram, puedes entrar a nuestra página de ofertas de domótica o Smart Home en Facebook. ¡Síguenos también en nuestro Facebook, Twitter o Instagram!
¡Te esperamos!Si también buscas otro tipo de ofertas, puedes echar un ojo a nuestros otros canales:
* Tecnología en general *
* Juguetes / consolas / Juegos de mesa *
* Manualidades *
Si no tienes Telegram puedes consultar todas las ofertas en Megabazar.es
Si también buscas otro tipo de ofertas, puedes echar un ojo a nuestros otros canales:
* Tecnología en general *
* Juguetes / consolas / Juegos de mesa *
* Manualidades *
Si no tienes Telegram puedes consultar todas las ofertas en Megabazar.es
* Tecnología en general * * Juguetes / consolas / Juegos de mesa * * Manualidades *
Descubre más desde Domótica en Casa
Suscríbete y recibe las últimas entradas en tu correo electrónico.