Xiaomi ha dado un paso importante en el mundo de la inteligencia artificial al abrir el código fuente de su modelo multimodal de gran escala, MiMo-VL. Este salto tecnológico, anunciado oficialmente por Xiaomi, demuestra avances notables en tareas que combinan comprensión de imágenes, vídeo y lenguaje. El modelo está pensado para responder preguntas de forma generalizada y realizar razonamientos complejos. Xiaomi subraya que MiMo-VL supera con claridad a modelos de referencia como Qwen2.5-VL-7B, de tamaño similar, y se acerca a resultados propios de modelos especializados en tareas muy específicas como GUI Grounding. Esto posiciona a Xiaomi como uno de los protagonistas en lo que muchos llaman la era de los agentes inteligentes.
La versión MiMo-VL-7B mantiene las capacidades de razonamiento textual del MiMo-7B, pero añade el razonamiento multimodal con apenas 7.000 millones de parámetros. Esto es especialmente relevante si tenemos en cuenta que en pruebas realizadas en benchmarks como OlympiadBench, así como en competencias matemáticas como MathVision y MathVerse, el modelo de Xiaomi supera a rivales mucho más grandes, como los modelos de Alibaba con cerca de 10 veces más parámetros. Además, en evaluaciones internas dentro de Xiaomi, MiMo-VL-7B incluso supera a GPT-4o, un modelo propietario, convirtiéndose en la opción open source más potente del momento.
Xiaomi y la revolución del multimodal
MiMo-VL-7B no solo brilla con imágenes y texto. Su capacidad para abordar razonamientos complejos en imágenes y responder preguntas lo hacen una herramienta muy versátil. Incluso muestra potencial para tareas que requieren múltiples pasos, como operaciones con interfaz gráfica de usuario (GUI). Por ejemplo, puede asistir al usuario para añadir productos como el Xiaomi SU7 en su lista de deseos, algo que ya apunta a casos prácticos directos en el día a día de los usuarios de Xiaomi. Estas funcionalidades abren la puerta a agentes inteligentes que pueden gestionar comandos visuales y textuales de manera fluida y precisa.
La base de MiMo-VL-7B está en un extenso dataset preentrenado con 2,4 billones de tokens que incluyen pares imagen-texto, vídeo-texto y secuencias de operaciones GUI. Este volumen de datos, combinado con un proceso de entrenamiento por fases, permite afinar la proporción de tipos de datos que alimentan el modelo, especialmente para potenciar el razonamiento multimodal a largo plazo. Esta metodología hace que el modelo sea más capaz de entender contextos complejos que combinan diferentes tipos de información, uno de los grandes retos actuales en la IA.
Innovación en el entrenamiento: MIXED On-policy Reinforcement Learning
Un punto clave en el desarrollo de Xiaomi ha sido la introducción del algoritmo MORL (Mixed On-policy Reinforcement Learning). Este enfoque combina diferentes tipos de retroalimentación: razonamiento textual, percepción multimodal e inferencia, junto a aprendizaje por refuerzo con feedback humano (RLHF), todo en un mismo sistema. Gracias a esta combinación, el entrenamiento de MiMo-VL-7B no solo se estabiliza sino que acelera considerablemente, lo que mejora tanto el rendimiento en inferencias como la percepción del modelo y la experiencia general del usuario. Este mix es lo que marca la diferencia con otros modelos que no cuentan con esta sofisticación en el aprendizaje.
Además, Xiaomi ha liberado tanto la versión previa al aprendizaje por refuerzo como la que lo incorpora, junto con frameworks capaces de operar en más de 50 tareas diferentes. Todo esto está disponible en GitHub y viene acompañado de informes técnicos detallados que interesarán a desarrolladores e investigadores del campo de la IA multimodal. Con esta apertura, Xiaomi no solo posiciona su tecnología en el primer plano, sino que aporta recursos valiosos para que la comunidad potencie proyectos futuros en inteligencia artificial multimodal.
¿Quieres montarte tu propio sistema Smart Home?
¿Te gustaría empezar poco a poco teniendo Google Home, Alexa o Home Assistant para controlar las luces, calefacción y otros electrodomésticos de la casa? ¡Te ayudamos!
Entra en nuestro Grupo de Telégram de Domótica y también puedes entrar a nuestro Foro de Domótica donde podrás empezar a leer y preguntar tus dudas. Además, si quieres estar al tanto de las ofertas de domótica que salen a diario para poder hacerte un sistema de domótica low cost, entra a nuestro Canal de ofertas de domótica y no te perderás ni una o si lo prefieres y no tienes Telegram, puedes entrar a nuestra página de ofertas de domótica o Smart Home en Facebook. ¡Síguenos también en nuestro Facebook, Twitter o Instagram!
¡Te esperamos!Si también buscas otro tipo de ofertas, puedes echar un ojo a nuestros otros canales:
* Tecnología en general *
* Juguetes / consolas / Juegos de mesa *
* Manualidades *
Si no tienes Telegram puedes consultar todas las ofertas en Megabazar.es
Si también buscas otro tipo de ofertas, puedes echar un ojo a nuestros otros canales:
* Tecnología en general *
* Juguetes / consolas / Juegos de mesa *
* Manualidades *
Si no tienes Telegram puedes consultar todas las ofertas en Megabazar.es
* Tecnología en general * * Juguetes / consolas / Juegos de mesa * * Manualidades *
Descubre más desde Domótica en Casa
Suscríbete y recibe las últimas entradas en tu correo electrónico.