Xiaomi lanza un modelo de texto a voz, el MiMo-V2.5-TTS/ASR con control natural avanzado

Xiaomi ha presentado la serie MiMo-V2.5, un conjunto completo de modelos de voz diseñados para ofrecer capacidades tanto de síntesis vocal (TTS) como de reconocimiento automático del habla (ASR). Esta novedad está orientada a potenciar la nueva era de la interacción por voz basada en agentes inteligentes. La serie incluye tres modelos TTS y un modelo ASR recientemente liberado como código abierto, buscando mejorar la flexibilidad y precisión en la entrada y salida de voz.

La MiMo-V2.5-TTS cuenta con tres modelos diferenciados disponibles en la plataforma abierta MiMo de Xiaomi, con acceso gratuito limitado en el tiempo. Todos comparten una arquitectura común que incorpora instrucciones de estilo unificadas, control mediante etiquetas de audio y comprensión avanzada del texto. Estos modelos están dirigidos a diferentes aplicaciones de síntesis: el MiMo-V2.5-TTS ofrece voces predefinidas de alta calidad con un control detallado de velocidad, emoción y tono; MiMo-V2.5-TTS-VoiceDesign facilita la creación rápida de nuevos perfiles de voz a través de descripciones textuales breves; mientras que MiMo-V2.5-TTS-VoiceClone permite replicar voces con alta fidelidad usando muestras de audio mínimas, manteniendo la estabilidad en estilos y etiquetas.

Xiaomi impulsa la síntesis vocal con MiMo-V2.5-TTS

Esta serie TTS admite una dirección vocal muy precisa, desde órdenes cortas a instrucciones complejas, gestionando aspectos emocionales, estilísticos y prosódicos sin necesidad de parámetros estructurados. Permite además entradas multilayer para guiones que requieren coherencia en personajes, como en dramas de audio o NPCs en juegos interactivos, con control independiente de la interpretación línea a línea. La función de etiquetado de audio facilita la modulación emocional y estilística intratextual usando etiquetas bilingües y descripciones libres simultáneamente. Soporta combinaciones complejas de etiquetas para garantizar salidas expresivas y fiables.

El modelo muestra una comprensión robusta del texto, capaz de extraer ritmo, evolución emocional y características implícitas del hablante solo a partir del texto plano, generando interpretaciones vocales matizadas con prosodia natural y dinámica emocional.

En cuanto al reconocimiento, MiMo-V2.5-ASR está diseñado para superar entornos reales complejos, como códigos multilingües, ruido pesado, dialectos variados, interlocutores superpuestos y vocabulario específico (poesía, términos técnicos, nombres propios). Su rendimiento está entre los mejores del sector bajo múltiples condiciones. Soporta diversas variantes del chino —Wu, cantonés, minnan, Sichuanés— y mantiene una precisión competitiva en inglés complejo, como en el corpus AMI de reuniones laborales. Destaca en la transcripción fluida de conversaciones mixtas chino-inglés sin requerir etiquetas de idioma previas.

Además, este modelo transcribe con eficacia letras de canciones en chino e inglés dentro de pistas vocales e instrumentales mezcladas, resiste en entornos con ruido alto o micrófonos lejanos y realiza diarización multi-hablante para entornos de reuniones. Genera transcripciones puntuadas combinando señales acústicas y semánticas, minimizando la corrección manual.

Tanto los modelos TTS y sus APIs están accesibles en la plataforma MiMo y MiMo Studio para pruebas inmediatas. El modelo ASR, junto con su código y pesos, ha sido liberado completamente en código abierto, permitiendo a desarrolladores e investigadores adaptar o utilizar la tecnología en múltiples aplicaciones.

Este lanzamiento supone un avance importante en tecnologías vocales adaptables y de alto rendimiento, que pueden sustentar agentes conversacionales de próxima generación y la creación de contenidos controlados por voz. Xiaomi reafirma así su apuesta por impulsar la innovación en inteligencia artificial aplicada a la voz.

Fuente

¿Quieres montarte tu propio sistema Smart Home?¿Te gustaría empezar poco a poco teniendo Google Home, Alexa o Home Assistant para controlar las luces, calefacción y otros electrodomésticos de la casa? ¡Te ayudamos! Entra en nuestro Grupo de Telégram de Domótica y también puedes entrar a nuestro Foro de Domótica donde podrás empezar a leer y preguntar tus dudas. Además, si quieres estar al tanto de las ofertas de domótica que salen a diario para poder hacerte un sistema de domótica low cost, entra a nuestro Canal de ofertas de domótica y no te perderás ni una o si lo prefieres y no tienes Telegram, puedes entrar a nuestra página de ofertas de domótica o Smart Home en Facebook. ¡Síguenos también en nuestro Facebook, Twitter o Instagram! ¡Te esperamos! Si también buscas otro tipo de ofertas, puedes echar un ojo a nuestros otros canales: * Tecnología en general * * Juguetes / consolas / Juegos de mesa * * Manualidades * Si no tienes Telegram puedes consultar todas las ofertas en Megabazar.es