Baidu acaba de lanzar PP-OCRv5, un nuevo modelo de reconocimiento óptico de caracteres (OCR) disponible en Hugging Face, tras la reciente presentación de su modelo de pensamiento profundo Ernie X1.1. Este sistema está diseñado para ofrecer un reconocimiento de texto eficiente y preciso, mientras mantiene una arquitectura ligera que supera las limitaciones de otros modelos de visión y lenguaje más ...
Baidu ha presentado Ernie X1.1, una nueva versión actualizada de su modelo de lenguaje de inteligencia artificial Ernie X1 que supone una mejora notable respecto a su predecesor. Este modelo se basa en el framework Ernie 4.5 de Baidu e integra un sistema híbrido de aprendizaje por refuerzo que combina varias metodologías de entrenamiento para potenciar las capacidades cognitivas del modelo. Esta a...
Xiaomi Group ha presentado ZipVoice, una nueva serie de modelos de texto a voz (TTS) desarrollada por su equipo Kaldi, basada en la arquitectura Flow Matching. Esta línea incluye ZipVoice, orientado a la síntesis de voz de un único hablante en zero-shot, y ZipVoice-Dialog, diseñado para la síntesis de voz conversacional en zero-shot. La llegada de ZipVoice marca un avance importante en la síntesis...
OpenAI se prepara para irrumpir en el sector del reclutamiento online con el lanzamiento previsto de una plataforma de empleo impulsada por inteligencia artificial a mediados de 2026. Esta iniciativa busca redefinir los procesos de contratación utilizando IA para mejorar la adecuación entre las necesidades específicas de las empresas y el conjunto de habilidades de los candidatos. OpenAI pretende ...
Moonshot AI ha lanzado Kimi K2, un nuevo modelo de lenguaje grande (LLM) disponible bajo una licencia MIT modificada y sin coste alguno. Kimi K2 ha logrado posicionarse rápidamente entre los diez mejores modelos de inteligencia artificial a nivel mundial en el ranking LMSys text arena, superando a DeepSeek, un modelo gratuito que hasta finales de 2024 destacó por su capacidad y apertura en el códi...
Google DeepMind ha presentado Gemini 2.5 Flash Image, conocido también como “nano-banana”, ampliando su disponibilidad a través de la app Gemini, la API Gemini, Google AI Studio y Vertex AI. Esta actualización busca solucionar un problema habitual en la edición de imágenes mediante IA: pequeños cambios que modifican por completo la composición original. Según Google, esta versión mejor...
Sharp presenta Poketomo, un robot compacto concebido para aprovechar la inteligencia artificial conversacional con el objetivo de combatir la soledad y ofrecer apoyo emocional. Este dispositivo incorpora la tecnología de chatbot CE-LLM propia de Sharp y adopta la forma de una suricata. Pesando aproximadamente 198 gramos y midiendo 12 centímetros de altura, Poketomo se adapta fácilmente a distintos...
OpenAI ha incorporado a Fidji Simo, exCEO de Instacart, como nueva “CEO de aplicaciones” de la compañía. En este rol, Simo supervisará cerca de 3.000 empleados y gestionará productos orientados al consumidor, como ChatGPT. Su nombramiento encaja con la estrategia de OpenAI para pasar de ser una startup caótica y poco rentable a una empresa tecnológica disciplinada y con posibilidad de ...
A pesar del reciente lanzamiento de GPT-5, la llegada del modelo R2 de DeepSeek sigue acumulando retrasos importantes. El desarrollo de R2 se ha visto dificultado por problemas técnicos persistentes durante el entrenamiento en hardware Huawei Ascend. Estas dificultades han llevado a DeepSeek a cambiar a plataformas Nvidia para la fase de entrenamiento, aunque mantienen el uso de los chips Huawei A...
Baichuan-M2 es un modelo grande orientado al ámbito médico que Baichuan Intelligent ha publicado como código abierto y se presenta como un avance relevante en modelos especializados para salud. La compañía sostiene que Baichuan-M2 alcanza el mejor rendimiento entre los modelos open source en HealthBench, el benchmark para IA médica, con una puntuación de 60,1, por encima del 57,6 reportado para el...
Tencent acaba de presentar una nueva familia de modelos de lenguaje compactos bajo la serie Hunyuan, con variantes que cuentan con 0,5, 1,8, 4 y 7 mil millones de parámetros. Estos modelos están especialmente diseñados para entornos de bajo consumo energético y escenarios de computación en el borde. Lo interesante es que ya están disponibles en GitHub y Hugging Face, y cada versión puede ejecutars...
Xiaomi ha dado un nuevo salto en el mundo de la inteligencia artificial con el lanzamiento oficial de MiDashengLM-7B, su gran modelo desarrollado para el entendimiento del audio. Este modelo no solo es totalmente open source, sino que también mejora de forma notable la velocidad y la precisión en comparación con otros modelos semejantes. En sus pruebas, Xiaomi ha conseguido reducir la latencia par...