En el último día de Ship-mas, OpenAI ha presentado una nueva serie de modelos centrados en capacidades avanzadas de razonamiento, denominados o3 y o3-mini. Aunque no estarán disponibles para su uso público en este momento, OpenAI ha invitado a la comunidad investigadora a solicitar la evaluación de estos modelos antes de su lanzamiento definitivo, cuyo calendario aún no está fijado. Es relevante resaltar que OpenAI ha decidido omitir la segunda iteración, o2, para evitar confusiones con O2, la firma británica de telecomunicaciones.
El término “razonamiento” ha cobrado protagonismo en el sector de la inteligencia artificial, haciendo referencia a la habilidad del modelo para descomponer tareas en componentes más manejables. Este enfoque busca ofrecer mejores resultados y mayor transparencia en el proceso de toma de decisiones, alejándose así de modelos tradicionales que solo brindan respuestas finales. Según OpenAI, el modelo o3 ha mostrado importantes avances en comparación con sus predecesores, logrando un incremento del 22.8 por ciento en su rendimiento en evaluaciones de codificación denominadas SWE-Bench Verified. Además, ha superado en desafíos de programación competitiva al Chief Scientist de OpenAI.
Respecto a su capacidad matemática, el o3 casi alcanzó la excelencia en AIME 2024, una exigente competición de matemáticas, en la que solo falló una pregunta. También obtuvo un impresionante 87.7 por ciento en GPQA Diamond, un estándar para consultas científicas de nivel experto. Al esforzarse en tareas matemáticas y de razonamiento que suelen confundir a la inteligencia artificial, el o3 fue capaz de resolver el 25.2 por ciento de las preguntas, un rendimiento que contrasta notablemente con otros modelos que generalmente superan solo el 2 por ciento de efectividad.
Avances en la alineación deliberativa
Paralelamente a estos avances, OpenAI ha presentado nuevas investigaciones sobre la alineación deliberativa. Este enfoque exige que los sistemas de inteligencia artificial tomen decisiones de seguridad a través de un proceso de razonamiento metódico en lugar de seguir estrictamente protocolos binarios de sí/no. Este cambio obliga a los modelos a evaluar si las solicitudes de los usuarios cumplen con las políticas de seguridad de OpenAI basándose en una justificación exhaustiva. Las pruebas iniciales en el modelo o1 han mostrado una mejora considerable en el cumplimiento de las directrices de seguridad comparado con iteraciones anteriores, incluyendo GPT-4.