DeepSeek, la destacada firma de inteligencia artificial, ha lanzado una importante actualización de su modelo de lenguaje grande (LLM), denominado DeepSeek-V3-0324. Este modelo revisado se construye sobre la base del original V3, que apareció en diciembre de 2024, y presenta avances significativos en rendimiento, requisitos del sistema y costos operativos en comparación con modelos competidores, especialmente los desarrollados por OpenAI, como la línea GPT.
La serie V3 ha llamado la atención por su capacidad de operar de manera eficiente con menores exigencias de hardware y tiempos de entrenamiento reducidos, además de ofrecer costos de API más bajos sin sacrificar niveles de rendimiento competitivos. Con DeepSeek-V3-0324, la compañía introduce un modelo de IA no razonante. Este enfoque se centra en ofrecer respuestas rápidas sin el procesamiento deliberativo que se veía en modelos anteriores como el R1 de DeepSeek.
La última variante cuenta con un impresionante número de parámetros que asciende a 685 mil millones, convirtiéndolo en uno de los LLMs más grandes de acceso público hoy en día. Según diversos benchmarks, este modelo actualizado ha demostrado una mejora de rendimiento que oscila entre el 5,3% y el 19,8% respecto a su predecesor, colocándose en una competitividad cercana a los sistemas de inteligencia artificial líderes, incluyendo variantes avanzadas como GPT-4.5.
Además, DeepSeek-V3-0324 destaca por sus capacidades refinadas en aplicaciones específicas. Su destreza mejorada en la creación de diseños web visualmente atractivos y su capacidad para desarrollar interfaces front-end para juegos en línea representan avances clave. También se ha mostrado con un rendimiento superior en tareas de búsqueda, redacción y traducción de textos en chino, lo que amplía su aplicabilidad en el mercado.
Para aquellos interesados en aprovechar el modelo completo DeepSeek-V3-0324, es importante tener en cuenta que se requieren requisitos de sistema significativos. Los usuarios necesitarán un mínimo de 700 GB de espacio de almacenamiento libre y acceso a múltiples GPUs Nvidia A100 o H100. Para aplicaciones menos intensivas, existen versiones destiladas y con parámetros más compactos que pueden ser operadas eficazmente en una sola GPU, como la Nvidia 3090. Esta flexibilidad podría fomentar una adopción y experimentación más amplia dentro de la comunidad de desarrollo de IA. El modelo está disponible bajo la Licencia MIT, lo que facilita su uso en diversos proyectos.