Huawei ha presentado SINQ, una tecnología de cuantización open source desarrollada por su Zurich Computational Systems Laboratory que promete reducir significativamente el consumo de memoria y los costes operativos de los grandes modelos de lenguaje (LLMs). Esta tecnología elimina la necesidad de procedimientos complejos de calibración y puede integrarse fácilmente en flujos de trabajo ya existentes. El código fuente está disponible bajo licencia Apache 2.0 en plataformas públicas, lo que permite a empresas y desarrolladores utilizar, modificar y desplegar SINQ con total libertad comercial.
El gran beneficio de SINQ radica en su capacidad de compresión avanzada. Pruebas realizadas indican que puede disminuir el uso de VRAM en modelos de distintos tamaños entre un 60% y un 70%. Esto hace posible ejecutar modelos que antes requerían más de 60 GB de memoria en sistemas con un máximo de 20 GB. Consecuentemente, cargas de trabajo que antes exigían GPUs de nivel empresarial como la Nvidia A100 80GB o H100 ahora pueden funcionar en tarjetas de consumo como la Nvidia RTX 4090, que ronda los 1.600 USD (unos 1.500 EUR). Este ahorro también se traduce en una reducción notable de costes por hora en entornos cloud.
SINQ: innovación en cuantización para menor consumo y mayor precisión
SINQ consigue estas mejoras gracias a dos innovaciones clave. La primera es la estrategia de “muestreo dual-eje”, que rompe con la cuantización tradicional basada en un solo factor de escala al aplicar vectores de escala independientes a filas y columnas de una matriz. Esto flexibiliza la distribución de errores de cuantización y disminuye el impacto de valores atípicos. La segunda parte toma inspiración de las iteraciones Sinkhorn, implementando un método rápido de normalización para equilibrar las desviaciones estándar en ambas dimensiones de la matriz. Así se reduce el desequilibrio y se mejora la precisión del modelo cuantizado.
Las comparativas de rendimiento sitúan a SINQ por delante de otras técnicas populares libres de calibración como RTN y HQQ. Evaluado en modelos consolidados como Qwen3 y LLaMA, SINQ reduce notablemente la perplexidad en conjuntos de datos de referencia como WikiText2, alcanzando niveles de precisión similares a aquellos de métodos que requieren calibración con datos. Además, la tecnología consigue velocidades de cuantización aproximadamente el doble que HQQ y más de 30 veces superiores a AWQ, cubriendo así las exigencias de eficiencia tanto para investigación como para producción.
La cuantización, en el ámbito de la compresión de modelos, implica reducir la precisión de los datos internos para minimizar el tamaño del modelo y su consumo de memoria. Se puede comparar con convertir una imagen de alta resolución (números en coma flotante) a un formato más ligero con pérdida mínima perceptible (valores enteros), lo que facilita una ejecución más rápida y eficiente del modelo. La perplexidad es un indicador común para evaluar la calidad de los modelos de lenguaje, que mide la incertidumbre o “sorpresa” de un modelo ante un texto nuevo. Valores más bajos reflejan mejor capacidad predictiva y comprensión lingüística.
La introducción de SINQ supone un paso relevante para hacer más accesibles y sostenibles los grandes modelos de lenguaje, particularmente en entornos con recursos limitados. Al combinar innovaciones matemáticas específicas con facilidad de uso y despliegue abierto, esta tecnología puede revolucionar la forma en que organizaciones y desarrolladores implementan soluciones basadas en inteligencia artificial a gran escala.