El reciente anuncio del canal de desarrolladores Ascend AI en WeChat revela que Ascend 0 Day ha ampliado su soporte al modelo GLM-5.2, implementando optimizaciones específicas para tareas de programación y de largo recorrido. Según información oficial, los productos de la serie Ascend A3 han conseguido soportar la implementación de inferencia del modelo GLM-5.2 tanto en configuraciones de una sola máquina como en despliegues de gran escala en paralelo.
Las optimizaciones de inferencia para GLM-5.2 incluyen la introducción de un operador MOE de gran fusión. Este avance unifica el enrutamiento de expertos, cálculos ponderados y la fusión de resultados en un operador único, reduciendo significativamente la redundancia en la lectura y escritura de tensores intermedios y mejorando la eficiencia computacional. Además, al optimizar la comunicación AllReduce combinándola con ReduceScatter y AllGather en una línea de producción acoplada con cálculos matriciales, se logra minimizar la latencia de comunicación.
Por otro lado, se han logrado mejoras notables en el preprocesamiento de la atención combinada con la optimización de predicción de múltiples tokens, mostrando un rendimiento destacado en la eficiencia de generación por paso. Para abordar la competencia de recursos en escenarios de cargas mixtas altamente concurrentes, se introdujo la programación de retardo de pre-llenado, reduciendo efectivamente la competencia de recursos en la fase Prefill hacia Decode.
Optimización de Infraestructura y Precisión
La tecnología IndexCache en las optimizaciones de caché inteligente e indexación ha mejorado el rendimiento de la inferencia en contextos largos. Esto se logró mediante el almacenamiento en caché de rutas de experto de alta frecuencia y tablas de enrutamiento estático, junto con métodos como Prefill fragmentado y recuperación de índice disperso, mejorando aún más la eficiencia del modelo. La separación de las fases Prefill y Decode, junto con la tecnología de caché de prefijos, ha comprimido las fluctuaciones en la latencia de decodificación, mejorando la estabilidad del rendimiento en línea.
智谱 ha anunciado la disponibilidad y código abierto del modelo GLM-5.2. En la plataforma de evaluación de programación global Code Arena, el modelo ha mostrado un rendimiento excelente. Su capacidad para tareas largas está entre las mejores, superando a modelos como Claude Opus 4.7 y 4.8, y se erige como el modelo de código abierto de mayor rango actualmente. El GLM-5.2 ha sido optimizado específicamente para tareas de largo recorrido, manteniendo su posición como el mejor en programación abierta, comparable con Claude Opus 4.8.
Dada la necesidad de nuevos requerimientos computacionales, las optimizaciones en la infraestructura han reducido el cálculo por token en una longitud de contexto de 1M FLOPs a 2.9 veces en GLM-5.2. Este modelo también ha sido adaptado desde el primer día a múltiples plataformas nacionales de computación, incluidas Huawei Ascend, PingTouGe, Moore Threads, Cambricon, Kunlun Xin, Muxi, Hygon y Biren. Con el lanzamiento esperado del supernodo Ascend 950 a finales de este año, se anticipa que proporcionará un respaldo robusto de computación para GLM-5.2.