Ofreciendo un gran rendimiento, el chip SuperNIC ACF ofrece conectividad de 3,2 Terabits/segundo para servidores GPU.
Enfabrica Corporation, compañía dedicada a las redes de alto rendimiento para casos de uso de inteligencia artificial (IA) y computación acelerada, ha anunciado la disponibilidad general de su revolucionario chip SuperNIC ACF de 3,2 Terabits/segundo (Tbps) y sistemas piloto.
La solución ACF proporciona conectividad Ethernet de múltiples puertos de 800 Gigabits/segundo (Gbps) a servidores GPU, superando en cuatro veces el ancho de banda y la resiliencia multipath de cualquier otro controlador de interfaz de red (NIC) adjunto a GPU.
Este chip está diseñado para interconectar lógicamente GPUs y aceleradores a través de una red escalable y de alto rendimiento en centros de datos de IA.
Desde Enfabrica indican que son la primera empresa en construir desde cero un chip SuperNIC que ofrece alto rendimiento, resiliencia y eficiencia en el movimiento de datos, exigidos por cargas de trabajo de entrenamiento, inferencia y generación aumentada por recuperación (RAG) asociadas con modelos de IA de vanguardia.
Beneficios de esta solución
Con su alto radix, gran ancho de banda y capacidades concurrentes de multipathing PCIe/Ethernet, el chip SuperNIC ACF puede escalar de manera única de cuatro a ocho GPUs de última generación por cada sistema servidor. Esto aporta unos grandes niveles de rendimiento, escala y resiliencia a los clústeres de IA.
La solución ACF SuperNIC introduce los beneficios del control total del operador y la programabilidad con redes definidas por software (SDN) al networking RDMA ampliamente desplegado en centros de datos de IA.
Equipado con interfaces Ethernet de 800, 400 y 100 Gigabits/segundo, un alto radix de 32 puertos de red y 160 carriles PCIe en un solo chip ACF-S, permite por primera vez construir clústeres de IA de más de medio millón de GPUs utilizando un diseño de red de dos niveles más eficiente. Esto facilita el mayor rendimiento de escala y la latencia de extremo a extremo más baja en todas las GPUs del clúster.
El stack de software ACF-S soporta operaciones estándar de comunicación colectiva y networking RDMA a través de un conjunto consistente de librerías compatibles con interfaces existentes.
Ofrece beneficios sustanciales de eficiencia operativa a los operadores de centros de datos, que ahora pueden desplegar una red de back-end común y de alto rendimiento en una flota de computación de IA compuesta por GPUs y aceleradores de múltiples proveedores.
Tecnologías avanzadas para clústeres de IA
La tecnología Resilient Message Multipathing (RMM), una innovación de Enfabrica, incrementa la resiliencia, la capacidad de servicio y el tiempo de actividad de los clústeres de IA a gran escala. RMM elimina las interrupciones de trabajos de IA debido a fallos e inestabilidades en los enlaces de red, mejorando el tiempo de entrenamiento efectivo y la eficiencia del cómputo GPU sin requerir cambios en el stack de software de IA o en la topología de la red.
La Red Definida por Software RDMA, exclusiva de la solución ACF-S, mejora la capacidad de depuración y permite personalizar y preparar para el futuro la capa de transporte en redes de IA para topologías de red en la nube optimizadas y a escala, sin comprometer el rendimiento.
Mediante el uso de Collective Memory Zoning, la solución ACF-S ofrece transferencias de datos de cero copia y baja latencia, mayor eficiencia en la gestión de la memoria del host y ancho de banda de ráfaga, mejorando colectivamente la eficiencia y la utilización general de FLOPs de las flotas de servidores GPU.
La disponibilidad del chip SuperNIC ACF está prevista para el primer trimestre de 2025. Tanto los chips ACF SuperNIC como los sistemas piloto ya se encuentran disponibles comercialmente para pedidos de Enfabrica y socios selectos.
Para más información sobre el nuevo SuperNIC ACF, puedes utilizar nuestro SERVICIO GRATUITO AL LECTOR, que encontrarás a continuación.